杰西卡 發自 凹非寺
量子位 | 公眾號 QbitAI
AI行業,最稀缺的搶手貨變了。
李飛飛提出“空間智能”后,行業正在形成一個越來越明顯的趨勢判斷:大模型之后,世界模型、具身智能正成為資本和產業關注的新焦點。
然而,AI開始轉向理解并作用于真實的物理世界之時,一個尷尬的現實也隨之浮現:
訓練這些模型所需的真實物理世界交互數據,極度稀缺——缺到甚至有業內觀點認為,需求與供給之間,可能存在近十萬倍的差距。
因為過去的大模型,靠海量文本和圖片就能完成語言理解與生成,但具身智能需要的是“決策→行動→反饋”的完整鏈條——這些靜態、缺乏因果和交互的數據,很難再滿足需求。
行業迫切需要一種全新的數據:來自真實物理世界、帶有因果邏輯、能持續產出的交互數據。
![]()
于是,高質量的物理世界數據,成為當下戰略級的稀缺資源;而能為行業持續、低成本、大規模生產物理世界數據的玩家,也逐漸被推上風口。
有意思的是,業內人士告訴量子位,AI時代最大的物理世界數據入口之一,很可能正在從一個很多人意想不到的行業里誕生,那就是出行平臺。
你可能并不知曉,平日里常用的出行服務平臺,除了出行服務之外,正在用數據新業務“賺外快”。
出行平臺,流行起用數據“賺外快”?
出行服務行業,最近逐漸流行起一門新的生意:手握海量真實道路一手數據源的平臺們,正通過數據資產化、服務化等方式,開辟第二增長曲線。
而且這些平臺中,已經有玩家成功變現,初步驗證了商業化路徑的可行性。
最先對外披露具體數據的,是廣汽集團旗下的出行服務平臺——如祺出行。
![]()
如祺出行在2025年財報中披露,以AI數據業務為主要收入來源的技術服務板塊,已成為公司增長最快的板塊。
而這個AI數據業務,指的是如祺出行的數據業務板塊(以下簡稱“如祺數據”),最早布局于2023年。
彼時,如祺出行在2023年5月獲批了乙級測繪資質,開始將那些搭載激光雷達、高精度慣導、周視與環視攝像頭等傳感器的智能駕駛數據采集車,投入常態化運營。
這些車輛在提供出行服務的同時,也在合規采集真實的駕駛和道路數據。而如祺數據也在采集數據的過程中,不斷延伸其數據服務能力。
![]()
直到最近,如祺數據首次對外完整披露了其AI數據資產及能力版圖。
公開信息顯示,其數據資產已覆蓋標注數據、行為數據、合成數據及多模態訓練數據集四大類,涵蓋從原始采集到加工交付的全鏈條。
這其中,標注數據是基礎,行為數據則記錄了駕駛員在實際道路環境中的操作決策,合成數據用于補充長尾場景,多模態訓練數據集則覆蓋圖像、文本、音頻與視頻,可以直接用于大模型的垂類微調。
規模上,如祺數據已搭建起一張覆蓋面可觀的數據采集網絡。
截至2026年5月,公司在廣州、上海、重慶、沈陽等城市,部署了超過300輛智能駕駛數據采集車。
通過近三年的常態化運營,這些車輛的日均產出已經達到1600小時、130TB;平臺亦累計沉淀出千萬級的高價值駕駛場景片段。
![]()
這些片段背后,本身就是完整的真實世界交互過程。從這個角度看,平臺產生的數據,更像是在持續生產物理世界的“切片”。
而規模之外,商業化進展才是真正檢驗其模式可行性的關鍵。
在如祺財報中,2025年,以AI數據服務為主要收入來源的技術服務板塊,錄得營收1.6億元,同比大增487.4%。
這一增速說明,市場對高質量物理世界數據的需求正在快速釋放。
如祺數據的客戶結構也能驗證這一結論。據介紹,公司服務目前已覆蓋智能駕駛、具身智能、大模型、消費電子、醫療等多個領域;騰訊、小馬智行、理想、火山引擎、百度智能云、廣汽集團等頭部企業都是其客戶。
![]()
也就是說,從出行服務衍生出的數據服務,已經具備跨行業解決實際需求的能力,并且能跑通從數據采集、加工到商業化交付的完整閉環。
隨之而來的變化是,外界更新了對如祺這類出行平臺的認知。
具備全鏈條數據服務能力的如祺,不再只是一家出行服務商,也不單單是傳統的數據標注服務商,而是在向“數據集+全棧能力”的綜合服務商升級。
而這種“數據集+全棧能力”的閉環能力,很可能也會成為下一代AI中,不可或缺的底層基礎設施之一。
出行平臺,為什么突然造就了AI基礎設施?
想更好理解出行平臺的身份轉變,其實可以將其拆解為兩個更本質的問題:
為什么AI行業對物理世界數據如此渴求?
以及,為什么出行平臺恰恰能填補這個缺口?
一切要從李飛飛對世界模型的定義說起。她認為,當前主流的大語言模型存在一個致命缺陷,就是缺乏“空間智能”——即對三維物理世界進行感知、推理和行動的能力。
因此,李飛飛倡導構建一種全新的AI系統,讓機器能像人類一樣,理解三維物理世界的運行法則,并完成互動。
這套系統,就是她所說的“世界模型”。而世界模型需要具備三個最核心的標準:生成性、多模態性、交互性。
![]()
這意味著,訓練下一代AI所需的數據,必須同時具備這三個特征,尤其是“交互性”——數據不能只是被動的視覺呈現,還必須包含“動作-反饋”閉環的完整因果鏈條。
但問題在于,當前行業能夠穩定獲取的物理世界交互數據,遠遠無法滿足訓練需求。
因為傳統的數據供給方式主要有三種,且各有局限:
- 其一,是從互聯網上爬取公開圖片和視頻,這些數據大多是靜態的、缺乏交互信息;
- 其二,是在實驗室或仿真環境中人工搭建場景,成本相對高、規模較小;
- 其三,是眾包采集,不過數據的質量和一致性有時難以保證。
短期內,三種方式都難以持續、大規模地產出帶有因果邏輯的交互數據。
這正是當前行業面臨的核心瓶頸。高質量、高保真、帶交互標簽的物理世界數據極度匱乏,需求與供給之間存在巨大缺口。
在這種背景下,出行賽道恰恰具備生產、積累這類高價值數據的天然優勢。
與傳統的數據供給方式不同,出行平臺的數據采集邏輯是嵌入真實運營。
每一輛數據采集車,本質上都是一個移動的感知終端,在完成日常出行服務的同時,同步記錄“駕駛員決策—車輛響應—環境反饋”的完整交互鏈條。
![]()
這種閉環數據天然具備多模態對齊、時序連續和因果邏輯的特征。
用如祺對外展示的泊車場景舉例:
如祺數據不僅會記錄3D障礙物的位置信息,還會同步采集汽車底盤的CAN信號(反映車輛狀態,如方向盤轉角、油門剎車)、毫米波雷達回波、激光點云與攝像頭視頻。
這些多模態數據圍繞泊車場景,形成了“行為(駕駛員操作)-狀態(車輛響應)-環境(周圍反饋)”的聯合數據集。
在訓練AI時,這類數據不僅能告訴模型“是什么”,還能幫助模型理解“為什么”,比如為什么要避讓、如何判斷車位可用性等需要物理常識和因果推理的任務。
有長期關注AI大模型訓練的分析人士告訴量子位,這類具有完整推理、決策和反饋鏈條的數據,就是訓練空間智能模型的“黃金數據礦”。
如祺數據也是基于這種獨特的數據源,得以系統性地構建其全鏈條服務能力。
技術層面,如祺數據自研的OCC自動化標注算法,采用同源底圖與自動化算法,可減少90%人工標注時間,交付準確率超98%。
其合成數據模塊可一鍵生成雨、霧、雪、夜等長尾場景,彌補真實采集盲區;多模態數據集則覆蓋圖像、文本、音頻與視頻,可以直接支持大模型的垂類微調。
![]()
這套能力的本質,是將其在自動駕駛領域驗證過的數據工程化經驗——從合規采集、規模化清洗、精準標注到合成增強——打包成標準化產品。
客戶可以“開箱即用”,無需從零搭建底層采集與處理能力,就能直接獲取經過深度加工的標準化數據集與工具鏈。
在這一點上,如祺數據和Scale AI的邏輯有點類似:
不僅提供數據,還提供讓客戶“更懂數據、更高效用數據”的工具與方法論,從而降低高質量物理數據的使用門檻,提升客戶的模型迭代效率。
這在一定程度上降低了真實物理數據的使用門檻,也讓數據能力的適用范圍,能從自動駕駛擴展到具身智能、大模型、消費電子、醫療等多個領域。
![]()
也可以說,規模和能力只是基礎,而出行平臺真正的想象空間,更在于它以場景為原點、向更多物理世界場景泛化的潛力。
這也是AI發展歷程中一再被證明的結論:得“場景”者,得天下。
得“場景”者,得天下
走進物理世界后,AI行業的底層邏輯正在變化——AI的競爭正在從算法轉向場景。
正如移動互聯網催生了基于位置的服務(LBS)數據金礦,云計算成為了數字經濟的通用基建。
在AI邁向“空間智能”的當下,那些能持續、低成本產出真實物理世界交互數據的「場景」,也正成為新時代最核心的基礎設施。
在這一背景下,越來越多人開始意識到:場景可能比算法更稀缺。
因為算法可以被復現,但一個真實、高頻、且能產生閉環交互數據的物理場景,卻極難被復制或搬運。
而數據本質上其實是場景的“溢出”,擁有場景,就擁有了持續產生數據飛輪的可能性。
出行平臺,就是這樣一個幾乎堪稱完美的“元場景”:它覆蓋了海量的公共道路空間,涉及持續的人機共駕決策,每天發生數以億計的交互事件。
這些要素疊加在一起,構成了一個天然的數據生產系統。
![]()
并且出行平臺采用的“業務即采集”模式,還在成本上天然具備明顯優勢。
傳統的專業數據采集,需要投入專門的采集車、專門的駕駛員、專門的場地,成本高昂,規模化難上加難。
但像如祺出行的采集車,本身就是網約車,在提供服務的同時完成數據采集,邊際成本被大幅攤薄。
更重要的是,這種數據能力,還可以從駕駛場景向更廣泛的物理世界延伸。
據接近如祺出行的人士透露,該公司正嘗試將“人-車-環境”的交互數據能力泛化至更多應用領域,例如具身智能在車后服務場景,包括洗車、換電、維保、清理等。
車后服務場景作為出行場景的一部分,是如祺出行最擅長、數據積累最深的領域,如祺可以自然地切入,形成真實服務閉環。
而在這些場景中,機器人需要理解的避障、路徑規劃、精細操作等底層邏輯,和自動駕駛有高度的數據同構性。
這種“低成本、高交互”的數據生產模式,一旦在一個垂直場景跑通,就具備了成為行業標配的潛力。
一個更長期的趨勢是,未來,那些擁有深厚物理場景運營經驗的企業,其核心資產可能不僅是服務本身,更是其業務過程中持續產生的、高價值的場景數據。
這些數據經過系統性的治理與產品化,或許可以反哺乃至重塑AI產業。
就像出行平臺這樣的巨型物理世界接口一樣,在C端,平臺仍是運人的服務商;而在B端,出行平臺的身份,已經進化成為AI理解并進入真實世界的、至關重要的物理數據入口。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.