![]()
智東西
作者 許麗思
編輯 漠影
過去幾年,大模型的發展證明了,模型進化依賴于底層數據紅利的爆發,數據就是模型的能力邊界。
這也是當前具身智能行業的一大共識。雖然VLA、世界模型等各種技術路線五花八門,行業尚未形成統一答案,但對數據重要性的判斷已經趨于一致:數據荒漠已成為制約具身智能泛化能力突破的核心瓶頸。
與此同時,具身智能處于從實驗室探索走向產業化前夜。
摩根士丹利預測,2050年全球具身智能市場規模有望達到5萬億美元,中國市場也將在2035年前后邁入萬億元規模。
萬億市場風口就在眼前,但是數據荒漠的瓶頸,讓無數算法原型都只能停留在實驗室,沒法大規模地進入各行各業。
這種預期與現實的巨大落差,正在迅速放大具身智能行業對數據的需求。
圍繞這一需求,各地政府開始大力建設具身智能數據采集基地、實訓場和跨本體數據平臺,多家數據產業鏈企業也在接連獲得大額融資。曾經作為機器人、模型幕后配套的數據環節,走到了產業和資本共同關注的舞臺中央。
一、數據產能快速膨脹,行業卻卡在這“最后一公里”
隨著具身智能模型訓練進入數據驅動階段,數據采集成為各方爭奪的新陣地,大廠、本體公司、零部件供應商都跑步進場。
QYResearch數據顯示,2024年全球具身智能數據采集工廠市場規模大約為7.53億美元,預計2031年將達到67.52億美元,年復合增長率高達36.8%。
數據規模也成為新一輪競爭焦點,千尋智能、靈巧智能、深度機智、覓蜂科技、光輪智能等企業相繼提出百萬小時乃至千萬小時級數據目標。企業希望通過更大規模的數據,增加任務和場景覆蓋,推動模型獲得更強的泛化能力。
與此同時,傳統數采方式成本高、擴展慢,需要投入大量硬件、場地和專業人員,難以快速覆蓋真實世界中海量復雜場景,這就使得Ego-centric(第一人稱)數據范式開始備受關注。
Ego-centric數據由頭戴相機采集,其視角與執行者一致。相比第三人稱觀察,第一人稱視角保留了真實的遮擋關系、視野邊界與運動視差,視覺分布與機器人頭部相機的感知輸入高度一致。
NVIDIA在Ego-Scale中的研究表明,Ego-centric數據規模與驗證損失之間呈現近對數線性的scaling law。這意味著,它不僅是遙操作數據的補充,而是具有可預測增益的獨立監督來源。
在東南亞、印度等地,不少人只需佩戴輕量化采集設備完成家務、勞動任務,就能同步生成大量第一人稱交互數據。這種社會化眾包的數采方式,顯示出在成本和規模上的巨大潛力。
采集門檻降低之后,數據處理難題卻隨之放大。模型訓練所需要的數據模態非常豐富,包含了視覺、力覺、關節軌跡和語言指令等,對時空、因果對齊精度要求極高。
不過,傳統數據服務商推出的數據工具鏈功能多數較為分散,采集、標注、質檢、格式轉換和訓練對接往往分布在不同工具和流程中。有業內人士提到,模型訓練團隊往往需要花費大量精力和時間在內部搭建數據管線連通數據生產、清洗、評估、篩選等不同環節,“有時候這些成本甚至是數據采集的3到5倍。”
當行業大力推動具身智能落地時,從原始數據到可用于訓練數據之間的“最后一公里”,已逐漸成為影響模型進化、機器人泛化能力和商業落地效率的隱形卡點。
這意味著,真正有價值的不是有多大規模的數據,而是有多少“能用”且“好用”的數據,這一點與數據處理能力直線相關。
因此,為突破具身智能的數據瓶頸,業界的關注點也開始從只盯著如何獲得更多數據,擴展到如何將原始數據高效轉化為可直接訓練的數據資產。
二、從原始視頻到訓練數據,打造一條自動化流水線
最近,行業內出現不少面向數據處理全流程的平臺化方案,試圖將過去分散在不同環節的處理工作重新整合。其中,出行服務平臺如祺出行旗下如祺數據近期發布的具身智能數據平臺,就是一個典型的觀察樣本。
這個平臺將數據導入、AI預處理、動作標注、質量審核和標準化導出納入統一流水線,降低Ego-centric數據從采集到訓練的邊際成本。
![]()
▲具身智能數據平臺六步式數據自動化處理全流程
具體來說,如祺具身數據平臺的自動化處理流水線,會在Ego-centric視頻輸入后,先將原始視頻進行手部檢測、相機位姿估計和手部3D姿態優化三階段AI預處理,輸出結構化軌跡;
![]()
▲標注工作臺手部軌跡可視化界面
接著,再借助面向長序列動作切片的標注工作臺和五維自動質檢報告,最終生成可直接對接LeRobot、HDF5、JSON、ROS 2 MCap等主流訓練與仿真框架的標準化數據集。
![]()
▲自動質檢可視化審核操作界面
從流程上看,這套平臺的第一個核心價值是將零散工具重組為統一生產鏈路,過去需要由不同平臺協同完成的工作被納入到統一流程中,提升數據處理的標準化、自動化和可追溯水平。
第二個核心價值體現在數據使用門檻上。原始視頻能夠更快轉化為可直接訓練的數據資產,減少模型團隊搭建內部數據管線、質量校驗和格式適配的成本。
更深一層看,平臺通過固定流程和質量標準,讓具身數據從項目制加工逐步走向可重復、可規模復制的工業化生產。
![]()
▲平臺全自動AI預處理三階段流水線架構
光看功能,如祺具身數據平臺與其他數據處理工具似乎并無本質不同。但更值得關注的問題是,一家出行平臺為什么會在具身智能數據產業中找到位置?
三、扎根海量真實場景,沉淀完整、可復用能力
在眾多具身智能數據參與者中,如祺數據的特殊性,在于其是由出行平臺和智能駕駛數據業務延伸而來。
自動駕駛與具身智能雖然面向不同領域的任務,但都需要AI理解真實物理世界,都需要處理復雜環境、多模態信息和大量長尾場景,為數據工程能力遷移提供了基礎。
自2023年起,如祺出行開始布局如祺數據,推出AI數據解決方案,圍繞智能駕駛建立數據采集、規模化處理、精準標注、合成數據、多模態處理和數據治理等能力,形成了一套相對完整的數據服務鏈路。
相關服務已經獲得了業務驗證。公開信息顯示,如祺數據的客戶包括小馬智行、理想、騰訊等企業,2025年,如祺出行以該業務為主要收入來源的技術服務板塊營收已達1.60億元,同比增長487.4%。
數據也顯示,如祺出行在2025年出行服務訂單達2.33億單。每一張訂單背后,都是真實的出行和智能駕駛等物理場景。
通過常態化運營的Robotaxi和智能駕駛采集車,如祺出行能夠持續以低成本積累多模態物理世界數據, 同時也在面向智能駕駛領域的AI數據服務中沉淀出有效處理物理世界復雜數據的能力,包括數據標注、治理、交付等。現在,這些能力正向具身智能等更多物理AI領域外溢。
目前,如祺出行在廣州、上海、重慶等地常態化部署超過300輛智能駕駛采集車,每天產生約1600小時、130TB多模態數據。以高價值出行場景為基礎,該公司未來還有機會在相關的物理AI領域,提供明確的數據生產與應用入口。
有消息稱,如祺出行已在具身智能領域獲得商業化訂單,同時還在探索將平臺積累的數據用于車后服務機器人訓練,覆蓋洗車、換電、維修等場景。
從行業實踐看,具身智能比較理想的數據獲取方式,是機器人在落地過程中持續產生數據。當前,不少機器人企業與家電廠商、汽車企業等合作,讓機器人進入真實業務流程,在執行任務時發現問題、沉淀數據,再將結果用于模型優化。
依托真實業務場景,如祺出行也有機會形成類似循環。運營場景中產生各類任務,采集和處理相關數據,讓模型完成訓練后重新進入應用環境,新的執行結果再回流到數據系統,逐步形成“任務發生—數據沉淀—模型訓練—應用落地—數據回流”的持續閉環。
相較于一次性搭建的采集場景,真實運營場景能夠持續發現真實環境中的復雜情況和長尾問題。盡管有可能帶來較高的管理難度,但一旦數據生產、模型訓練和應用任務能夠順暢連接,真實場景對機器人能力迭代和商業落地的價值也會更加直接。
結語:具身智能,亟需可規模化的數據方案
當前,行業面臨的核心問題已經不只是能否采到更多數據,而是能否以可承受的成本,將海量原始數據持續轉化為高質量訓練資產。
所以,真正可規模化的數據方案,需要在采集、處理、標注、質檢、格式適配和訓練對接之間,建立標準化、自動化且可追溯的完整鏈路,才能避免數據規模擴大后,成本大幅上升、管理變得難以控制。
如祺數據的價值仍需通過真實項目中的數據質量、交付效率和成本優勢持續驗證,但新平臺通過重組數據處理全流程變成標準化工業流水線的做法,正為具身智能行業突破當下的數據困境提供了一條可落地、可參照的探索路徑。
那就是,以工程手段,加快將原始數據大規模且高效地轉化為可直接訓練的數據資產,提高現有數據“可用度”,同時為具身數據規模擴張后的數據應用降本打下基礎。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.