網易首頁 > 網易號 > 正文申請入駐

具身智能的數據困境，不只在數量

2026-06-24 22:11:53　來源: 智東西

北京舉報

分享至

智東西
作者許麗思
編輯漠影

過去幾年，大模型的發展證明了，模型進化依賴于底層數據紅利的爆發，數據就是模型的能力邊界。

這也是當前具身智能行業的一大共識。雖然VLA、世界模型等各種技術路線五花八門，行業尚未形成統一答案，但對數據重要性的判斷已經趨于一致：數據荒漠已成為制約具身智能泛化能力突破的核心瓶頸。

與此同時，具身智能處于從實驗室探索走向產業化前夜。

摩根士丹利預測，2050年全球具身智能市場規模有望達到5萬億美元，中國市場也將在2035年前后邁入萬億元規模。

萬億市場風口就在眼前，但是數據荒漠的瓶頸，讓無數算法原型都只能停留在實驗室，沒法大規模地進入各行各業。

這種預期與現實的巨大落差，正在迅速放大具身智能行業對數據的需求。

圍繞這一需求，各地政府開始大力建設具身智能數據采集基地、實訓場和跨本體數據平臺，多家數據產業鏈企業也在接連獲得大額融資。曾經作為機器人、模型幕后配套的數據環節，走到了產業和資本共同關注的舞臺中央。

一、數據產能快速膨脹，行業卻卡在這“最后一公里”

隨著具身智能模型訓練進入數據驅動階段，數據采集成為各方爭奪的新陣地，大廠、本體公司、零部件供應商都跑步進場。

QYResearch數據顯示，2024年全球具身智能數據采集工廠市場規模大約為7.53億美元，預計2031年將達到67.52億美元，年復合增長率高達36.8%。

數據規模也成為新一輪競爭焦點，千尋智能、靈巧智能、深度機智、覓蜂科技、光輪智能等企業相繼提出百萬小時乃至千萬小時級數據目標。企業希望通過更大規模的數據，增加任務和場景覆蓋，推動模型獲得更強的泛化能力。

與此同時，傳統數采方式成本高、擴展慢，需要投入大量硬件、場地和專業人員，難以快速覆蓋真實世界中海量復雜場景，這就使得Ego-centric（第一人稱）數據范式開始備受關注。

Ego-centric數據由頭戴相機采集，其視角與執行者一致。相比第三人稱觀察，第一人稱視角保留了真實的遮擋關系、視野邊界與運動視差，視覺分布與機器人頭部相機的感知輸入高度一致。

NVIDIA在Ego-Scale中的研究表明，Ego-centric數據規模與驗證損失之間呈現近對數線性的scaling law。這意味著，它不僅是遙操作數據的補充，而是具有可預測增益的獨立監督來源。

在東南亞、印度等地，不少人只需佩戴輕量化采集設備完成家務、勞動任務，就能同步生成大量第一人稱交互數據。這種社會化眾包的數采方式，顯示出在成本和規模上的巨大潛力。

采集門檻降低之后，數據處理難題卻隨之放大。模型訓練所需要的數據模態非常豐富，包含了視覺、力覺、關節軌跡和語言指令等，對時空、因果對齊精度要求極高。

不過，傳統數據服務商推出的數據工具鏈功能多數較為分散，采集、標注、質檢、格式轉換和訓練對接往往分布在不同工具和流程中。有業內人士提到，模型訓練團隊往往需要花費大量精力和時間在內部搭建數據管線連通數據生產、清洗、評估、篩選等不同環節，“有時候這些成本甚至是數據采集的3到5倍。”

當行業大力推動具身智能落地時，從原始數據到可用于訓練數據之間的“最后一公里”，已逐漸成為影響模型進化、機器人泛化能力和商業落地效率的隱形卡點。

這意味著，真正有價值的不是有多大規模的數據，而是有多少“能用”且“好用”的數據，這一點與數據處理能力直線相關。

因此，為突破具身智能的數據瓶頸，業界的關注點也開始從只盯著如何獲得更多數據，擴展到如何將原始數據高效轉化為可直接訓練的數據資產。

二、從原始視頻到訓練數據，打造一條自動化流水線

最近，行業內出現不少面向數據處理全流程的平臺化方案，試圖將過去分散在不同環節的處理工作重新整合。其中，出行服務平臺如祺出行旗下如祺數據近期發布的具身智能數據平臺，就是一個典型的觀察樣本。

這個平臺將數據導入、AI預處理、動作標注、質量審核和標準化導出納入統一流水線，降低Ego-centric數據從采集到訓練的邊際成本。

▲具身智能數據平臺六步式數據自動化處理全流程

具體來說，如祺具身數據平臺的自動化處理流水線，會在Ego-centric視頻輸入后，先將原始視頻進行手部檢測、相機位姿估計和手部3D姿態優化三階段AI預處理，輸出結構化軌跡；

▲標注工作臺手部軌跡可視化界面

接著，再借助面向長序列動作切片的標注工作臺和五維自動質檢報告，最終生成可直接對接LeRobot、HDF5、JSON、ROS 2 MCap等主流訓練與仿真框架的標準化數據集。

▲自動質檢可視化審核操作界面

從流程上看，這套平臺的第一個核心價值是將零散工具重組為統一生產鏈路，過去需要由不同平臺協同完成的工作被納入到統一流程中，提升數據處理的標準化、自動化和可追溯水平。

第二個核心價值體現在數據使用門檻上。原始視頻能夠更快轉化為可直接訓練的數據資產，減少模型團隊搭建內部數據管線、質量校驗和格式適配的成本。

更深一層看，平臺通過固定流程和質量標準，讓具身數據從項目制加工逐步走向可重復、可規模復制的工業化生產。

▲平臺全自動AI預處理三階段流水線架構

光看功能，如祺具身數據平臺與其他數據處理工具似乎并無本質不同。但更值得關注的問題是，一家出行平臺為什么會在具身智能數據產業中找到位置？

三、扎根海量真實場景，沉淀完整、可復用能力

在眾多具身智能數據參與者中，如祺數據的特殊性，在于其是由出行平臺和智能駕駛數據業務延伸而來。

自動駕駛與具身智能雖然面向不同領域的任務，但都需要AI理解真實物理世界，都需要處理復雜環境、多模態信息和大量長尾場景，為數據工程能力遷移提供了基礎。

自2023年起，如祺出行開始布局如祺數據，推出AI數據解決方案，圍繞智能駕駛建立數據采集、規模化處理、精準標注、合成數據、多模態處理和數據治理等能力，形成了一套相對完整的數據服務鏈路。

相關服務已經獲得了業務驗證。公開信息顯示，如祺數據的客戶包括小馬智行、理想、騰訊等企業，2025年，如祺出行以該業務為主要收入來源的技術服務板塊營收已達1.60億元，同比增長487.4%。

數據也顯示，如祺出行在2025年出行服務訂單達2.33億單。每一張訂單背后，都是真實的出行和智能駕駛等物理場景。

通過常態化運營的Robotaxi和智能駕駛采集車，如祺出行能夠持續以低成本積累多模態物理世界數據，同時也在面向智能駕駛領域的AI數據服務中沉淀出有效處理物理世界復雜數據的能力，包括數據標注、治理、交付等。現在，這些能力正向具身智能等更多物理AI領域外溢。

目前，如祺出行在廣州、上海、重慶等地常態化部署超過300輛智能駕駛采集車，每天產生約1600小時、130TB多模態數據。以高價值出行場景為基礎，該公司未來還有機會在相關的物理AI領域，提供明確的數據生產與應用入口。

有消息稱，如祺出行已在具身智能領域獲得商業化訂單，同時還在探索將平臺積累的數據用于車后服務機器人訓練，覆蓋洗車、換電、維修等場景。

從行業實踐看，具身智能比較理想的數據獲取方式，是機器人在落地過程中持續產生數據。當前，不少機器人企業與家電廠商、汽車企業等合作，讓機器人進入真實業務流程，在執行任務時發現問題、沉淀數據，再將結果用于模型優化。

依托真實業務場景，如祺出行也有機會形成類似循環。運營場景中產生各類任務，采集和處理相關數據，讓模型完成訓練后重新進入應用環境，新的執行結果再回流到數據系統，逐步形成“任務發生—數據沉淀—模型訓練—應用落地—數據回流”的持續閉環。

相較于一次性搭建的采集場景，真實運營場景能夠持續發現真實環境中的復雜情況和長尾問題。盡管有可能帶來較高的管理難度，但一旦數據生產、模型訓練和應用任務能夠順暢連接，真實場景對機器人能力迭代和商業落地的價值也會更加直接。

結語：具身智能，亟需可規模化的數據方案

當前，行業面臨的核心問題已經不只是能否采到更多數據，而是能否以可承受的成本，將海量原始數據持續轉化為高質量訓練資產。

所以，真正可規模化的數據方案，需要在采集、處理、標注、質檢、格式適配和訓練對接之間，建立標準化、自動化且可追溯的完整鏈路，才能避免數據規模擴大后，成本大幅上升、管理變得難以控制。

如祺數據的價值仍需通過真實項目中的數據質量、交付效率和成本優勢持續驗證，但新平臺通過重組數據處理全流程變成標準化工業流水線的做法，正為具身智能行業突破當下的數據困境提供了一條可落地、可參照的探索路徑。

那就是，以工程手段，加快將原始數據大規模且高效地轉化為可直接訓練的數據資產，提高現有數據“可用度”，同時為具身數據規模擴張后的數據應用降本打下基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

主題演講：全密態計算，破解AI時代的數據安全難題 | 36氪WAVES2026新浪潮

36氪 2026-06-24 11:16:07
0 跟貼 0
具身數據戰開打！普通人都能上手，邊采邊篩，只喂機器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0

eICU 數據提取太耗時？這套零代碼方案更高效

醫咖會 2026-06-08 18:38:08
0 跟貼 0

數智時代的激勵重構：從“算法管控”到“心靈喚醒”的能量煉金術

經濟觀察報 2026-06-24 21:55:22
0 跟貼 0
中國存力登頂，AI算力投資進入下一階段？

每日經濟新聞 2026-06-24 22:36:06
0 跟貼 0

豆包專業版實測：2億人都可以體驗能干活的Agent了！

新智元 2026-06-24 15:41:28
0 跟貼 0

微信又一Agent開啟內測！主打提效

智東西 2026-06-24 13:37:59
0 跟貼 0
ICML 2026 | 北大提出的APEIRIA，打破了3D MLLM黑盒推理困境

機器之心Pro 2026-06-24 11:31:34
0 跟貼 0

她懟完人回頭笑，邏輯閉環到你張嘴都找不到縫

愛豆觀影 2026-06-24 10:54:10
4 跟貼 4
全部文件混在一個NAS里？老玩家教你分區存儲

野生運營 2026-06-21 00:31:46
0 跟貼 0
網友吐槽“被WPS背刺了”，公司回應

南方都市報 2026-06-23 20:17:09
1834 跟貼 1834
中方投下贊成票

政知新媒體 2026-06-24 09:57:23
2138 跟貼 2138
理想汽車主動安全技術登機器人兩大頂會量產學術雙突破

旭車評 2026-06-24 22:14:45
0 跟貼 0
字節、美團押注的“00后”團隊再拿數億元融資 3D生成賽道進入收斂期：僅產業落地者能“留在牌桌上”

每日經濟新聞 2026-06-24 21:24:17
0 跟貼 0
全新理想L8上市，把競爭推向“具身智能”

財聞 2026-06-24 13:05:34
0 跟貼 0
AJ-迪班薩：“后勒布朗時代”的聯盟門面，再添一員！

北青網-北京青年報 2026-06-24 20:59:15
7 跟貼 7
外婆背著女兒，偷偷給外孫女喂奶茶喝，童年在此刻完成了閉環

趣拍匣子 2026-06-23 12:13:20
1 跟貼 1
圓桌論壇：2026 科技的這一年 “少數，即浪潮” | 36氪WAVES2026新浪潮

36氪 2026-06-24 14:47:07
0 跟貼 0
深度科普：量子世界存在無限可能，你為何成為“現在的你”？

宇宙時空 2026-06-24 22:50:04
0 跟貼 0
豆包專業版采用三級階梯定價方案，最高一年6000元

第一財經 2026-06-24 09:14:12
1160 跟貼 1160
張家界大庸古城將重新開業！曾因耗資24億4年虧損超10億被焦點訪談“關注”

紅星新聞 2026-06-24 19:33:08
176 跟貼 176
福建高考分數線發布

央視新聞 2026-06-24 16:41:54
848 跟貼 848
楊瀚森上場5分鐘，沒有任何數據入賬，徐昕替補上場送出釘板大帽

體育書生阿南 2026-06-23 19:50:24
8 跟貼 8
1:9寶馬合金模型！避震聯動+燈光，細節絕了！#機車模型

制造科技 2026-06-23 01:02:22
0 跟貼 0
傳統豪華逆襲新勢力？奔馳純電GLC SUV補齊智能短板后有多能打？

科技客評 2026-06-22 18:51:57
3 跟貼 3
40款App被通報；理想CEO李想：汽車行業進入“不服就直播”狀態

元創數智在線 2026-06-23 14:01:49
1 跟貼 1
山東曲阜動物園被指將狗狗染成熊貓色用以宣傳引流，園方：若大家不喜歡會考慮取消

南陽日報 2026-06-24 18:34:49
59 跟貼 59
這渦扇模型真能轉還帶聲？全合金超1000零件！#硬核模型

制造科技 2026-06-22 19:32:06
0 跟貼 0
知情人士曝因后續淘汰賽未攜帶完整裁判組，馬寧基本確定無緣主裁機會；此前FIFA官宣馬寧擔任法國VS挪威比賽第四官員

封面新聞 2026-06-24 18:54:06
6 跟貼 6
美財長貝森特：一旦烏克蘭戰爭結束，預計俄羅斯將重新回到美元體系

瀟湘晨報 2026-06-24 21:10:28
3 跟貼 3
仙工智能登陸港交所，成為"機器人大腦"第一股

鈦媒體APP 2026-06-24 16:26:09
0 跟貼 0
個稅飆升12%，收入只增4.2%，反差信號背后的促消費難點｜商業微史記

界面新聞 2026-06-24 14:09:58
419 跟貼 419
乘聯分會：6月1—21日全國乘用車市場零售91.3萬輛同比下降23%

財聯社 2026-06-24 17:26:04
24 跟貼 24
華境S車主雙重權益加碼！ADS輔助駕駛+雙地圖數據服務重磅上線！

星車E圈 2026-06-24 11:38:08
3 跟貼 3
十二年異鄉求學被挖去雙眼的男孩考了個"全國第一"

新民周刊 2026-06-24 21:46:33
13 跟貼 13
全面試駕啟境GT7，華為乾崑加持的智能獵裝轎跑表現到底如何？

科技客評 2026-06-22 11:54:28
4 跟貼 4
41歲C羅梅開二度創六屆進球紀錄：不想與他人比較我只希望球隊能贏｜封面頭條

封面新聞 2026-06-24 10:09:03
228 跟貼 228
《GTA6》畫面疑似縮水！玩家很無奈：主機極限了

游民星空 2026-06-24 23:08:13
0 跟貼 0
多地優化政策：停車61分鐘，再不能按2小時收費了

陽泉日報 2026-06-24 16:57:00
46 跟貼 46
深成指、創業板指雙雙漲1%

每日經濟新聞 2026-06-24 13:32:06
60 跟貼 60

智東西

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

12114文章數 117112關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

房產

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

具身智能的數據困境，不只在數量

豆包專業版上線：定價68-500元每月

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀 誰還來投資

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀 誰還來投資

字母哥，會把凱爾特人拆了嗎？

向佐向佑兄弟合體直播！母子終于和解

逃稅23億：審計署年報直指七家機構

施鵬澤：為什么奧迪E7X強調座艙氣味安全?

態度原創

山為骨，水為血，天地為窖，時光為曲，釀一杯迎駕山河

瘋狂大樓！俄羅斯富豪想改變上海香港天際線？

白鵝潭新增優質宅地！沙涌地塊對望太古里，容積率僅 2.14

三星Galaxy Z Flip8國行版回歸高通平臺：自研芯片僅僅堅持了一代

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀誰還來投資

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀誰還來投資