正文共3112字,預計閱讀時間9分鐘
陽春三月,中國機器人行業又迎來年度狂歡,上海的中國人形機器人生態大會剛揭幕,北京亦莊的機器人馬拉松剛接著開跑,緊接著機器人產業鏈專業展又在深圳的國際會展中心開幕……
![]()
2026北京亦莊機器人馬拉松(圖源中新網)
場內盛會如火如荼,但場外卻在求解“數據之困”——目前,中國人形機器人長于“具身”,但是“智能”不夠,尤其是用于模型迭代的場景數據短缺,制約了機器人產業進一步發展。
2026年開年,中國機器人行業共識已從硬件比拼轉向數據供給的比拼。
高質量、多模態的真實世界交互數據,成為機器人從實驗室走向規模化落地的核心瓶頸。
京東的野心有多大
這個時候,電商外賣巨頭京東入局具身智能數據采集業務,宣布要建成全球最大具身數據采集中心,并推出一個數據采集的全鏈路基礎設施。
入局時機不早不晚,企圖心也足夠大——全球最大,也正好踩在數據荒最緊迫的當口。
![]()
京東在江蘇宿遷建成全球規模最大、場景最全的具身智能數據采集中心
京東是在蹭熱點嗎?
不全是。從這家電商巨頭的長期積累的供應鏈和場景資源來看,它還是有一定優勢和條件的。多年來,京東物流已在數百個倉庫部署了大量自主移動機器人,日常處理海量包裹,積累了豐富的運營數據和標注經驗。
不過,3月宣布的計劃里,他們聲稱一年內要采集100萬小時本體數據,卻遭到業內人士質疑。
因為一年內要采集百萬小時真機數據的話一般需要千臺本體,但是有客戶發現他們目前只有30臺機器人本體在采集數據。
這意味著需要大量外包才能做到一年內采集100萬小時本體數據。但是外包的數據質量和有效性能否保證呢?
首先是第三方外包帶來的質量一致性挑戰:不同公司的機器人硬件標準不一,傳感器標定差異容易引入噪聲,數據純度不如自控艦隊高。
其次,目前京東自控的本體數量有限,目標中的百萬小時本體數據主要依賴外包,若利用率或協調不到位,進度可能滯后。
再次,涉及數十萬參與者和家庭、醫療等敏感場景,隱私合規成本會隨規模上升,需要嚴格的同意機制和去標識化處理,這在一定程度上制約了數據可用性和采集速度。
最后,全鏈路平臺的精煉能力是關鍵考驗:視頻數據易得,但真正驅動模型進化的是多模態、可執行的交互數據,若標注精度和仿真閉環跟不上,容易出現“量大質不精”的情況。
機器視角不同于人類視頻
一個值得注意的點是京東數據以視頻為主,JoyEgoCam核心產出是人類第一人稱(egocentric)高清視頻+IMU軌跡數據,目標兩年內積累超1000萬小時人類場景視頻+100萬小時機器人本體數據。
視頻數據確實豐富(易于人力動員采集),可用于預訓練(如視覺-語言-動作VLA模型的語義理解、“what to do”層面),但具身智能真正需要的是“多模態、可執行的動作數據”(力反饋、關節扭矩、本體感知、精確3D軌跡、機器人-環境交互)。這是人類視頻難以做到的。
![]()
北京搭建人形機器人中試平臺(圖源 人民網)
另外,國外的多項研究指出,人類視頻存在“embodiment gap”(人體 vs 機器人運動學差異)、缺乏動作標簽、視角/噪聲問題,導致直接遷移難;純視頻適合泛化預訓練,但機器人策略學習仍高度依賴teleoperation(遠程操作)或真實機器人演示的“gold-standard”數據來學“how to do”。
京東宣稱未來會補充手部/肢體/動態軌跡采集,并通過標注/仿真閉環精煉,但若僅停留在視頻層面,模型泛化與實際部署可靠性仍存風險——這也是Tesla Optimus等全球玩家強調“艦隊真實交互數據+teleop”而非純被動視頻的原因。
可以說,京東最大限度利用了原有的數據標注團隊,把過去服務倉儲機器人的能力延伸到具身智能,同時通過眾包方式把部分采集任務外包給第三方數采公司,自己則專注提供場景和最終的“數據燃料”精煉。
這種輕資產、重場景的模式,讓京東得以快速鋪開,而無需一開始就重倉采購成千上萬臺本體機器人。
但這種模式能否持續,卻要打一個問號。
因為具身智能未來發展更傾向于“通用基礎模型+特定場景精細數據”的混合路徑,而非單純依賴京東式通用數據或完全專有數據。
通用數據的價值在于提供“what to do”的語義和廣義能力,支持zero-shot/ few-shot轉移(京東的跨場景策略符合此趨勢)。而專有數據不可或缺——垂直領域(如倉庫揀選 vs 家庭護理)有獨特數據壁壘,純通用模型難以達到商用級可靠性。
特斯拉自控艦隊的“數據閉環”
與京東的路徑不同,國外企業在數據采集上更偏向自控艦隊、遠程操作和仿真結合的閉環方式。
Tesla的Optimus項目是典型代表。他們在自家工廠內部署少量機器人作為數據采集平臺,同時招聘專業操作員穿戴VR設備和動捕裝備,進行遠程演示和任務錄制。這些數據直接喂給端到端神經網絡,輔以海量車輛駕駛數據的遷移學習,形成艦隊學習效應。
![]()
特斯拉人形機器人Optimus
目前Optimus主要還在工廠內用于學習和數據收集,尚未進入大規模生產階段,但通過自有場景的持續迭代,數據純度和一致性較高,適合訓練高泛化能力的動作策略。
Figure AI則選擇與大型地產集團合作,在真實住宅和商業空間里展開大規模預訓練數據采集,利用多樣化的生活環境捕捉人類目標導向行為,避免實驗室數據的單一性。
Agility Robotics的Digit機器人已在多家物流客戶現場部署,通過遠程操作和現場演示積累第一手數據,同時借助NVIDIA和MuJoCo等仿真平臺生成海量虛擬樣本,實現了從客戶反饋到模型優化的快速循環。
![]()
美國機器人公司Agility Robotics于2019年推出雙足人形機器人Digit
波士頓動力(Boston Dynamics)的Spot和Stretch則更多依托客戶實際部署場景,在巡檢、物流等真實任務中自然采集傳感器數據,再結合研究機構的仿真訓練,提升機器人在復雜動態環境下的適應力。
這些海外路徑共同特點是強調“數據閉環”:機器人本身既是采集工具,也是最終受益者,追求從采集到部署的無縫反饋,但規模擴張受限于硬件成本和部署進度。
國內其他企業也各有側重,形成了與京東互補的多樣格局。Galbot在蘇州建成具身智能數據采集中心,場地內布置約百臺機器人,在二十多個高度仿真的真實環境中同步運行,目標每年產出數千萬條多模態樣本,側重全鏈條技術驗證到應用示范的閉環。
Lumos Robotics推出背包式UMI采集設備FastUMI Pro,這種便攜工作站能直接讓操作員在工廠、家庭、酒店等六大真實場景中高效采集標準化數據,計劃2026年部署上萬臺,把采集從固定中心推向移動化。
![]()
Lumos Robotics 背包式UMI采集設備FastUMI Pro
優必選則依托Walker系列機器人在工廠的規模化部署,通過實際產線任務自然積累數據,并計劃2026年將產能提升至數千臺級別,側重以量帶質的工業場景優化。
![]()
優必選Walker S機器人
這些國內玩家的共同之處在于充分利用中國制造和場景密度優勢,有的專注專用中心,有的強調便攜采集,有的走開源共享路線,共同加速數據從“荒”到“豐”的轉變。
相比之下,京東數據采集的“人海戰術”,在具身智能數據元年確實展現出獨特效率。依托現有供應鏈,他們能低成本覆蓋多樣場景,通過眾包和標注團隊快速產出視頻和軌跡數據,短期內規模優勢明顯。
但長期來看,展望未來,京東這種模式的成敗,取決于能否把場景優勢真正轉化為數據飛輪的閉環效率。
有野心,還要有戰略
京東要想成為全球具身智能數據采集的標桿,關鍵在于三點:
一是持續提升數據質量,從視頻主導逐步向力反饋、關節扭矩等本體感知傾斜;(由于缺少本體研發制造,京東要在這個領域突破很難)
二是加強自控艦隊或teleop比例,降低對外包的依賴,形成更純凈的迭代循環;(這個屬于重資產的玩法,需要京東在戰略層面對具身智能有系統認知,才可能在這方面有重大轉變。
三是平衡規模與合規,在隱私保護前提下探索聯邦學習或邊緣計算等技術路徑。
只有當采集來的數據真正能驅動模型在真實部署中不斷進化,并反哺更多場景時,京東的“人海戰術”才能從數據供給者成長為行業基礎設施的核心玩家。
![]()
京東JoyEgoCam超高清采集終端
數據元年才剛剛開啟,各家路徑并行,最終勝出者將是那些把數據真正煉成“燃料”、實現采集-模型-部署正向循環的企業。
無論京東還是Tesla、Figure,無論人海還是艦隊,AI領域的數據采集最終只有一個黃金標準:能否促進模型/系統的迭代升級。
手握如此好的基礎條件,又趕上風口,但是戰略認識跟不上,再宏偉的口號也只能是空談了。
圖片來源于網絡
本文為“示范財經”原創文章,未經授權不得轉載或抄襲。如需轉載,請在文末留言區申請并獲得授權。
加入群聊,一起討論吧~同行都在這兒
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.