網易首頁 > 網易號 > 正文申請入駐

京東人海戰術，如何PK特斯拉艦隊？

2026-04-23 20:09:49　來源: 世范財經

廣東舉報

分享至

正文共3112字，預計閱讀時間9分鐘

陽春三月，中國機器人行業又迎來年度狂歡，上海的中國人形機器人生態大會剛揭幕，北京亦莊的機器人馬拉松剛接著開跑，緊接著機器人產業鏈專業展又在深圳的國際會展中心開幕……

2026北京亦莊機器人馬拉松（圖源中新網）

場內盛會如火如荼，但場外卻在求解“數據之困”——目前，中國人形機器人長于“具身”，但是“智能”不夠，尤其是用于模型迭代的場景數據短缺，制約了機器人產業進一步發展。

2026年開年，中國機器人行業共識已從硬件比拼轉向數據供給的比拼。

高質量、多模態的真實世界交互數據，成為機器人從實驗室走向規模化落地的核心瓶頸。

京東的野心有多大

這個時候，電商外賣巨頭京東入局具身智能數據采集業務，宣布要建成全球最大具身數據采集中心，并推出一個數據采集的全鏈路基礎設施。

入局時機不早不晚，企圖心也足夠大——全球最大，也正好踩在數據荒最緊迫的當口。

京東在江蘇宿遷建成全球規模最大、場景最全的具身智能數據采集中心

京東是在蹭熱點嗎？

不全是。從這家電商巨頭的長期積累的供應鏈和場景資源來看，它還是有一定優勢和條件的。多年來，京東物流已在數百個倉庫部署了大量自主移動機器人，日常處理海量包裹，積累了豐富的運營數據和標注經驗。

不過，3月宣布的計劃里，他們聲稱一年內要采集100萬小時本體數據，卻遭到業內人士質疑。

因為一年內要采集百萬小時真機數據的話一般需要千臺本體，但是有客戶發現他們目前只有30臺機器人本體在采集數據。

這意味著需要大量外包才能做到一年內采集100萬小時本體數據。但是外包的數據質量和有效性能否保證呢？

首先是第三方外包帶來的質量一致性挑戰：不同公司的機器人硬件標準不一，傳感器標定差異容易引入噪聲，數據純度不如自控艦隊高。

其次，目前京東自控的本體數量有限，目標中的百萬小時本體數據主要依賴外包，若利用率或協調不到位，進度可能滯后。

再次，涉及數十萬參與者和家庭、醫療等敏感場景，隱私合規成本會隨規模上升，需要嚴格的同意機制和去標識化處理，這在一定程度上制約了數據可用性和采集速度。

最后，全鏈路平臺的精煉能力是關鍵考驗：視頻數據易得，但真正驅動模型進化的是多模態、可執行的交互數據，若標注精度和仿真閉環跟不上，容易出現“量大質不精”的情況。

機器視角不同于人類視頻

一個值得注意的點是京東數據以視頻為主，JoyEgoCam核心產出是人類第一人稱（egocentric）高清視頻+IMU軌跡數據，目標兩年內積累超1000萬小時人類場景視頻+100萬小時機器人本體數據。

視頻數據確實豐富（易于人力動員采集），可用于預訓練（如視覺-語言-動作VLA模型的語義理解、“what to do”層面），但具身智能真正需要的是“多模態、可執行的動作數據”（力反饋、關節扭矩、本體感知、精確3D軌跡、機器人-環境交互）。這是人類視頻難以做到的。

北京搭建人形機器人中試平臺（圖源人民網）

另外，國外的多項研究指出，人類視頻存在“embodiment gap”（人體 vs 機器人運動學差異）、缺乏動作標簽、視角/噪聲問題，導致直接遷移難；純視頻適合泛化預訓練，但機器人策略學習仍高度依賴teleoperation（遠程操作）或真實機器人演示的“gold-standard”數據來學“how to do”。

京東宣稱未來會補充手部/肢體/動態軌跡采集，并通過標注/仿真閉環精煉，但若僅停留在視頻層面，模型泛化與實際部署可靠性仍存風險——這也是Tesla Optimus等全球玩家強調“艦隊真實交互數據+teleop”而非純被動視頻的原因。

可以說，京東最大限度利用了原有的數據標注團隊，把過去服務倉儲機器人的能力延伸到具身智能，同時通過眾包方式把部分采集任務外包給第三方數采公司，自己則專注提供場景和最終的“數據燃料”精煉。

這種輕資產、重場景的模式，讓京東得以快速鋪開，而無需一開始就重倉采購成千上萬臺本體機器人。

但這種模式能否持續，卻要打一個問號。

因為具身智能未來發展更傾向于“通用基礎模型+特定場景精細數據”的混合路徑，而非單純依賴京東式通用數據或完全專有數據。

通用數據的價值在于提供“what to do”的語義和廣義能力，支持zero-shot/ few-shot轉移（京東的跨場景策略符合此趨勢）。而專有數據不可或缺——垂直領域（如倉庫揀選 vs 家庭護理）有獨特數據壁壘，純通用模型難以達到商用級可靠性。

特斯拉自控艦隊的“數據閉環”

與京東的路徑不同，國外企業在數據采集上更偏向自控艦隊、遠程操作和仿真結合的閉環方式。

Tesla的Optimus項目是典型代表。他們在自家工廠內部署少量機器人作為數據采集平臺，同時招聘專業操作員穿戴VR設備和動捕裝備，進行遠程演示和任務錄制。這些數據直接喂給端到端神經網絡，輔以海量車輛駕駛數據的遷移學習，形成艦隊學習效應。

特斯拉人形機器人Optimus

目前Optimus主要還在工廠內用于學習和數據收集，尚未進入大規模生產階段，但通過自有場景的持續迭代，數據純度和一致性較高，適合訓練高泛化能力的動作策略。

Figure AI則選擇與大型地產集團合作，在真實住宅和商業空間里展開大規模預訓練數據采集，利用多樣化的生活環境捕捉人類目標導向行為，避免實驗室數據的單一性。

Agility Robotics的Digit機器人已在多家物流客戶現場部署，通過遠程操作和現場演示積累第一手數據，同時借助NVIDIA和MuJoCo等仿真平臺生成海量虛擬樣本，實現了從客戶反饋到模型優化的快速循環。

美國機器人公司Agility Robotics于2019年推出雙足人形機器人Digit

波士頓動力（Boston Dynamics）的Spot和Stretch則更多依托客戶實際部署場景，在巡檢、物流等真實任務中自然采集傳感器數據，再結合研究機構的仿真訓練，提升機器人在復雜動態環境下的適應力。

這些海外路徑共同特點是強調“數據閉環”：機器人本身既是采集工具，也是最終受益者，追求從采集到部署的無縫反饋，但規模擴張受限于硬件成本和部署進度。

國內其他企業也各有側重，形成了與京東互補的多樣格局。Galbot在蘇州建成具身智能數據采集中心，場地內布置約百臺機器人，在二十多個高度仿真的真實環境中同步運行，目標每年產出數千萬條多模態樣本，側重全鏈條技術驗證到應用示范的閉環。

Lumos Robotics推出背包式UMI采集設備FastUMI Pro，這種便攜工作站能直接讓操作員在工廠、家庭、酒店等六大真實場景中高效采集標準化數據，計劃2026年部署上萬臺，把采集從固定中心推向移動化。

Lumos Robotics 背包式UMI采集設備FastUMI Pro

優必選則依托Walker系列機器人在工廠的規模化部署，通過實際產線任務自然積累數據，并計劃2026年將產能提升至數千臺級別，側重以量帶質的工業場景優化。

優必選Walker S機器人

這些國內玩家的共同之處在于充分利用中國制造和場景密度優勢，有的專注專用中心，有的強調便攜采集，有的走開源共享路線，共同加速數據從“荒”到“豐”的轉變。

相比之下，京東數據采集的“人海戰術”，在具身智能數據元年確實展現出獨特效率。依托現有供應鏈，他們能低成本覆蓋多樣場景，通過眾包和標注團隊快速產出視頻和軌跡數據，短期內規模優勢明顯。

但長期來看，展望未來，京東這種模式的成敗，取決于能否把場景優勢真正轉化為數據飛輪的閉環效率。

有野心，還要有戰略

京東要想成為全球具身智能數據采集的標桿，關鍵在于三點：

一是持續提升數據質量，從視頻主導逐步向力反饋、關節扭矩等本體感知傾斜；（由于缺少本體研發制造，京東要在這個領域突破很難）

二是加強自控艦隊或teleop比例，降低對外包的依賴，形成更純凈的迭代循環；（這個屬于重資產的玩法，需要京東在戰略層面對具身智能有系統認知，才可能在這方面有重大轉變。

三是平衡規模與合規，在隱私保護前提下探索聯邦學習或邊緣計算等技術路徑。

只有當采集來的數據真正能驅動模型在真實部署中不斷進化，并反哺更多場景時，京東的“人海戰術”才能從數據供給者成長為行業基礎設施的核心玩家。

京東JoyEgoCam超高清采集終端

數據元年才剛剛開啟，各家路徑并行，最終勝出者將是那些把數據真正煉成“燃料”、實現采集-模型-部署正向循環的企業。

無論京東還是Tesla、Figure，無論人海還是艦隊，AI領域的數據采集最終只有一個黃金標準：能否促進模型/系統的迭代升級。

手握如此好的基礎條件，又趕上風口，但是戰略認識跟不上，再宏偉的口號也只能是空談了。

圖片來源于網絡

本文為“示范財經”原創文章，未經授權不得轉載或抄襲。如需轉載，請在文末留言區申請并獲得授權。

加入群聊，一起討論吧~同行都在這兒

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.