【文/周遠方】
宿遷湖濱新區(qū)居民區(qū),一間90平的普通住宅內(nèi),一位寶媽戴著京東自研的JoyEgoCam數(shù)據(jù)采集終端,正在整理收納。
![]()
JoyEgoCam重220克,內(nèi)置推理單元,比一部智能手機還輕。她的動作比正常人類稍慢,對折、撫平、放入。每天兩到四小時的采集,每周工作五天,為她帶來四千多元的收入。
這些畫面以第一人稱視角被記錄,即將成為訓(xùn)練具身智能模型的數(shù)據(jù)燃料。2026年,全球AI的下一座山頭,是讓機器理解物理因果的世界模型。圖靈獎得主楊立昆拿超過10億美元押注的JEPA架構(gòu),核心判斷正是如此——大語言模型只懂文字,不懂物理世界,真正的AI需要理解杯子是硬的、裝了水會重、松手會掉。而要教機器理解這些,唯一的途徑是喂給它海量的、真實的物理世界數(shù)據(jù)。
![]()
世界模型的數(shù)據(jù)缺口有多大?
大語言模型能迎來GPT時刻,靠的是互聯(lián)網(wǎng)幾十年積累的文本存量——論文、網(wǎng)頁、書籍,這些語料早已存在,算法天才們只是找到了挖掘它們的方法。世界模型沒有這樣的歷史遺產(chǎn)。物理世界的交互數(shù)據(jù)不會自動上網(wǎng),不會自己變成訓(xùn)練語料。無論硅谷還是北京的實驗室,面對的都是同一個空倉庫:要讓機器理解重力、摩擦力和物體恒存性,需要數(shù)千萬小時的真實場景數(shù)據(jù)。
覓蜂科技董事長兼CEO(首席執(zhí)行官)、智元機器人合伙人姚卯青此前公開表示,訓(xùn)練類似ChatGPT-5級別的系統(tǒng)所需語料達百億小時量級,而具身智能可用數(shù)據(jù)僅在50萬小時量級,規(guī)模差距懸殊,還存在標(biāo)準(zhǔn)缺失、質(zhì)量不一、供需錯配等問題。
這不是巧婦難為無米之炊,而是連判斷誰是巧婦、什么是好米、下鍋之后該煮成什么飯的標(biāo)準(zhǔn),都還沒有建立。因為沒有人知道,什么樣的數(shù)據(jù)才能讓機器真正長出物理常識。
![]()
在這樣的數(shù)據(jù)荒中,京東宣布,計劃兩年內(nèi)采集突破1000萬小時的真實場景視頻數(shù)據(jù)。
采什么,怎么采,難在哪?
我們來到宿遷,實地看看這場模型大戰(zhàn)的糧草先行。
一、宿遷現(xiàn)場,糧草先行
在京東已經(jīng)建成的機器人數(shù)據(jù)采集中心,現(xiàn)場搭建了物流倉儲、工業(yè)制造、健康醫(yī)療、家庭服務(wù)、城市運維等場景,我們了解,這里的工作人員本地居民居多,經(jīng)過專業(yè)人員的培訓(xùn)后就能上崗。
舞蹈老師臧老師在練習(xí)室里完成了三小時采集,工作內(nèi)容是把貨品重復(fù)上架。他說,舞蹈老師的工作時間相對自由,能夠體驗另一種完全不同的工作,并獲得收入,是一件有趣有益的事情。
在另一家服裝廠的車間里,一位戴著頭環(huán)的中年媽媽在踩縫紉機。與前兩位特意放慢動作或刻意重復(fù)動作不同,她只是以正常狀態(tài)和速率進行工作,頭環(huán)沒有帶來任何影響。兼做數(shù)據(jù)采集,為她帶來一些額外的補貼。
![]()
采訪中,她說,不愿意自己的女兒繼續(xù)進廠打工,如果能夠由機器人來干這么枯燥的活,她覺得是一件好事。同時,她也非常驕傲自己能夠為訓(xùn)練研發(fā)機器人貢獻自己的力量。
在宿遷郊外的果園里,采集員記錄著果蔬采摘的軌跡和不規(guī)則地形下的行走數(shù)據(jù)。果園負責(zé)人對來訪者給出了最樸素的回答,之所以對AI接受度高,不是因為技術(shù)有多先進,而是因為剛畢業(yè)的大學(xué)生、20出頭的小伙子不愿意干這個活。機器人填補的,是人力市場自然流失的崗位,是原本無人愿意承接的空白地帶。
京東云相關(guān)負責(zé)人在媒體探訪中介紹,京東在宿遷的采集模式是一個中心加若干社區(qū)網(wǎng)點,面向宿遷市民開放靈活用工渠道,覆蓋全職媽媽、退休人員、大學(xué)生等多類人群,分層培養(yǎng)靈活用工,形成專業(yè)采集加眾包采集協(xié)同機制。這種社區(qū)網(wǎng)格采集模式,將縣城里的寶媽、退休人員和舞蹈老師,在社區(qū)這個單位下,快速組織成一支數(shù)據(jù)采集部隊。
二、人,才是那具通用的本體
為什么訓(xùn)練機器人的數(shù)據(jù),要從人類身上采?
要回答這個問題,需要先理清三個經(jīng)常被混用的概念。人形機器人是物理本體,具身智能是讓人形機器人擁有智能的技術(shù)體系,世界模型則是大腦的核心,它讓機器人在采取行動前在內(nèi)部模擬后果,理解重力、摩擦力、物體恒存性。三者是層層遞進的關(guān)系,沒有世界模型的具身智能,本質(zhì)上還是高級遙控玩具。
![]()
目前行業(yè)有四條數(shù)據(jù)采集路線在同時跑。真機遙操,工程師坐在電腦前遙控一具20萬的機器人本體,讓它重復(fù)抓取動作,數(shù)據(jù)最保真,但只能蹲守單一倉庫,且A型號的數(shù)據(jù)無法用于B型號,本體一迭代,之前的數(shù)據(jù)就作廢了,形成數(shù)據(jù)煙囪。UMI,采集員手持一個約400美元的3D打印夾爪,上面夾著GoPro相機,在真實環(huán)境里開合夾取,打破了必須買機器人才能采數(shù)據(jù)的困局,但視角只盯著夾爪附近。Ego頭環(huán),像戴眼鏡一樣記錄的是人眼看到的世界,全身環(huán)境信息完整。仿真,在虛擬引擎里搭建環(huán)境,讓數(shù)字機器人試錯,但虛擬世界里的摩擦力和光照與真實世界不同,存在仿真到現(xiàn)實的鴻溝。
![]()
在這四條路線中,Ego頭環(huán)正成為產(chǎn)業(yè)界最新的風(fēng)向。因為它把人類變成了通用數(shù)據(jù)采集器,打破了必須先買機器人才能采數(shù)據(jù)的成本門檻。
自動駕駛之所以能用真車采集,是因為汽車的形態(tài)是唯一的,四個輪子一個方向盤。但具身智能領(lǐng)域,尤其是機器人形態(tài)尚未收斂的階段,A型號機器人的遙操數(shù)據(jù)無法喂給B型號,機械臂長度變了、關(guān)節(jié)扭矩變了、攝像頭位置變了,之前采的數(shù)據(jù)就全部作廢。
數(shù)據(jù)采集的時機,不能因行業(yè)早期無法統(tǒng)一標(biāo)準(zhǔn)而白白流失掉,人們突然發(fā)現(xiàn),人類才是那具通用的“本體”,而且成本更低。人有兩只手、十根手指、立體視覺、平衡感。這些結(jié)構(gòu)是穩(wěn)定、標(biāo)準(zhǔn)化的。所以人戴著頭環(huán)去整理收納、擦桌子、擰螺絲、協(xié)助老人翻身,采出來的Ego數(shù)據(jù)可以喂給任何形態(tài)的機器人。
京東JoyEgoCam2萬一副,機器人本體,20萬一具,其實兩者的核心差異不在價格,而在通用性。
三、犬牙交錯:書齋與田野
當(dāng)前,中美在具身智能上的競爭,不是一條直線上的你追我趕,而是兩套系統(tǒng)的對抗,態(tài)勢犬牙交錯。一邊是書齋里的精巧推演,一邊是田野上的粗糲生長。
硬件本體和供應(yīng)鏈,中國已經(jīng)并跑甚至領(lǐng)跑。
特斯拉Optimus Gen 3計劃2026年7到8月在弗里蒙特工廠啟動生產(chǎn),遠期目標(biāo)年產(chǎn)100萬臺。但截至2025年底,特斯拉實際產(chǎn)量僅有幾百臺,遠低于5000臺的年度目標(biāo),且未達工廠實操標(biāo)準(zhǔn)。馬斯克在2026年1月承認,這些機器人主要是用來學(xué)習(xí),還不能承擔(dān)生產(chǎn)性任務(wù),自主運行仍依賴遠程操控。其機器人部門還經(jīng)歷了負責(zé)人離職,Gen 3涉及約10000個獨特零部件,均未經(jīng)過大規(guī)模量產(chǎn)驗證,初期產(chǎn)量將相當(dāng)緩慢,手部和前臂設(shè)計的技術(shù)難題導(dǎo)致大量無手機體積壓。
![]()
在中國,智元機器人2026年3月宣布第10000臺遠征A3下線,已規(guī)模化外供至龍旗、立訊等3C產(chǎn)線,實現(xiàn)8小時直播無故障實裝。宇樹科技同期啟動科創(chuàng)板IPO,2026年目標(biāo)量產(chǎn)1到2萬臺,2025年度扣非凈利潤已達6億元。中國機器人的成本普遍只有美國同類的十分之一,供應(yīng)鏈迭代速度以周計算。
![]()
小腦和運動控制,雙方基本持平。中國勝在高密度場景的打磨,美國強在高動態(tài)控制的理論積累。
大腦和具身大模型,美國仍占架構(gòu)設(shè)計優(yōu)勢。特斯拉的FSD視覺棧、Dojo超算,xAI的Grok與Optimus深度集成,這些設(shè)計在算法層面確有深厚積累。算法其實依賴足量真實物理數(shù)據(jù)來喂養(yǎng),具身智能領(lǐng)域存在一個效率定律,當(dāng)數(shù)據(jù)生成速率低于臨界閾值時,增加模型容量不會轉(zhuǎn)化為性能提升。美國的數(shù)據(jù)采集受限于高成本、嚴(yán)格隱私合規(guī)和本體供應(yīng)鏈短板,數(shù)據(jù)生成速率極低,算法優(yōu)勢目前無法被證實也無法被證偽,始終停留在紙面和仿真里。
數(shù)據(jù)與系統(tǒng)耦合,中國則鋪開了產(chǎn)線。當(dāng)美國把資源押注在單一本體的深度打磨上時,中國選擇了智元、宇樹、優(yōu)必選等等更多企業(yè)齊頭并進,各自迭代不同形態(tài)的本體,分散試錯。Ego數(shù)據(jù)的通用性恰好適配了這種多本體并行的生態(tài)。
共享的數(shù)據(jù)底座,加上分散的本體試錯,再加上每周迭代的供應(yīng)鏈,三者咬合在一起,構(gòu)成了中國量產(chǎn)效率的底層密碼。
四、功夫不在技術(shù),在組織能力
在2026年4月紅杉資本AI Ascent演講中,英偉達科學(xué)家Jim Fan樂觀預(yù)測,(全球)第一視角人類視頻數(shù)據(jù)若接入類似特斯拉FSD的后臺飛輪,"未來一年內(nèi)達到1000萬小時"。
為什么美國只敢想1000萬小時?不是美國缺人。硅谷不缺工程師,也不缺外包到印度、菲律賓的渠道。甚至印度的人口規(guī)模和相對低廉的用工成本,理論上比宿遷更適合做這件事。
但真實的原因是,硅谷的組織結(jié)構(gòu),無法穿透非標(biāo)準(zhǔn)化的數(shù)據(jù)采集任務(wù)。硅谷公司發(fā)一件采集任務(wù),起碼要走三層代理,總部到本地管理公司,再到現(xiàn)場數(shù)采團隊。每一層都在吞噬溝通成本和響應(yīng)速度。美國不是不想采更多,而是遠程管理的多層代理結(jié)構(gòu)根本做不到。
京東在宿遷的做法,本質(zhì)上是用組織能力擊穿這個天花板。這種長期扎根積累的不是一張通訊錄,而是把人嵌入流程、快速響應(yīng)、層層穿透的組織動員能力。
![]()
這種動員能力在宿遷并非沒有先例。淮海戰(zhàn)役期間,這里是華東野戰(zhàn)軍的后勤走廊,民工用小推車完成支前補給。從推車到頭環(huán),跨越七十年,組織人力的底層邏輯一脈相承——都不是精確計算后的行動,而是先把東西送上去再說。
國先中心,即國際先進技術(shù)應(yīng)用推進中心深圳,在其2026年3月發(fā)布的具身智能數(shù)據(jù)行業(yè)研究白皮書中指出,行業(yè)普遍認為要實現(xiàn)具身智能涌現(xiàn)至少需要百萬小時來自真實世界的物理互動數(shù)據(jù),目前積累的數(shù)量尚不足5%。現(xiàn)階段實際可用數(shù)據(jù)量遠未滿足需求,且數(shù)據(jù)采集和使用方法尚未形成共識,領(lǐng)域內(nèi)缺乏統(tǒng)一的能力評估基準(zhǔn)。
而高質(zhì)量數(shù)據(jù)的定義權(quán),在當(dāng)下這個階段,恰恰是由這種組織能力來生成的。一位業(yè)內(nèi)人士半開玩笑地說,數(shù)據(jù)采集這件事,最后要經(jīng)得住居委會大媽的吊打。這種無法被SOP化的、嵌入日常生活的追問,是目前最接近真實世界的質(zhì)檢標(biāo)準(zhǔn)——不是要定義高質(zhì)量,而是要不斷逼近高質(zhì)量。
在本地一家養(yǎng)老院里,采集員戴著頭環(huán),記錄著協(xié)助老人起身、翻身、擦身的全過程。需要被記錄的人類雙手動作,極易被身體、被褥或護理器械遮擋。雙目頭環(huán)拍到的常常是一個半截胳膊,或一個肩膀的背影。對于追求精準(zhǔn)軌跡的數(shù)據(jù)采集來說,這幾乎等于廢片。
![]()
事后向業(yè)內(nèi)人士求證,這種被遮擋的、不完整的動作數(shù)據(jù),有價值嗎。對方回答,沒關(guān)系,只要數(shù)據(jù)量足夠大就行。
如果數(shù)據(jù)太少,會連”什么是廢片”的標(biāo)準(zhǔn)都無法建立。所以先全采全收,讓模型自己來當(dāng)裁判。面對一個極難采集、充滿遮擋的真實場景,正確的選擇不是先確保百分百高質(zhì)量再采,而是先采下來再說。讓模型自己在海量數(shù)據(jù)中去學(xué)習(xí),去判斷一個被遮住一半的動作是否依然有價值。
先采了再說,這五個字就是京東在宿遷的方法論。雖然沒有人知道哪一部分?jǐn)?shù)據(jù)最終會被證明有用,但我們可以篤定,硅谷更不知道。
五、希望與焦慮的交匯點
未知也不等于沒有辦法,市場機制正在試圖扮演那個在未知中尋找秩序的角色。
![]()
2026年4月,京東推出具身數(shù)據(jù)交易平臺,首批高精數(shù)據(jù)集已定向開放,與幾十家頭部企業(yè)及高校科研機構(gòu)建立戰(zhàn)略合作。數(shù)據(jù)被拆分為預(yù)訓(xùn)練集和后訓(xùn)練集,按不同規(guī)格定價,企業(yè)可以按需采購,高校也可以通過定向合作獲取。
這個平臺的邏輯很簡單,既然沒人知道什么是高質(zhì)量數(shù)據(jù),那就讓市場來投票。一個數(shù)據(jù)集好不好,不需要專家委員會來定義,看看有多少家企業(yè)愿意花錢買就知道了。供需雙方在交易中自然形成價格信號,價格信號反過來指導(dǎo)采集方向。
市場會倒逼出一套篩選機制。那些真正能提升模型泛化能力的數(shù)據(jù),最終會被復(fù)用和溢價;那些只是堆砌無效幀的數(shù)據(jù),則會被交易市場用腳投票淘汰。這不是解決未知質(zhì)量的終極方案,但它是目前最務(wù)實的方向——用交易的紀(jì)律,代替理論的爭吵。
![]()
按市場一般水平,數(shù)據(jù)在交易流通環(huán)節(jié)的價格約為200元每小時。但方老師每月三四千元的到手收入,按每天2到6小時、每月約20天折算,實際時薪約30到50元。鏈條上的每個環(huán)節(jié)都在分食,真正落到采集員手里的,只是這個數(shù)字的一小部分。,但這些數(shù)字對宿遷的工廠主和采集員來說,依然是真實的生計計算。生計計算的另一面是,沒有人知道這些數(shù)據(jù)最終值不值這個價。
這恰恰體現(xiàn)了中國在具身智能賽道上的獨特優(yōu)勢。不是我們已經(jīng)找到了正確答案,而是我們擁有快速將試驗變成商品、將模糊需求變成市場報價的產(chǎn)業(yè)組織能力。
六、先上再說
晚上九點,宿遷的采集工作陸續(xù)收工。
這些白天里被鏡頭記錄的面孔,此刻散落在縣城的不同角落。練習(xí)室里的標(biāo)準(zhǔn)動作,工廠里的樸實愿望,流水線里的粗糲真實,田間地頭的無人接替,哪一種更接近世界模型需要的因果。沒有人知道答案。但系統(tǒng)會把它們都標(biāo)記為有效數(shù)據(jù),上傳,清洗,喂給模型。
在2026年春節(jié),行業(yè)迎來了一個高光時刻。宇樹科技的人形機器人在春晚舞臺上表演武術(shù)節(jié)目《武BOT》,彈射空翻、醉拳、雙節(jié)棍,動作凌厲。社交媒體上相關(guān)視頻累計播放量過億,具身智能這個詞第一次以正面、出圈的方式進入公眾視野。無數(shù)人在那一刻相信,機器人時代真的來了。在2026年春節(jié),行業(yè)迎來了一個高光時刻。宇樹科技的人形機器人在春晚舞臺上穿著大花棉襖扭秧歌,轉(zhuǎn)手絹、列隊變換,動作流暢。社交媒體上相關(guān)視頻累計播放量過億,具身智能這個詞第一次以正面、出圈的方式進入公眾視野。無數(shù)人在那一刻相信,機器人時代真的來了。
![]()
那個瞬間,是行業(yè)給所有從業(yè)者的一個獎勵——讓你們在大眾面前看看自己造的東西有多酷。
但春晚舞臺燈光熄滅之后,回到宿遷的廠房里,回到真實的量產(chǎn)報表前,故事的另一面開始浮現(xiàn)。2026年6月1日,宇樹科技科創(chuàng)板IPO將上會審議。作為具身智能領(lǐng)域最耀眼的明星企業(yè),宇樹的財務(wù)數(shù)據(jù)呈現(xiàn)出一個矛盾的圖景,2026年第一季度營收增速從335%驟降至68%,現(xiàn)金流下降85%。當(dāng)明星企業(yè)都需要資本市場輸血來維持研發(fā)時,那些圍繞社區(qū)和數(shù)據(jù)采集建立起來的零工崗位,其脆弱性就被放在了一個更宏觀的底色下審視。
更現(xiàn)實的焦慮在于,隨著宇樹上市,早期投資人將進入退出通道。當(dāng)資本退潮時,那些寄希望于政策補貼和企業(yè)投入的各地訓(xùn)練場,能否在失去資本關(guān)注后繼續(xù)運營,能否堅持到下一個周期,沒有人能給出肯定的答案。
春晚的光環(huán)與資本市場的算盤,同時落在這條賽道上。高光與陰影本來就是并存的,這才是領(lǐng)先者的真實處境——資源錯配是常態(tài),不是意外,大家都是在迷霧中全速奔跑,付出論證方向的代價,或許是跑出生天,或許是跑進一鍋夾生飯。
整理房間、踩縫紉機、上架商品和協(xié)助老人翻身的動作還在繼續(xù),誰也不知道這些數(shù)據(jù)最終會被哪個模型消化,不知道自己記錄的是否屬于那十分之一有用的部分。
![]()
七十年前,這片土地上的人們用小推車推出了一場戰(zhàn)役的勝利,當(dāng)年的老鄉(xiāng)不知道哪一車糧草最終改變了戰(zhàn)局,今天的寶媽也不知道哪一幀數(shù)據(jù)會被模型消化。工具變了,粗糲的邏輯沒有變,都是先把東西送上去,再讓歷史來篩選。
試驗田之所以是試驗田,就在于它注定要同時承載探索的勇氣與失敗的風(fēng)險,而真正贏過的人知道,有些勝利,本來沒那么確定。
時機到了,只有先上再說。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.