![]()
近期一段印度工廠工人頭戴攝像頭、邊干活邊采集數(shù)據(jù)的視頻在社交平臺(tái)廣泛流傳。圖:視頻截圖
4月13日,一段印度工廠工人頭戴攝像頭、邊干活邊采集數(shù)據(jù)的視頻在境內(nèi)外社交平臺(tái)熱傳。一種占據(jù)主流的解讀是,這些拍攝人類勞作的第一視角畫面數(shù)據(jù),將用于訓(xùn)練機(jī)器人的模型。
實(shí)際上,這背后是具身智能行業(yè)新近興起的一種數(shù)據(jù)采集方式。業(yè)內(nèi)把它叫做真實(shí)世界的人類視頻數(shù)據(jù),試圖用相對(duì)簡(jiǎn)便的采集方式,實(shí)現(xiàn)工人干活與數(shù)據(jù)采集兩不誤。
此前,具身智能行業(yè)常見的真機(jī)遙操數(shù)據(jù)采集,一般由采集員戴上VR頭顯對(duì)齊機(jī)器人的視野,去遙控一臺(tái)機(jī)器人執(zhí)行任務(wù)。但人類視頻數(shù)據(jù)的采集無(wú)需再配置一臺(tái)機(jī)器人,直接由采集員在手部或頭部佩戴專用的可穿戴設(shè)備后進(jìn)行作業(yè),進(jìn)而產(chǎn)生操作軌跡數(shù)據(jù),亦因此被稱為“無(wú)本體數(shù)據(jù)”。
近期,一款基于無(wú)本體數(shù)據(jù)訓(xùn)練出來的具身智能基座模型點(diǎn)燃行業(yè)的討論度。4月2日,美國(guó)具身智能模型公司Generalist發(fā)布新一代GEN-1模型,用50萬(wàn)小時(shí)真實(shí)世界的人類視頻數(shù)據(jù),實(shí)現(xiàn)模型在多個(gè)簡(jiǎn)單操作任務(wù)中超過99%的成功率。公司還聲稱該模型展現(xiàn)出廣泛的涌現(xiàn)能力,能夠在發(fā)生意外的情況下恢復(fù)任務(wù)執(zhí)行。
“震撼且神秘。”具身智能公司鹿明機(jī)器人聯(lián)席CTO丁琰如此形容這家美國(guó)同行。Generalist的數(shù)據(jù)基建能力,以及隨之而來的模型絲滑程度,讓丁琰感到震撼。神秘之處在于,由于GEN-1是閉源模型,外界難以知曉Generalist究竟如何將采集的原始數(shù)據(jù)進(jìn)行過濾,從而達(dá)到類似大語(yǔ)言模型的“大力出奇跡”效果。
但這不妨礙一些國(guó)內(nèi)具身智能公司與Generalist對(duì)標(biāo)。一種對(duì)標(biāo)做法落腳在數(shù)據(jù)采集方案:聲稱都使用低成本的可穿戴設(shè)備獲取大量數(shù)據(jù),進(jìn)行模型預(yù)訓(xùn)練,并使用少量真機(jī)數(shù)據(jù)微調(diào);另一類對(duì)標(biāo)則是所謂底層方法論吻合:從零開始訓(xùn)練一款原生的物理交互基礎(chǔ)模型,而不被現(xiàn)有的VLA或世界模型架構(gòu)束縛。
數(shù)據(jù)采集路線層面的對(duì)標(biāo)從Generalist發(fā)布上一代GEN-0模型后便已開始。2025年11月推出的GEN-0模型,基于27萬(wàn)小時(shí)無(wú)本體數(shù)據(jù)進(jìn)行訓(xùn)練,被Generalist自稱為首次在機(jī)器人領(lǐng)域驗(yàn)證了Scaling Law(縮放定律)的存在。
采集成本低、供給規(guī)模大,是無(wú)本體數(shù)據(jù)相較于傳統(tǒng)真機(jī)遙操數(shù)據(jù)的顯著優(yōu)勢(shì),但也對(duì)公司的算法能力提出更高要求。一位從事具身智能數(shù)據(jù)采集工作的大廠員工介紹,無(wú)本體數(shù)據(jù)現(xiàn)在是各家都特別關(guān)注的方向。GEN-0模型出來后,許多企業(yè)都在往無(wú)本體數(shù)據(jù)方向發(fā)力,甚至?xí)匝胁杉O(shè)備。丁琰表示:“GEN-1給了整個(gè)行業(yè)做無(wú)本體數(shù)據(jù)的人信心,感覺像是看不見天花板了。”
南都記者注意到,2026年以來,銀河通用、星海圖等國(guó)內(nèi)頭部具身智能公司均調(diào)整了所謂的“數(shù)據(jù)金字塔”結(jié)構(gòu),在原有真機(jī)遙操數(shù)據(jù)、仿真合成數(shù)據(jù)等的基礎(chǔ)上,新納入無(wú)本體數(shù)據(jù)。千尋智能則進(jìn)一步迭代自研的可穿戴式數(shù)采設(shè)備,并將數(shù)采團(tuán)隊(duì)擴(kuò)充至千人規(guī)模。
長(zhǎng)期以來,人形機(jī)器人被嘲諷“沒有腦子”,數(shù)據(jù)短缺是背后的“卡脖子”難題。如今,無(wú)本體數(shù)據(jù)采集方案的興起,讓一些從業(yè)者看到了破局的可能性,不少具身智能數(shù)據(jù)公司也借機(jī)浮出水面。
數(shù)據(jù)采集范式會(huì)加快收斂嗎?
在無(wú)本體數(shù)據(jù)崛起之前,具身智能行業(yè)曾圍繞真機(jī)遙操數(shù)據(jù)與仿真合成數(shù)據(jù)上演路線之爭(zhēng)。
支持真機(jī)遙操數(shù)據(jù)的一方強(qiáng)調(diào),具身智能需要高質(zhì)量的數(shù)據(jù),仿真合成數(shù)據(jù)存在sim2real(仿真到現(xiàn)實(shí))的遷移鴻溝,且難以完美模擬物理摩擦力、物體表面粗糙度等真實(shí)世界特性。而以銀河通用為代表的仿真合成數(shù)據(jù)擁護(hù)方,則直指真機(jī)遙操數(shù)據(jù)存在采集速度慢、成本高且難以跨本體等短板。
前述大廠數(shù)采業(yè)務(wù)員工提到,如果用仿真合成數(shù)據(jù)訓(xùn)練,數(shù)據(jù)質(zhì)量達(dá)不到要求,模型效果就比較差。真機(jī)遙操數(shù)據(jù)雖然質(zhì)量高,但卡在規(guī)模提不上去,滿足不了具身基礎(chǔ)模型Scaling Law的需求。他認(rèn)為,現(xiàn)階段,“量”比“質(zhì)”更重要,“數(shù)據(jù)規(guī)模上不去的話,質(zhì)量再高也不行”。
據(jù)丁琰介紹,傳統(tǒng)遙操每小時(shí)僅能采集約35條數(shù)據(jù),效率較低。在美國(guó),一小時(shí)遙操采集的相應(yīng)成本約為100-200美元,相對(duì)高昂。而且,遙操采集的攝像頭記錄的是機(jī)械臂本身的運(yùn)動(dòng)軌跡和畫面,由于不同廠商的機(jī)器人長(zhǎng)得都不一樣,用一個(gè)廠商的機(jī)器人采集的數(shù)據(jù),很難遷移至其他廠商的機(jī)器人身上,產(chǎn)生“數(shù)據(jù)孤島”的問題,不同公司之間也不得不“重復(fù)造輪子”。
在此背景下,無(wú)本體數(shù)據(jù)以數(shù)采新范式的姿態(tài)異軍突起。2025年11月,Generalist和另一家美國(guó)具身智能模型公司Sunday Robotics分別發(fā)布GEN-0和ACT-1兩款模型。無(wú)獨(dú)有偶的是,這兩款引發(fā)業(yè)內(nèi)廣泛關(guān)注的模型,均采取無(wú)本體數(shù)據(jù)范疇下的UMI(通用操作接口)采集方案——由人工手持二指或三指夾爪演示操作,夾爪旁安裝了攝像頭,記錄夾爪的外觀和操作過程。
![]()
采集員手持夾爪操作任務(wù)。圖:Generalist
根據(jù)鹿明機(jī)器人基于自研UMI數(shù)采設(shè)備的測(cè)算,相較傳統(tǒng)遙操采集,單條UMI數(shù)據(jù)的效率提升5倍,成本降至1/5。另外UMI數(shù)據(jù)還具備跨本體的泛化能力。在部署時(shí),只要機(jī)器人手部夾爪的外觀、攝像頭參數(shù)與采集時(shí)用的手持設(shè)備保持一致,無(wú)論機(jī)器人搭配何種類型的機(jī)械臂,所采集的數(shù)據(jù)均可相互通用。
除了UMI數(shù)采,無(wú)本體數(shù)據(jù)方案中的另一火熱方向是Ego-centric數(shù)據(jù)(第一人稱人類視頻數(shù)據(jù),以下簡(jiǎn)稱Ego數(shù)據(jù))。取名“第一人稱”,與采集視角有關(guān)。在英偉達(dá)今年2月中旬推出的EgoScale方案中,采集員佩戴一臺(tái)頭戴式攝像頭和兩臺(tái)腕戴式攝像頭,分別記錄第一人稱視角和腕部視角;另外還有追蹤器和穿戴手套,分別捕捉人類手臂與手部運(yùn)動(dòng)。
![]()
英偉達(dá)EgoScale數(shù)采方案。圖:EgoScale論文
聚焦Ego數(shù)據(jù)采集業(yè)務(wù)的初創(chuàng)公司星憶科技創(chuàng)始人宋知珩預(yù)測(cè),Generalist初期采用 UMI方案大規(guī)模采集數(shù)據(jù)以驗(yàn)證Scaling Law,后續(xù)或?qū)⑻嵘鼸go數(shù)據(jù)的比例,并從兩指夾爪向更高自由度的抓取方向探索。因?yàn)槲锢鞟GI的訴求是通用和泛化,這離不開高自由度和包括視覺、觸覺、姿態(tài)等在內(nèi)的多模態(tài)數(shù)據(jù)采集。他判斷,具身智能數(shù)據(jù)范式會(huì)向Ego數(shù)據(jù)收斂。
頭部具身智能數(shù)據(jù)服務(wù)商光輪智能聯(lián)合創(chuàng)始人、總裁楊海波在3月底向南都記者表示,過去,具身智能究竟需要怎樣的數(shù)據(jù),業(yè)內(nèi)缺乏清晰認(rèn)知。如今,業(yè)界對(duì)無(wú)本體數(shù)據(jù)的共識(shí)度正在提升。一旦新方向確立,下一步需要做的就是不斷加大投入。
當(dāng)無(wú)本體數(shù)據(jù)方案蔚然成風(fēng),真機(jī)遙操數(shù)據(jù)、仿真合成數(shù)據(jù)將何去何從?
“如果你擁有足夠高質(zhì)量且多樣化的真實(shí)世界數(shù)據(jù),那么仿真數(shù)據(jù)和遙操作數(shù)據(jù)的價(jià)值就會(huì)降低。這本質(zhì)上是一個(gè)成本問題。”Generalist聯(lián)合創(chuàng)始人、首席科學(xué)家Andy Zeng在4月初接受南都記者采訪時(shí)舉例說,對(duì)于太空機(jī)器人,使用仿真數(shù)據(jù)可能更具經(jīng)濟(jì)性,因?yàn)閷⑷怂腿胩盏某杀痉浅8甙骸?/p>
根據(jù)多位業(yè)內(nèi)受訪者的觀點(diǎn),真機(jī)遙操數(shù)據(jù)很難被無(wú)本體數(shù)據(jù)完全取代,將主要用于具身智能“大腦”訓(xùn)練完成后、機(jī)器人部署到具體場(chǎng)景時(shí)的對(duì)齊和調(diào)優(yōu)。例如,GEN-1模型在預(yù)訓(xùn)練的基礎(chǔ)上,執(zhí)行特定的新任務(wù)前再使用1小時(shí)的機(jī)器人真機(jī)數(shù)據(jù)進(jìn)行微調(diào)。仿真合成數(shù)據(jù)則適用于人類難以通過可穿戴設(shè)備去采集的場(chǎng)景,比如一些高危環(huán)境。
無(wú)本體數(shù)采供應(yīng)商浮出水面
具身智能風(fēng)口席卷的過去兩三年里,資本蜂擁流向了人形機(jī)器人本體和“大腦”企業(yè),而作為數(shù)據(jù)供應(yīng)商的創(chuàng)業(yè)公司鮮少獲得同等關(guān)注。
宋知珩告訴南都記者,相較于模型研發(fā)和本體制造的企業(yè),國(guó)內(nèi)具身智能數(shù)據(jù)基建公司的融資規(guī)模存在明顯差距。這是因?yàn)椋袌?chǎng)普遍將數(shù)據(jù)視為一門生意,投資人通常詢問“你的數(shù)據(jù)賣了多少”,并以此作為參考來討論公司估值。然而,對(duì)于從事具身智能模型研發(fā)的廠商,市場(chǎng)的評(píng)價(jià)體系則更偏向長(zhǎng)期潛力。即使這些公司零營(yíng)收或營(yíng)收很少,也能拿到很高的估值,融到很多的資金。
“大家對(duì)于數(shù)據(jù)公司的關(guān)注度不是那么充分。”宋知珩認(rèn)為,模型本質(zhì)上是從數(shù)據(jù)中提煉智能,模型的架構(gòu)歸根結(jié)底來源于數(shù)據(jù)。
隨著無(wú)本體數(shù)據(jù)成為風(fēng)口,提供具身智能數(shù)據(jù)基建服務(wù)的創(chuàng)業(yè)公司得到市場(chǎng)更多的青睞。
資本在往這一方向押注。比如,由Momenta前員工陳建興創(chuàng)辦的簡(jiǎn)智機(jī)器人,在2025年12月披露總額超2億元的三輪融資,投資方包括BV百度風(fēng)投、速騰聚創(chuàng)、順為資本、Momenta、星海圖等。這家公司開發(fā)了數(shù)據(jù)采集手套、第一視角多模態(tài)數(shù)據(jù)采集頭戴式設(shè)備等多款可穿戴數(shù)采設(shè)備。宋知珩所在的星憶科技,也在今年3月拿到千萬(wàn)級(jí)首輪融資,由“清華系”水木創(chuàng)投領(lǐng)投。該公司計(jì)劃推出一款面向Ego方案的多模態(tài)數(shù)據(jù)采集穿戴設(shè)備。與此同時(shí),京東于今年3月宣布入局?jǐn)?shù)采業(yè)務(wù),計(jì)劃在一年內(nèi)積累500萬(wàn)小時(shí)人類真實(shí)場(chǎng)景視頻數(shù)據(jù),兩年內(nèi)突破1000萬(wàn)小時(shí),建成全球最大具身數(shù)據(jù)采集中心。
市場(chǎng)需求也在向無(wú)本體數(shù)據(jù)靠攏。有提供相關(guān)數(shù)據(jù)產(chǎn)品的公司聲稱,2026年第一季度的營(yíng)收超過2025年全年,大廠是重要的采購(gòu)方。丁琰任職的鹿明機(jī)器人目前提供無(wú)本體數(shù)據(jù)采集軟硬件系統(tǒng),據(jù)其透露,GEN-1模型推出之后,行業(yè)內(nèi)前來咨詢合作的客戶數(shù)量持續(xù)增長(zhǎng)。采購(gòu)方覆蓋機(jī)器人本體公司、模型公司、科研院所、大廠具身團(tuán)隊(duì)等諸多類型。
而在無(wú)本體數(shù)據(jù)采集設(shè)備的需求端,具身智能數(shù)采中心是重要的潛在客戶。根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Interact Analysis的報(bào)告,截至 2025 年年底,中國(guó)已經(jīng)有50個(gè)以上的國(guó)家或省市區(qū)級(jí)人形機(jī)器人數(shù)據(jù)采集與訓(xùn)練中心。其中,至少有9個(gè)數(shù)采中心的機(jī)器人數(shù)量在100 臺(tái)左右,至少有5個(gè)數(shù)采中心的機(jī)器人數(shù)量在50臺(tái)左右。這意味著,大量政府背景的數(shù)采中心仍以真機(jī)遙操數(shù)據(jù)采集為主要模式。
但鹿明機(jī)器人聯(lián)合創(chuàng)始人趙廣智透露,很多數(shù)采廠表達(dá)了對(duì)無(wú)本體數(shù)據(jù)采集方案的濃厚興趣。核心原因在于,建設(shè)無(wú)本體數(shù)采工廠可省去購(gòu)置機(jī)器人本體的高額硬件成本;同時(shí)能實(shí)現(xiàn)數(shù)據(jù)和硬件本體的解耦,而不受限于某款特定的本體,通過標(biāo)準(zhǔn)化流程直接記錄人的操作動(dòng)作軌跡。宋知珩也告訴記者,數(shù)采中心在逐漸增大無(wú)本體數(shù)據(jù)的采集比例。
不同的數(shù)采設(shè)備及采集方式,都可能影響無(wú)本體數(shù)據(jù)的質(zhì)量。
丁琰提到,如果UMI數(shù)采設(shè)備在硬件性能和系統(tǒng)設(shè)計(jì)上存在不足,就會(huì)導(dǎo)致采集的數(shù)據(jù)難以穩(wěn)定復(fù)現(xiàn),無(wú)法用于模型的訓(xùn)練。有了高質(zhì)量的硬件設(shè)備之后,還需要規(guī)范采集技巧來提升數(shù)據(jù)的質(zhì)量。低質(zhì)量的數(shù)據(jù)往往包含大量抖動(dòng)、漂移、時(shí)間錯(cuò)位等無(wú)效的冗余信息,很難幫助模型學(xué)會(huì)如何與世界準(zhǔn)確交互。
在丁琰看來,高質(zhì)量無(wú)本體數(shù)據(jù)通常需要在嚴(yán)密設(shè)計(jì)的物理空間內(nèi),由經(jīng)過培訓(xùn)的采集員按照嚴(yán)格的標(biāo)準(zhǔn)流程去操作完成。但Generalist會(huì)以眾包的方式,將穿戴設(shè)備分派給世界各地的普通人承接采集任務(wù)。丁琰判斷,眾包方式獲取的數(shù)據(jù)質(zhì)量是較大挑戰(zhàn)。如此條件下,Generalist訓(xùn)練出的模型卻能做出精細(xì)化的動(dòng)作,或依靠強(qiáng)大的數(shù)據(jù)過濾系統(tǒng)。
Sunday Robotics同樣采用眾包數(shù)采的做法。該公司聯(lián)合創(chuàng)始人遲宬在3月于蘇黎世聯(lián)邦理工學(xué)院的一場(chǎng)講座上回應(yīng)數(shù)據(jù)質(zhì)量話題時(shí)表示,過濾數(shù)據(jù)固然重要,但更關(guān)鍵的是,非常清楚地傳達(dá)到底想要什么,并讓采集數(shù)據(jù)的人與這個(gè)目標(biāo)對(duì)齊。
宋知珩補(bǔ)充說,數(shù)采廠盡管可以確保數(shù)據(jù)收集的質(zhì)量,但問題在于,數(shù)采廠不能復(fù)刻所有的真實(shí)場(chǎng)景,例如不可能專門搭建一條汽車生產(chǎn)線用于數(shù)采。如此一來,在真實(shí)場(chǎng)景中自然采集人類視頻數(shù)據(jù)變得必要。這需要把采集設(shè)備做得很輕量,將對(duì)人類員工在真實(shí)場(chǎng)景工作流程的影響降到最低。
中國(guó)具身公司“補(bǔ)課”數(shù)據(jù)短板
Generalist以眾包方式大規(guī)模采集數(shù)據(jù),追求“大力出奇跡”,在丁琰看來,這種模式需要對(duì)海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,對(duì)算力資源的消耗會(huì)比較大。
盡管Generalist未披露具體使用了多大規(guī)模的算力進(jìn)行訓(xùn)練,但其對(duì)自身的算力資源并不諱言。公司在4月7日一篇博客中寫到:“如果你擁有足夠的數(shù)據(jù)和算力,從零開始的訓(xùn)練總是能帶來勝利。”
丁琰估算,GEN-1模型使用50萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練,可能需要大幾千張乃至上萬(wàn)張AI芯片支持,“這是挺奢侈的一件事情。”
面臨算力資源限制的情況下,一些中國(guó)的具身智能創(chuàng)業(yè)公司此前不敢輕易冒險(xiǎn)。而當(dāng)無(wú)本體數(shù)采方案被Generalist等公司“帶火”之后,中國(guó)創(chuàng)業(yè)公司的相繼追隨又被一些聲音質(zhì)疑為“抄作業(yè)”。
千尋智能創(chuàng)始人韓峰濤在2月下旬接受《晚點(diǎn)》采訪時(shí)澄清,公司實(shí)際上從2024年就開始做可穿戴設(shè)備采集方案,“看到(Generalist)他們的發(fā)布,我們也很開心,原來和我們做的是一樣的”。他還直言,如果公司一開始能融幾億美元,肯定直接 all in 數(shù)據(jù)。但在中國(guó)創(chuàng)業(yè),如果沒有Demo(演示)和商業(yè)化苗頭,很難持續(xù)融資。所以需要花一些精力探索商業(yè)化,客觀上影響了解決數(shù)據(jù)問題的速度。
盡管業(yè)界公認(rèn)具身智能幾乎處于早期,但該領(lǐng)域的不少投資人已迫切希望看到創(chuàng)業(yè)公司能產(chǎn)生實(shí)質(zhì)的商業(yè)化進(jìn)展。不止一位投資人向南都記者表達(dá)過類似的言論:創(chuàng)業(yè)公司的落地能力、能否拿到商業(yè)化訂單,是做投資決策的重要依據(jù)。
資本層面對(duì)商業(yè)化的催熟背后,被認(rèn)為源于中美兩國(guó)的創(chuàng)投生態(tài)差異。有業(yè)內(nèi)人士觀察,美國(guó)的投資機(jī)構(gòu),目前對(duì)于具身智能的商業(yè)化“好像不是那么在乎”,可以容忍創(chuàng)業(yè)公司去瘋狂地探索和試錯(cuò)。宋知珩亦有類似的體感——中國(guó)的投資人對(duì)創(chuàng)業(yè)公司的經(jīng)營(yíng)有很高要求,需要公司做一些“沿途下蛋”的事情。
投融資環(huán)境的差異,進(jìn)一步塑造了中美具身智能創(chuàng)業(yè)公司的不同行為模式。“國(guó)內(nèi)公司非常注重落地,要把story講得非常飽滿。”在今年1月下旬的一檔播客中,國(guó)地共建具身智能機(jī)器人創(chuàng)新中心首席研究員張強(qiáng)表示,像Physical Intelligence(Pi)、Sunday Robotics的風(fēng)格不同,“Pi除非哪天扔出來一個(gè)ChatGPT這樣的產(chǎn)品,否則在那之前都不會(huì)落地。”
但宋知珩分析認(rèn)為,中美具身路線差異,也與各自的制造業(yè)基礎(chǔ)息息相關(guān)。美國(guó)制造業(yè)空心化嚴(yán)重,創(chuàng)業(yè)公司往往不會(huì)優(yōu)先打造高性能機(jī)器人本體,而是直接投入到物理AGI模型的研發(fā)中。相反,中國(guó)擁有先天的制造業(yè)基礎(chǔ),在產(chǎn)業(yè)策略上更容易先從本體能力切入。隨著機(jī)器人本體性能和運(yùn)動(dòng)控制算法逐漸成熟,行業(yè)已經(jīng)走到需要彌補(bǔ)相對(duì)落后的具身智能模型開發(fā)、解決數(shù)據(jù)問題的時(shí)間點(diǎn)了。“中國(guó)的(具身智能)故事,也開始轉(zhuǎn)向美國(guó)故事的模式。”
采寫:南都N視頻記者 楊柳
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.