網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中國(guó)具身模型狂攬全球第一！機(jī)器人的人類數(shù)據(jù)時(shí)代來(lái)了

2026-04-11 10:03:54　來(lái)源: 量子位

北京舉報(bào)

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

還得是這屆00后，強(qiáng)得可怕！一出手，具身智能就被“整頓”得底朝天。

當(dāng)別人還在Sim2Real打轉(zhuǎn)時(shí)，這支00后帶隊(duì)的靈初智能，已經(jīng)開(kāi)始用近10萬(wàn)小時(shí)人類數(shù)據(jù)暴力拆解。

這個(gè)數(shù)字就是放到整個(gè)行業(yè)里看，也是遙遙領(lǐng)先。

畢竟目前人類操作數(shù)據(jù)集大多還都集中在幾千到幾萬(wàn)小時(shí)量級(jí)，最大的也不過(guò)是英偉達(dá)的EgoScale，包含2萬(wàn)小時(shí)人類第一視角視頻數(shù)據(jù)。

靈初這次直接上了個(gè)新臺(tái)階，10萬(wàn)+數(shù)據(jù)，其中1000小時(shí)還開(kāi)源。

視頻鏈接：https://mp.weixin.qq.com/s/Dfj0Z1JiMoTjzSCBassL2Q

而且發(fā)布形式也夠潮——直播show time～

AI博主弗蘭克和靈初智能的00后聯(lián)合創(chuàng)始人陳源培，直接手把手給你剖析的那種。（techblog指路：
https://www.psibot.ai/from-human-skill-to-robotic-mastery/）

言而總之，整場(chǎng)直播我們復(fù)盤(pán)下來(lái)，就講兩件事：給具身智能喂什么吃、讓具身智能長(zhǎng)什么樣的腦子。

說(shuō)人話就是，靈初給的，是一條與眾不同的務(wù)實(shí)路徑——

不整虛的，直接對(duì)齊人類數(shù)據(jù)，再用Psi-R2和Psi-W0雙系統(tǒng)架構(gòu)平穩(wěn)落地具體場(chǎng)景。

結(jié)果也很直觀，靈初Psi-R2迅速登頂MolmoSpace榜單。

MolmoSpace由美國(guó)艾倫人工智能研究所（AllenAI）發(fā)起，是全球具身智能領(lǐng)域權(quán)威基準(zhǔn)評(píng)測(cè)平臺(tái)，NVIDIA、PI等全球頂尖團(tuán)隊(duì)均參與本次評(píng)測(cè)。

而靈初Psi-R2在評(píng)測(cè)中一舉超越PI、DreamZero等國(guó)際知名模型，表現(xiàn)也顯著優(yōu)于其他基線模型，妥妥的行業(yè)第一梯隊(duì)。

在成功率這塊，也比同類VLA模型要高出近10倍。

情況就是這么個(gè)情況，靈初一來(lái)就整了個(gè)大活，具身智能終于迎來(lái)首個(gè)直接能用的大規(guī)模人類手部操作全模態(tài)數(shù)據(jù)集。

下面就讓我們回到直播間現(xiàn)場(chǎng)，一一復(fù)盤(pán)拆解。

10萬(wàn)小時(shí)，讓具身智能吃個(gè)頂飽

“為啥偏偏具身智能會(huì)數(shù)據(jù)荒？”弗蘭克化身觀眾嘴替，率先給出這句經(jīng)典靈魂拷問(wèn)。

要回答這個(gè)問(wèn)題，首先需要厘清一點(diǎn)，具身智能和自動(dòng)駕駛、大語(yǔ)言模型這些AI領(lǐng)域存在原生的數(shù)據(jù)差異。

后者基于現(xiàn)實(shí)場(chǎng)景和互聯(lián)網(wǎng)，長(zhǎng)期積累沉淀形成了海量存量數(shù)據(jù)，然后通過(guò)簡(jiǎn)單粗暴的算力Scaling law就能實(shí)現(xiàn)性能穩(wěn)步提升。

但具身智能則截然不同，物理世界復(fù)雜的情況讓它幾乎沒(méi)有可用的成熟數(shù)據(jù)集，也很難像互聯(lián)網(wǎng)產(chǎn)品那樣邊用邊攢數(shù)據(jù)。

可以說(shuō)，影響具身智能發(fā)展的關(guān)鍵之一就是數(shù)據(jù)卡脖子。

那咋辦呢？以靈初在內(nèi)的具身智能公司紛紛將目光投向人類數(shù)據(jù)。

仿真數(shù)據(jù)還需要遷移處理，才能在真實(shí)機(jī)器人上使用，但人類數(shù)據(jù)就是最優(yōu)秀的參考對(duì)象，數(shù)據(jù)量大而且質(zhì)量高。

但事實(shí)上，這里也同樣存在一個(gè)無(wú)法忽視的問(wèn)題：人類和機(jī)器人之間存在本體差異（embodiment gap）。

直接復(fù)用顯然不行，機(jī)器人必定會(huì)出現(xiàn)運(yùn)動(dòng)學(xué)結(jié)構(gòu)、動(dòng)力學(xué)特性不匹配種種問(wèn)題。

其次，現(xiàn)有的人類數(shù)據(jù)要直接給到預(yù)訓(xùn)練，也是萬(wàn)萬(wàn)不行的。因?yàn)橐炊际切┬∫?guī)模開(kāi)源數(shù)據(jù)，要么就是網(wǎng)絡(luò)上一些低質(zhì)量的第一人稱視頻。

但除去人類數(shù)據(jù)，也幾乎沒(méi)有其它更好的路徑可走。靈初給出的判斷是：

具身智能要想面向真實(shí)商業(yè)化場(chǎng)景落地，純?nèi)祟悢?shù)據(jù)訓(xùn)練是必要的。

一方面，使用人類數(shù)據(jù)能夠讓機(jī)器人搶先學(xué)習(xí)到人類一線的標(biāo)準(zhǔn)作業(yè)流程（SOP），而這些都是得到商業(yè)實(shí)際驗(yàn)證過(guò)的，即拿即用且行之有效。

換言之，真實(shí)場(chǎng)景的無(wú)縫銜接能夠?qū)?shù)據(jù)成本降至最低，比如人類的觸覺(jué)數(shù)據(jù)收集成本，就僅為機(jī)器人的1/10以下。

另一方面，人類數(shù)據(jù)的SOP也可以使操作速度達(dá)到機(jī)械臂物理運(yùn)動(dòng)上限（如1200），遠(yuǎn)超遙操作可達(dá)的800，也更適配商業(yè)工廠的高節(jié)拍要求。

所以靈初最終選擇了人類數(shù)據(jù)，并造出了首個(gè)可用于預(yù)訓(xùn)練的大規(guī)模人類操作數(shù)據(jù)集。

其中，在人類數(shù)據(jù)和機(jī)器人數(shù)據(jù)的融合處理中，靈初遵循的是一條化繁為簡(jiǎn)的思路：Raw Data In，Raw Data Out（原生數(shù)據(jù)進(jìn)，原生數(shù)據(jù)出）。

舍棄人工設(shè)計(jì)的復(fù)雜數(shù)據(jù)處理，直接進(jìn)行人類關(guān)節(jié)與機(jī)器人本體的運(yùn)動(dòng)學(xué)對(duì)齊，讓模型在海量數(shù)據(jù)中自行探索。另外，Auto Labeling也會(huì)替代人工進(jìn)行數(shù)據(jù)質(zhì)檢和標(biāo)注，最后再交由人工審核。

最終模型預(yù)訓(xùn)練使用的數(shù)據(jù)集將包括真機(jī)數(shù)據(jù)（5417小時(shí)）和人類數(shù)據(jù)（95472小時(shí)）兩部分，總計(jì)10萬(wàn)小時(shí)數(shù)據(jù)。

目前其中1000小時(shí)已開(kāi)源，到年底整個(gè)數(shù)據(jù)集還將Scaling到百萬(wàn)量級(jí)。

具體來(lái)講，人類數(shù)據(jù)包括靈初自研外骨骼手套采集數(shù)據(jù)與裸手操作數(shù)據(jù)，覆蓋294種場(chǎng)景、4821種任務(wù)與1382種物體。

至于為什么要強(qiáng)調(diào)觸覺(jué)數(shù)據(jù)呢？歸根結(jié)底，還是為了更好地彌補(bǔ)人機(jī)之間的embodiment gap。

雖然人類與機(jī)器人在多個(gè)方面差異明顯，但二者在接觸信號(hào)上卻保持了驚人的高度一致，能夠有效補(bǔ)償動(dòng)力學(xué)差異，以及在顯著提升世界模型能力的同時(shí)，還能更好地預(yù)測(cè)機(jī)器人與物體之間的交互情況。

這樣一整套高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練下來(lái)，機(jī)器人的泛化能力、長(zhǎng)流程操作能力和操作精度都會(huì)有所突破，后續(xù)也僅僅只需要不到100條軌跡的真機(jī)數(shù)據(jù)就能完成微調(diào)。

另外值得關(guān)注的是，靈初在此期間，還發(fā)現(xiàn)了另一處華點(diǎn)：

數(shù)據(jù)信噪比才是決定人類數(shù)據(jù)能否有效支撐預(yù)訓(xùn)練的核心因素。低信噪比的數(shù)據(jù)甚至還會(huì)起到反作用。

如果要想判斷數(shù)據(jù)信噪比，可以從兩方面看：

1、數(shù)據(jù)集分布：操作任務(wù)多樣性>物體多樣性>>場(chǎng)景多樣性。

泛化能力其實(shí)是模型最難學(xué)會(huì)的能力之一，但如果在預(yù)訓(xùn)練階段可以見(jiàn)到更多任務(wù)和操作對(duì)象，自然而然模型接手新任務(wù)速度就越快。

2、感知模態(tài)：精準(zhǔn)3D位姿>>觸覺(jué)模態(tài)>2D圖像特征。

在全模態(tài)信息中，人手全域3D位姿追蹤是2D到3D模型轉(zhuǎn)化的關(guān)鍵，也和機(jī)器人動(dòng)力學(xué)特性匹配度最高。

簡(jiǎn)單來(lái)說(shuō)，靈初認(rèn)為無(wú)論是精準(zhǔn)采集的可復(fù)現(xiàn)數(shù)據(jù)，還是舍棄部分精度的粗糙泛化數(shù)據(jù)，都缺一不可。

二者相互補(bǔ)充，既保證模型精度又確保泛化。

具身智能長(zhǎng)出雙系統(tǒng)新腦

所以基于以上認(rèn)知，靈初全新發(fā)布Psi雙系統(tǒng)架構(gòu)——Psi-R2和Psi-W0。

先看Psi-R2，這是一款能讓機(jī)器人學(xué)習(xí)人類做事的模型，核心就是靠這10萬(wàn)+的海量數(shù)據(jù)，學(xué)會(huì)精細(xì)操作。

圖像和語(yǔ)言指令將作為輸入，輸出預(yù)測(cè)的未來(lái)操作視頻和可執(zhí)行動(dòng)作，所以Psi-R2可以稱之為世界行動(dòng)模型（WAM）。

其中訓(xùn)練骨干網(wǎng)絡(luò)選用Wan2.2-IT2V-5B-480P，預(yù)訓(xùn)練階段同步使用真機(jī)數(shù)據(jù)和人類數(shù)據(jù)，還搭建了一套完整的數(shù)據(jù)處理流程，從數(shù)據(jù)清洗、自動(dòng)標(biāo)注，到質(zhì)量檢測(cè)、人工核對(duì)，Psi-W0還會(huì)幫忙檢查數(shù)據(jù)質(zhì)量。

同時(shí)，采用專門(mén)技術(shù)精準(zhǔn)捕捉人類手部動(dòng)作軌跡，比如通過(guò)外骨骼手套，將動(dòng)作誤差控制在亞毫米級(jí)，以確保人類的操作細(xì)節(jié)能被機(jī)器人精準(zhǔn)模仿。

視頻鏈接：https://www.psibot.ai/from-human-skill-to-robotic-

但WAM模型架構(gòu)普遍存在一個(gè)bug——反應(yīng)慢。單次推理要2.2秒，反映到機(jī)器人身上，就是明顯的卡頓。

于是靈初通過(guò)DiT緩存、Torch編譯、模型量化等多項(xiàng)技術(shù)優(yōu)化，把反應(yīng)時(shí)間極限壓縮到了100毫秒以內(nèi)。

再看Psi-W0，它和Psi-R2的基礎(chǔ)架構(gòu)相似，但分工完全不同。Psi-R2是學(xué)習(xí)怎么做，Psi-W0是協(xié)助做得更好。

首先它和Psi-R2一樣，都是基于預(yù)訓(xùn)練視頻生成模型構(gòu)建的，但在Psi-W0里，機(jī)器人動(dòng)作是輸入，輸出的是對(duì)未來(lái)場(chǎng)景視頻的預(yù)測(cè)，所以Psi-W0也被定義為動(dòng)作條件型世界模型（AC-WM）。

這里就引出了另一個(gè)問(wèn)題：Psi-R2也能輸出預(yù)測(cè)，那為什么還要做Psi-W0？

答案很簡(jiǎn)單，為了反事實(shí)推理。Psi-R2學(xué)到的只有成功的操作，比如成功抓起蘋(píng)果，但沒(méi)有辦法預(yù)測(cè)到蘋(píng)果抓不穩(wěn)這類失敗情況。

但老話說(shuō)得好，失敗是成功之母，機(jī)器人亦是如此。失敗經(jīng)驗(yàn)?zāi)軌驇椭鷻C(jī)器人避開(kāi)錯(cuò)誤、優(yōu)化動(dòng)作，Psi-W0就是專門(mén)負(fù)責(zé)填補(bǔ)這部分空白。

具體來(lái)講，兩個(gè)模型的訓(xùn)練骨干和數(shù)據(jù)格式都是一致的，只是在Psi-W0的訓(xùn)練數(shù)據(jù)中額外加入了30%的失敗樣本。

視頻鏈接：https://www.psibot.ai/from-human-skill-to-robotic-

顯然，Psi-R2和Psi-W0并非孤立存在，而是彼此之間協(xié)同配合。當(dāng)Psi-R2學(xué)完人類操作后，Psi-W0就會(huì)模擬人類操作場(chǎng)景，讓Psi-R2再演練一遍，也就是進(jìn)行策略評(píng)估，檢查它有沒(méi)有學(xué)漏學(xué)歪。

Psi-W0還有一項(xiàng)核心功能，是通過(guò)強(qiáng)化學(xué)習(xí)將人類數(shù)據(jù)轉(zhuǎn)換為機(jī)器人數(shù)據(jù)。

傳統(tǒng)方法中，數(shù)據(jù)轉(zhuǎn)換靠的是仿真環(huán)境調(diào)整，不僅復(fù)雜而且準(zhǔn)確性不高。但用Psi-W0替代后，它就會(huì)模擬機(jī)器人視角和動(dòng)作模式，再通過(guò)強(qiáng)化學(xué)習(xí)的試錯(cuò)調(diào)優(yōu)，將人類動(dòng)作調(diào)整為機(jī)器人能精準(zhǔn)執(zhí)行的動(dòng)作。

更厲害的是，在這個(gè)過(guò)程中還能持續(xù)生成新的優(yōu)質(zhì)數(shù)據(jù)，當(dāng)把這些數(shù)據(jù)反向喂給Psi-R2和Psi-W0繼續(xù)學(xué)習(xí)，就能構(gòu)成閉環(huán)數(shù)據(jù)飛輪。

當(dāng)然也可以故意給Psi-W0進(jìn)行隨機(jī)擾動(dòng)以模擬部分特殊場(chǎng)景，然后再生成目標(biāo)場(chǎng)景和訓(xùn)練數(shù)據(jù)。

高質(zhì)量數(shù)據(jù)滋養(yǎng)模型高性能，模型場(chǎng)景落地反哺數(shù)據(jù)擴(kuò)充。于是自然而然，輪子飛起來(lái)了。

最終整套系統(tǒng)能夠?qū)崿F(xiàn)長(zhǎng)程任務(wù)自主規(guī)劃、任務(wù)自主恢復(fù)和適配多場(chǎng)景復(fù)雜任務(wù)。

開(kāi)源是最高效的落地杠桿

回看整場(chǎng)直播，無(wú)論是弗蘭克還是陳源培聊的內(nèi)容，其實(shí)貫穿技術(shù)始終的都是同一個(gè)關(guān)鍵詞——落地。

弗蘭克站在觀眾角度，好奇什么時(shí)候具身智能才能落地。陳源培則站在廠商視角，給出了靈初智能的落地方案：

技術(shù)端，從大規(guī)模的真實(shí)人類數(shù)據(jù)采集，再到實(shí)際應(yīng)用中的具身模型，無(wú)一不是從切實(shí)的落地場(chǎng)景中出發(fā)構(gòu)建。

應(yīng)用端，靈初智能也同時(shí)宣布要和北京石景山共建數(shù)采廠，以及和騰訊云、抖音、覓蜂、智域基石達(dá)成生態(tài)合作。

不難看出，靈初這家公司從誕生之初的DNA就是聚焦技術(shù)落地、提供通用全棧技術(shù)。它的每一步都在驗(yàn)證一個(gè)行業(yè)共識(shí)：

具身智能從誕生之初就錨定的終點(diǎn)，絕非實(shí)驗(yàn)室，而是每一個(gè)具體可感的復(fù)雜場(chǎng)景。而這恰恰才是檢驗(yàn)具身智能的標(biāo)準(zhǔn)所在。

在通往落地的過(guò)程中，靈初也率先意識(shí)到，單打獨(dú)斗并非最優(yōu)解，開(kāi)源是必要的。

對(duì)于它們自身而言，只有開(kāi)源，才能讓全行業(yè)幫助他們快速采集海量數(shù)據(jù)，才能彌補(bǔ)上這套數(shù)據(jù)飛輪體系中的關(guān)鍵一環(huán)。

而且AI時(shí)代，時(shí)間和數(shù)據(jù)就是最稀缺的黃金資源。越早進(jìn)場(chǎng)、擁有越多數(shù)據(jù)，就能搶先收獲長(zhǎng)尾效益。

再放眼整個(gè)行業(yè)，開(kāi)源不僅是情懷，也是打破技術(shù)封閉孤島的鑰匙。它能夠建立起廣袤的開(kāi)發(fā)者生態(tài)，通過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)管線和預(yù)訓(xùn)練底座，讓具身智能不再是孤立的廠商個(gè)體。

而全行業(yè)開(kāi)源共建，還能反向喂養(yǎng)靈初這類硬核玩家，讓他們集中精力攻堅(jiān)最難的技術(shù)瓶頸。集眾智，才是具身智能跑贏節(jié)拍、實(shí)現(xiàn)商業(yè)落地的唯一捷徑。

而靈初無(wú)疑是當(dāng)中走得最快最穩(wěn)的一位明星選手。

最后化用一句老話，用來(lái)描述我眼中的靈初智能——有仰望星空的勇氣，亦有腳踏實(shí)地的努力。

具身智能正在因這場(chǎng)青春風(fēng)暴而面目一新。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.