鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
還得是這屆00后,強(qiáng)得可怕!一出手,具身智能就被“整頓”得底朝天。
當(dāng)別人還在Sim2Real打轉(zhuǎn)時(shí),這支00后帶隊(duì)的靈初智能,已經(jīng)開(kāi)始用近10萬(wàn)小時(shí)人類數(shù)據(jù)暴力拆解。
這個(gè)數(shù)字就是放到整個(gè)行業(yè)里看,也是遙遙領(lǐng)先。
畢竟目前人類操作數(shù)據(jù)集大多還都集中在幾千到幾萬(wàn)小時(shí)量級(jí),最大的也不過(guò)是英偉達(dá)的EgoScale,包含2萬(wàn)小時(shí)人類第一視角視頻數(shù)據(jù)。
靈初這次直接上了個(gè)新臺(tái)階,10萬(wàn)+數(shù)據(jù),其中1000小時(shí)還開(kāi)源。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Dfj0Z1JiMoTjzSCBassL2Q
而且發(fā)布形式也夠潮——直播show time~
AI博主弗蘭克和靈初智能的00后聯(lián)合創(chuàng)始人陳源培,直接手把手給你剖析的那種。(techblog指路:
https://www.psibot.ai/from-human-skill-to-robotic-mastery/)
![]()
言而總之,整場(chǎng)直播我們復(fù)盤(pán)下來(lái),就講兩件事:給具身智能喂什么吃、讓具身智能長(zhǎng)什么樣的腦子。
說(shuō)人話就是,靈初給的,是一條與眾不同的務(wù)實(shí)路徑——
不整虛的,直接對(duì)齊人類數(shù)據(jù),再用Psi-R2和Psi-W0雙系統(tǒng)架構(gòu)平穩(wěn)落地具體場(chǎng)景。
結(jié)果也很直觀,靈初Psi-R2迅速登頂MolmoSpace榜單。
MolmoSpace由美國(guó)艾倫人工智能研究所(AllenAI)發(fā)起,是全球具身智能領(lǐng)域權(quán)威基準(zhǔn)評(píng)測(cè)平臺(tái),NVIDIA、PI等全球頂尖團(tuán)隊(duì)均參與本次評(píng)測(cè)。
而靈初Psi-R2在評(píng)測(cè)中一舉超越PI、DreamZero等國(guó)際知名模型,表現(xiàn)也顯著優(yōu)于其他基線模型,妥妥的行業(yè)第一梯隊(duì)。
在成功率這塊,也比同類VLA模型要高出近10倍。
![]()
情況就是這么個(gè)情況,靈初一來(lái)就整了個(gè)大活,具身智能終于迎來(lái)首個(gè)直接能用的大規(guī)模人類手部操作全模態(tài)數(shù)據(jù)集。
下面就讓我們回到直播間現(xiàn)場(chǎng),一一復(fù)盤(pán)拆解。
10萬(wàn)小時(shí),讓具身智能吃個(gè)頂飽
“為啥偏偏具身智能會(huì)數(shù)據(jù)荒?”弗蘭克化身觀眾嘴替,率先給出這句經(jīng)典靈魂拷問(wèn)。
要回答這個(gè)問(wèn)題,首先需要厘清一點(diǎn),具身智能和自動(dòng)駕駛、大語(yǔ)言模型這些AI領(lǐng)域存在原生的數(shù)據(jù)差異。
后者基于現(xiàn)實(shí)場(chǎng)景和互聯(lián)網(wǎng),長(zhǎng)期積累沉淀形成了海量存量數(shù)據(jù),然后通過(guò)簡(jiǎn)單粗暴的算力Scaling law就能實(shí)現(xiàn)性能穩(wěn)步提升。
但具身智能則截然不同,物理世界復(fù)雜的情況讓它幾乎沒(méi)有可用的成熟數(shù)據(jù)集,也很難像互聯(lián)網(wǎng)產(chǎn)品那樣邊用邊攢數(shù)據(jù)。
可以說(shuō),影響具身智能發(fā)展的關(guān)鍵之一就是數(shù)據(jù)卡脖子。
那咋辦呢?以靈初在內(nèi)的具身智能公司紛紛將目光投向人類數(shù)據(jù)。
![]()
仿真數(shù)據(jù)還需要遷移處理,才能在真實(shí)機(jī)器人上使用,但人類數(shù)據(jù)就是最優(yōu)秀的參考對(duì)象,數(shù)據(jù)量大而且質(zhì)量高。
但事實(shí)上,這里也同樣存在一個(gè)無(wú)法忽視的問(wèn)題:人類和機(jī)器人之間存在本體差異(embodiment gap)。
直接復(fù)用顯然不行,機(jī)器人必定會(huì)出現(xiàn)運(yùn)動(dòng)學(xué)結(jié)構(gòu)、動(dòng)力學(xué)特性不匹配種種問(wèn)題。
其次,現(xiàn)有的人類數(shù)據(jù)要直接給到預(yù)訓(xùn)練,也是萬(wàn)萬(wàn)不行的。因?yàn)橐炊际切┬∫?guī)模開(kāi)源數(shù)據(jù),要么就是網(wǎng)絡(luò)上一些低質(zhì)量的第一人稱視頻。
但除去人類數(shù)據(jù),也幾乎沒(méi)有其它更好的路徑可走。靈初給出的判斷是:
具身智能要想面向真實(shí)商業(yè)化場(chǎng)景落地,純?nèi)祟悢?shù)據(jù)訓(xùn)練是必要的。
一方面,使用人類數(shù)據(jù)能夠讓機(jī)器人搶先學(xué)習(xí)到人類一線的標(biāo)準(zhǔn)作業(yè)流程(SOP),而這些都是得到商業(yè)實(shí)際驗(yàn)證過(guò)的,即拿即用且行之有效。
換言之,真實(shí)場(chǎng)景的無(wú)縫銜接能夠?qū)?shù)據(jù)成本降至最低,比如人類的觸覺(jué)數(shù)據(jù)收集成本,就僅為機(jī)器人的1/10以下。
另一方面,人類數(shù)據(jù)的SOP也可以使操作速度達(dá)到機(jī)械臂物理運(yùn)動(dòng)上限(如1200),遠(yuǎn)超遙操作可達(dá)的800,也更適配商業(yè)工廠的高節(jié)拍要求。
![]()
所以靈初最終選擇了人類數(shù)據(jù),并造出了首個(gè)可用于預(yù)訓(xùn)練的大規(guī)模人類操作數(shù)據(jù)集。
其中,在人類數(shù)據(jù)和機(jī)器人數(shù)據(jù)的融合處理中,靈初遵循的是一條化繁為簡(jiǎn)的思路:Raw Data In,Raw Data Out(原生數(shù)據(jù)進(jìn),原生數(shù)據(jù)出)。
舍棄人工設(shè)計(jì)的復(fù)雜數(shù)據(jù)處理,直接進(jìn)行人類關(guān)節(jié)與機(jī)器人本體的運(yùn)動(dòng)學(xué)對(duì)齊,讓模型在海量數(shù)據(jù)中自行探索。另外,Auto Labeling也會(huì)替代人工進(jìn)行數(shù)據(jù)質(zhì)檢和標(biāo)注,最后再交由人工審核。
最終模型預(yù)訓(xùn)練使用的數(shù)據(jù)集將包括真機(jī)數(shù)據(jù)(5417小時(shí))和人類數(shù)據(jù)(95472小時(shí))兩部分,總計(jì)10萬(wàn)小時(shí)數(shù)據(jù)。
目前其中1000小時(shí)已開(kāi)源,到年底整個(gè)數(shù)據(jù)集還將Scaling到百萬(wàn)量級(jí)。
具體來(lái)講,人類數(shù)據(jù)包括靈初自研外骨骼手套采集數(shù)據(jù)與裸手操作數(shù)據(jù),覆蓋294種場(chǎng)景、4821種任務(wù)與1382種物體。
![]()
至于為什么要強(qiáng)調(diào)觸覺(jué)數(shù)據(jù)呢?歸根結(jié)底,還是為了更好地彌補(bǔ)人機(jī)之間的embodiment gap。
雖然人類與機(jī)器人在多個(gè)方面差異明顯,但二者在接觸信號(hào)上卻保持了驚人的高度一致,能夠有效補(bǔ)償動(dòng)力學(xué)差異,以及在顯著提升世界模型能力的同時(shí),還能更好地預(yù)測(cè)機(jī)器人與物體之間的交互情況。
這樣一整套高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練下來(lái),機(jī)器人的泛化能力、長(zhǎng)流程操作能力和操作精度都會(huì)有所突破,后續(xù)也僅僅只需要不到100條軌跡的真機(jī)數(shù)據(jù)就能完成微調(diào)。
另外值得關(guān)注的是,靈初在此期間,還發(fā)現(xiàn)了另一處華點(diǎn):
數(shù)據(jù)信噪比才是決定人類數(shù)據(jù)能否有效支撐預(yù)訓(xùn)練的核心因素。低信噪比的數(shù)據(jù)甚至還會(huì)起到反作用。
如果要想判斷數(shù)據(jù)信噪比,可以從兩方面看:
1、數(shù)據(jù)集分布:操作任務(wù)多樣性>物體多樣性>>場(chǎng)景多樣性。
泛化能力其實(shí)是模型最難學(xué)會(huì)的能力之一,但如果在預(yù)訓(xùn)練階段可以見(jiàn)到更多任務(wù)和操作對(duì)象,自然而然模型接手新任務(wù)速度就越快。
2、感知模態(tài):精準(zhǔn)3D位姿>>觸覺(jué)模態(tài)>2D圖像特征。
在全模態(tài)信息中,人手全域3D位姿追蹤是2D到3D模型轉(zhuǎn)化的關(guān)鍵,也和機(jī)器人動(dòng)力學(xué)特性匹配度最高。
![]()
簡(jiǎn)單來(lái)說(shuō),靈初認(rèn)為無(wú)論是精準(zhǔn)采集的可復(fù)現(xiàn)數(shù)據(jù),還是舍棄部分精度的粗糙泛化數(shù)據(jù),都缺一不可。
二者相互補(bǔ)充,既保證模型精度又確保泛化。
具身智能長(zhǎng)出雙系統(tǒng)新腦
所以基于以上認(rèn)知,靈初全新發(fā)布Psi雙系統(tǒng)架構(gòu)——Psi-R2和Psi-W0。
![]()
先看Psi-R2,這是一款能讓機(jī)器人學(xué)習(xí)人類做事的模型,核心就是靠這10萬(wàn)+的海量數(shù)據(jù),學(xué)會(huì)精細(xì)操作。
圖像和語(yǔ)言指令將作為輸入,輸出預(yù)測(cè)的未來(lái)操作視頻和可執(zhí)行動(dòng)作,所以Psi-R2可以稱之為世界行動(dòng)模型(WAM)。
其中訓(xùn)練骨干網(wǎng)絡(luò)選用Wan2.2-IT2V-5B-480P,預(yù)訓(xùn)練階段同步使用真機(jī)數(shù)據(jù)和人類數(shù)據(jù),還搭建了一套完整的數(shù)據(jù)處理流程,從數(shù)據(jù)清洗、自動(dòng)標(biāo)注,到質(zhì)量檢測(cè)、人工核對(duì),Psi-W0還會(huì)幫忙檢查數(shù)據(jù)質(zhì)量。
同時(shí),采用專門(mén)技術(shù)精準(zhǔn)捕捉人類手部動(dòng)作軌跡,比如通過(guò)外骨骼手套,將動(dòng)作誤差控制在亞毫米級(jí),以確保人類的操作細(xì)節(jié)能被機(jī)器人精準(zhǔn)模仿。
![]()
視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-
但WAM模型架構(gòu)普遍存在一個(gè)bug——反應(yīng)慢。單次推理要2.2秒,反映到機(jī)器人身上,就是明顯的卡頓。
于是靈初通過(guò)DiT緩存、Torch編譯、模型量化等多項(xiàng)技術(shù)優(yōu)化,把反應(yīng)時(shí)間極限壓縮到了100毫秒以內(nèi)。
再看Psi-W0,它和Psi-R2的基礎(chǔ)架構(gòu)相似,但分工完全不同。Psi-R2是學(xué)習(xí)怎么做,Psi-W0是協(xié)助做得更好。
首先它和Psi-R2一樣,都是基于預(yù)訓(xùn)練視頻生成模型構(gòu)建的,但在Psi-W0里,機(jī)器人動(dòng)作是輸入,輸出的是對(duì)未來(lái)場(chǎng)景視頻的預(yù)測(cè),所以Psi-W0也被定義為動(dòng)作條件型世界模型(AC-WM)。
這里就引出了另一個(gè)問(wèn)題:Psi-R2也能輸出預(yù)測(cè),那為什么還要做Psi-W0?
答案很簡(jiǎn)單,為了反事實(shí)推理。Psi-R2學(xué)到的只有成功的操作,比如成功抓起蘋(píng)果,但沒(méi)有辦法預(yù)測(cè)到蘋(píng)果抓不穩(wěn)這類失敗情況。
但老話說(shuō)得好,失敗是成功之母,機(jī)器人亦是如此。失敗經(jīng)驗(yàn)?zāi)軌驇椭鷻C(jī)器人避開(kāi)錯(cuò)誤、優(yōu)化動(dòng)作,Psi-W0就是專門(mén)負(fù)責(zé)填補(bǔ)這部分空白。
具體來(lái)講,兩個(gè)模型的訓(xùn)練骨干和數(shù)據(jù)格式都是一致的,只是在Psi-W0的訓(xùn)練數(shù)據(jù)中額外加入了30%的失敗樣本。
![]()
視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-
顯然,Psi-R2和Psi-W0并非孤立存在,而是彼此之間協(xié)同配合。當(dāng)Psi-R2學(xué)完人類操作后,Psi-W0就會(huì)模擬人類操作場(chǎng)景,讓Psi-R2再演練一遍,也就是進(jìn)行策略評(píng)估,檢查它有沒(méi)有學(xué)漏學(xué)歪。
Psi-W0還有一項(xiàng)核心功能,是通過(guò)強(qiáng)化學(xué)習(xí)將人類數(shù)據(jù)轉(zhuǎn)換為機(jī)器人數(shù)據(jù)。
傳統(tǒng)方法中,數(shù)據(jù)轉(zhuǎn)換靠的是仿真環(huán)境調(diào)整,不僅復(fù)雜而且準(zhǔn)確性不高。但用Psi-W0替代后,它就會(huì)模擬機(jī)器人視角和動(dòng)作模式,再通過(guò)強(qiáng)化學(xué)習(xí)的試錯(cuò)調(diào)優(yōu),將人類動(dòng)作調(diào)整為機(jī)器人能精準(zhǔn)執(zhí)行的動(dòng)作。
![]()
更厲害的是,在這個(gè)過(guò)程中還能持續(xù)生成新的優(yōu)質(zhì)數(shù)據(jù),當(dāng)把這些數(shù)據(jù)反向喂給Psi-R2和Psi-W0繼續(xù)學(xué)習(xí),就能構(gòu)成閉環(huán)數(shù)據(jù)飛輪。
當(dāng)然也可以故意給Psi-W0進(jìn)行隨機(jī)擾動(dòng)以模擬部分特殊場(chǎng)景,然后再生成目標(biāo)場(chǎng)景和訓(xùn)練數(shù)據(jù)。
高質(zhì)量數(shù)據(jù)滋養(yǎng)模型高性能,模型場(chǎng)景落地反哺數(shù)據(jù)擴(kuò)充。于是自然而然,輪子飛起來(lái)了。
最終整套系統(tǒng)能夠?qū)崿F(xiàn)長(zhǎng)程任務(wù)自主規(guī)劃、任務(wù)自主恢復(fù)和適配多場(chǎng)景復(fù)雜任務(wù)。
開(kāi)源是最高效的落地杠桿
回看整場(chǎng)直播,無(wú)論是弗蘭克還是陳源培聊的內(nèi)容,其實(shí)貫穿技術(shù)始終的都是同一個(gè)關(guān)鍵詞——落地。
弗蘭克站在觀眾角度,好奇什么時(shí)候具身智能才能落地。陳源培則站在廠商視角,給出了靈初智能的落地方案:
技術(shù)端,從大規(guī)模的真實(shí)人類數(shù)據(jù)采集,再到實(shí)際應(yīng)用中的具身模型,無(wú)一不是從切實(shí)的落地場(chǎng)景中出發(fā)構(gòu)建。
應(yīng)用端,靈初智能也同時(shí)宣布要和北京石景山共建數(shù)采廠,以及和騰訊云、抖音、覓蜂、智域基石達(dá)成生態(tài)合作。
![]()
不難看出,靈初這家公司從誕生之初的DNA就是聚焦技術(shù)落地、提供通用全棧技術(shù)。它的每一步都在驗(yàn)證一個(gè)行業(yè)共識(shí):
具身智能從誕生之初就錨定的終點(diǎn),絕非實(shí)驗(yàn)室,而是每一個(gè)具體可感的復(fù)雜場(chǎng)景。而這恰恰才是檢驗(yàn)具身智能的標(biāo)準(zhǔn)所在。
在通往落地的過(guò)程中,靈初也率先意識(shí)到,單打獨(dú)斗并非最優(yōu)解,開(kāi)源是必要的。
對(duì)于它們自身而言,只有開(kāi)源,才能讓全行業(yè)幫助他們快速采集海量數(shù)據(jù),才能彌補(bǔ)上這套數(shù)據(jù)飛輪體系中的關(guān)鍵一環(huán)。
而且AI時(shí)代,時(shí)間和數(shù)據(jù)就是最稀缺的黃金資源。越早進(jìn)場(chǎng)、擁有越多數(shù)據(jù),就能搶先收獲長(zhǎng)尾效益。
再放眼整個(gè)行業(yè),開(kāi)源不僅是情懷,也是打破技術(shù)封閉孤島的鑰匙。它能夠建立起廣袤的開(kāi)發(fā)者生態(tài),通過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)管線和預(yù)訓(xùn)練底座,讓具身智能不再是孤立的廠商個(gè)體。
而全行業(yè)開(kāi)源共建,還能反向喂養(yǎng)靈初這類硬核玩家,讓他們集中精力攻堅(jiān)最難的技術(shù)瓶頸。集眾智,才是具身智能跑贏節(jié)拍、實(shí)現(xiàn)商業(yè)落地的唯一捷徑。
![]()
而靈初無(wú)疑是當(dāng)中走得最快最穩(wěn)的一位明星選手。
最后化用一句老話,用來(lái)描述我眼中的靈初智能——有仰望星空的勇氣,亦有腳踏實(shí)地的努力。
具身智能正在因這場(chǎng)青春風(fēng)暴而面目一新。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.