henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
具身智能火了快兩年,現(xiàn)在,終于有團(tuán)隊(duì)富裕到拿真機(jī)數(shù)據(jù)去砸預(yù)訓(xùn)練了。
而且一砸,就是17800小時(shí)。
這是啥概念?差不多相當(dāng)于一臺(tái)機(jī)器人,連續(xù)兩年、一天24小時(shí)不停地被人類遙操作。
當(dāng)所有人都以為真機(jī)數(shù)據(jù)是奢侈品,難以scaling,只能放在最后的微調(diào)階段時(shí)。
剛剛,上海創(chuàng)智學(xué)院副教授、智元機(jī)器人首席科學(xué)家羅劍嵐帶隊(duì),發(fā)布全球最大規(guī)模的開源預(yù)訓(xùn)練具身世界模型——
τ0-World Model(τ0-WM)。
![]()
整個(gè)τ0-WM參數(shù)量達(dá)到5B,預(yù)訓(xùn)練數(shù)據(jù)規(guī)模高達(dá)約3萬小時(shí)。其中,真機(jī)遙操作數(shù)據(jù)第一次成了絕對(duì)主力,占到了1.78萬小時(shí)。
而3萬小時(shí)的預(yù)訓(xùn)練數(shù)據(jù),是目前全球開源預(yù)訓(xùn)練具身世界模型中最大的。
τ0-WM不僅能像其他世界模型那樣預(yù)測未來畫面、生成動(dòng)作。
更重要的是,它還結(jié)合了測試時(shí)計(jì)算(Test-Time Computation),讓機(jī)器人在執(zhí)行前對(duì)多個(gè)候選動(dòng)作進(jìn)行排序,選出最優(yōu)方案,質(zhì)量不夠就調(diào)用模擬器修正后再執(zhí)行。
基于這套方法;τ0-WM在四個(gè)長程精細(xì)操作任務(wù),包括Toolbox(工具收納)、School Bag(書包裝物)、Badminton(羽毛球裝盒)和Faucet(水管接頭對(duì)接)的平均成功率超過了對(duì)標(biāo)π0.5和Fast-WAM。
![]()
可以說,羅劍嵐團(tuán)隊(duì)此前在后訓(xùn)練方面的持續(xù)投入,不僅攢出了足夠規(guī)模的真機(jī)數(shù)據(jù),也攢出了把這些數(shù)據(jù)用于大規(guī)模預(yù)訓(xùn)練的經(jīng)驗(yàn)。
預(yù)訓(xùn)練和后訓(xùn)練這兩條線,終于對(duì)齊了。
提議、模擬、評(píng)估,然后行動(dòng)
過去幾年,驅(qū)動(dòng)機(jī)器人實(shí)現(xiàn)感知與控制的主流范式,大多是一種反應(yīng)式的端到端策略:
神經(jīng)網(wǎng)絡(luò)看到畫面,立刻輸出動(dòng)作。
這種類似于人類“條件反射”的方式,在抓取、放置等標(biāo)準(zhǔn)任務(wù)里已經(jīng)非常成功。
但就像人類其實(shí)并不完全依賴肌肉記憶一樣,機(jī)器人在面對(duì)接觸密集、長程跨度、或者存在嚴(yán)重遮擋的復(fù)雜操作時(shí),單純依靠“看見場景就輸出動(dòng)作”的方式,也很容易導(dǎo)致不可逆的錯(cuò)誤。
很多時(shí)候,一步錯(cuò),后面可能就全錯(cuò)了。
所以,和許多世界模型方法一樣,τ0-WM選擇讓機(jī)器人在行動(dòng)之前,先在腦子里“想象”一下:
如果自己執(zhí)行了這個(gè)動(dòng)作,未來會(huì)發(fā)生什么,環(huán)境會(huì)怎么變化。
但τ0-WM特別的地方在于,它不只“想一次”。
為了讓機(jī)器人能夠三思而后行,研究引入了Test-Time Computation(測試時(shí)計(jì)算),讓機(jī)器人在真正執(zhí)行前,可以多花一點(diǎn)時(shí)間,在內(nèi)部“虛擬沙盤”里并行想象很多次,反復(fù)比較,甚至主動(dòng)糾錯(cuò)。
也就是說,τ0-WM讓機(jī)器人不再只是看到畫面就立刻出手,而是像人一樣,先在腦子里盤一遍哪種路線更靠譜,再?zèng)Q定真正怎么做。
某種程度上,這其實(shí)是在讓機(jī)器人學(xué)會(huì)一種“慢思考”。
![]()
具體來說,τ0-WM的在線推理,分成三步。
第一步,提議。
首先,視頻動(dòng)作模型(VAM)會(huì)根據(jù)當(dāng)前多視角觀測、語言指令以及機(jī)器人狀態(tài),一次性采樣出多組候選動(dòng)作,同時(shí)生成對(duì)應(yīng)的模糊未來畫面。
這相當(dāng)于機(jī)器人先在腦子里快速閃過幾種可能的做法。
第二步,推演。
其次,動(dòng)作條件視頻模擬器會(huì)針對(duì)每組候選動(dòng)作,進(jìn)一步生成對(duì)應(yīng)的多視角未來畫面。
之所以是多視角,是因?yàn)檎鎸?shí)機(jī)器人操作里,正面視角經(jīng)常會(huì)被機(jī)械臂或物體擋住,所以模型必須還能“腦補(bǔ)”側(cè)面、頂部等其他視角下的未來狀態(tài),才能真正判斷動(dòng)作后果。
第三步,評(píng)估與修正。
最后,系統(tǒng)會(huì)先用RCS(Re-denoising Consistency Score)給動(dòng)作打分:把候選動(dòng)作重新加噪,再丟回模型重新去噪,觀察重建誤差。
誤差越小,說明這個(gè)動(dòng)作越接近模型訓(xùn)練時(shí)學(xué)到的高質(zhì)量動(dòng)作分布,也越靠譜。
但如果最優(yōu)動(dòng)作的分?jǐn)?shù)依然不夠高,就會(huì)觸發(fā)第二層機(jī)制LAR(Low-quality Action Rectification)。
系統(tǒng)會(huì)把所有候選動(dòng)作送進(jìn)視頻模擬器,預(yù)測對(duì)應(yīng)未來狀態(tài)以及任務(wù)進(jìn)度,挑出“任務(wù)推進(jìn)效果最好”的未來畫面,再讓VAM基于這個(gè)“最優(yōu)未來”重新生成動(dòng)作。
最終,模型基于這三步走,輸出最好的動(dòng)作。
值得一提的是,雖然很多世界模型在訓(xùn)練時(shí)也會(huì)預(yù)測未來,但部署時(shí)為了推理速度,往往會(huì)把未來預(yù)測模塊直接去掉。
τ0-WM則堅(jiān)持在推理階段保留“顯式未來想象”,并把這些未來畫面真正用于后續(xù)動(dòng)作的打分、篩選與修正。
也就是說,對(duì)τ0-WM而言,“想象未來”不是訓(xùn)練技巧,而是機(jī)器人做決策的一部分。
在這三階段pipeline背后,τ0-WM主要由兩個(gè)共享視頻擴(kuò)散backbone組件驅(qū)動(dòng):
![]()
負(fù)責(zé)“提議動(dòng)作”的VAM,以及負(fù)責(zé)“沙盤推演”的動(dòng)作條件視頻模擬器。
前者基于Wan2.2-5B視頻生成模型,同時(shí)輸出未來視頻latent和動(dòng)作chunk;后者則專門負(fù)責(zé)評(píng)估未來狀態(tài)和任務(wù)進(jìn)度。
而在訓(xùn)練階段,三類不同來源的數(shù)據(jù),也通過modality-specific supervision masks被統(tǒng)一揉進(jìn)了同一個(gè)體系:
有動(dòng)作標(biāo)簽的數(shù)據(jù),同時(shí)訓(xùn)練視頻與動(dòng)作;沒有動(dòng)作標(biāo)簽的數(shù)據(jù),則只訓(xùn)練視頻分支。
3萬小時(shí)預(yù)訓(xùn)練數(shù)據(jù)
接下來,就到了τ0-WM這次最夸張、也最“重資產(chǎn)”的部分:訓(xùn)練數(shù)據(jù)。
這近3萬小時(shí)的預(yù)訓(xùn)練數(shù)據(jù),不只刷新了開源具身世界模型的規(guī)模紀(jì)錄,更重要的是,它正在打破行業(yè)對(duì)具身智能數(shù)據(jù)金字塔的固有認(rèn)知。
整個(gè)τ0-WM的訓(xùn)練數(shù)據(jù),主要由三部分組成,而且每一類數(shù)據(jù)的角色都不一樣。
![]()
第一類,是真機(jī)遙操作數(shù)據(jù),總量17800小時(shí)。
這部分?jǐn)?shù)據(jù)來自雙臂機(jī)器人、多視角采集,而且動(dòng)作空間和真實(shí)部署環(huán)境完全對(duì)齊。
某種程度上,它也是整個(gè)數(shù)據(jù)體系里“最貴”的部分。
因?yàn)檎鏅C(jī)采集不僅慢,還特別吃人力和硬件資源。但與此同時(shí),它也是質(zhì)量最高的數(shù)據(jù)。
這批數(shù)據(jù)提供了最核心的動(dòng)作監(jiān)督信號(hào),可以說是τ0-WM敢做大規(guī)模預(yù)訓(xùn)練的真正根基。
第二類,是6500小時(shí)的UMI數(shù)據(jù)。
簡單來說,UMI(Universal Manipulation Interface)是一種不依賴特定機(jī)器人平臺(tái)的數(shù)據(jù)采集方式。
相比真機(jī)遙操作,它覆蓋的物體種類和操作場景會(huì)豐富很多。但問題也很明顯,它的動(dòng)作空間,并不完全等同于真實(shí)機(jī)器人部署時(shí)的動(dòng)作空間。
所以在τ0-WM中,UMI數(shù)據(jù)更像是在補(bǔ)“行為多樣性”。
它不一定最精準(zhǔn),但能讓模型見過更多操作方式、更多物體、更多長尾場景。
第三類,則是3000小時(shí)的人類第一視角EgoCentric數(shù)據(jù)。
這部分?jǐn)?shù)據(jù)的采集成本最低,但覆蓋范圍卻最大。
里面會(huì)包含大量長尾交互行為,以及很多機(jī)器人暫時(shí)很難專門采集到的真實(shí)場景。
不過,它有一個(gè)問題:沒有機(jī)器人動(dòng)作標(biāo)簽。
也就是說,模型只能“看”,不能直接學(xué)“機(jī)器人該怎么動(dòng)”。因此,這部分?jǐn)?shù)據(jù)只參與視頻分支訓(xùn)練,不參與動(dòng)作預(yù)測。
它更像是在幫助模型學(xué)習(xí):物體會(huì)怎么運(yùn)動(dòng),人與環(huán)境會(huì)怎么交互,場景狀態(tài)會(huì)如何變化。
看到這里,其實(shí)會(huì)冒出一個(gè)很自然的問題:
既然人類視頻沒有動(dòng)作標(biāo)簽,UMI的數(shù)據(jù)格式又和真機(jī)動(dòng)作空間不完全一致,那模型到底怎么把它們一起訓(xùn)進(jìn)去?
τ0-WM這里用了一個(gè)很巧的設(shè)計(jì)——Modality-specific supervision masks(模態(tài)特定監(jiān)督掩碼)。
簡單來說,對(duì)于有動(dòng)作標(biāo)簽的數(shù)據(jù),就同時(shí)訓(xùn)練視頻和動(dòng)作,沒有動(dòng)作標(biāo)簽的數(shù)據(jù),就把動(dòng)作部分mask掉,只訓(xùn)練視覺分支。
這樣一來,不同來源、不同模態(tài)、不同動(dòng)作空間的數(shù)據(jù),就第一次被真正揉進(jìn)了同一個(gè)預(yù)訓(xùn)練體系里。
實(shí)驗(yàn)結(jié)論
在實(shí)驗(yàn)部分,團(tuán)隊(duì)最核心想驗(yàn)證的一件事,其實(shí)就是:
Test-Time Computation(測試時(shí)計(jì)算),到底有沒有用。
在抽紙巾放進(jìn)盒子和撿筆放進(jìn)盒子兩個(gè)任務(wù)上,這兩個(gè)任務(wù)在3萬小時(shí)預(yù)訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過,屬于模型完全沒見過的新任務(wù)。
研究采用了比常規(guī)做法更嚴(yán)格的評(píng)測標(biāo)準(zhǔn),不允許重試,單次機(jī)會(huì),20輪取平均。
![]()
結(jié)果表明,不加測試時(shí)計(jì)算時(shí),裸策略平均成功率只有43%。加入第一層RCS動(dòng)作篩選后,提升到50%。
再疊加LAR模擬器修正之后,最終來到60%。提升最明顯的是更難的Pen→Box任務(wù),成功率直接從30%拉到了50%。
此外,研究還專門對(duì)比了其他測試時(shí)引導(dǎo)方法。同樣條件下,Classifier-Free Guidance(CFG)成功率只有20%,Action Coherence Guidance(ACG)為38%,τ0-WM則達(dá)到60%。
這里最關(guān)鍵的區(qū)別就來自之前提到的,CFG和ACG,本質(zhì)上還是在檢查“動(dòng)作本身是否連貫”。
而τ0-WM評(píng)估的,則是:
“這個(gè)動(dòng)作做完之后,未來世界會(huì)變成什么樣,任務(wù)有沒有真的往前推進(jìn)。”
也就是說,前者關(guān)注的是動(dòng)作空間內(nèi)部的一致性。
而后者,開始真正把“未來后果”納入了決策。
(其余實(shí)驗(yàn)細(xì)節(jié)可參考論文)
數(shù)據(jù)金字塔,要變樣了
如果放到整個(gè)具身智能行業(yè)的數(shù)據(jù)路線里看,τ0-WM這次真正特別的地方,其實(shí)會(huì)更明顯。
過去,具身行業(yè)的數(shù)據(jù)體系一直像一個(gè)很典型的金字塔。
![]()
最底層,是互聯(lián)網(wǎng)視頻數(shù)據(jù)。
規(guī)模最大、最便宜,但沒有機(jī)器人動(dòng)作標(biāo)簽,只能讓模型學(xué)一些通用視覺和世界變化規(guī)律。
再往上一層,是仿真數(shù)據(jù)。
機(jī)器人終于開始“動(dòng)起來”了,但問題在于,仿真和真實(shí)物理世界之間,始終隔著一道巨大的sim2real gap。
而金字塔最頂層,則是真機(jī)遙操作數(shù)據(jù)。質(zhì)量最高,動(dòng)作空間和真實(shí)部署完全一致,但行業(yè)過去的普遍認(rèn)知一直是:
太貴、太少、根本不可能scale。
所以大多數(shù)團(tuán)隊(duì),都會(huì)把真機(jī)數(shù)據(jù)留到最后微調(diào)階段再用。
但今年,一個(gè)新的變化開始出現(xiàn)了,Ego-Centric第一視角數(shù)據(jù)突然崛起。
大家開始意識(shí)到,人類第一視角視頻雖然沒有機(jī)器人動(dòng)作標(biāo)簽,但它天然包含了大量真實(shí)世界里的交互過程、物體變化和長尾操作。
于是整個(gè)行業(yè),開始集體all in Ego數(shù)據(jù)。
某種程度上,Ego-Centric正在變成數(shù)據(jù)金字塔里的“新中層”,比互聯(lián)網(wǎng)視頻更接近真實(shí)交互,又比真機(jī)數(shù)據(jù)便宜得多。
但問題是,絕大多數(shù)團(tuán)隊(duì)做到這里,其實(shí)就停下來了,因?yàn)榇蠹胰匀荒J(rèn)真機(jī)數(shù)據(jù)依然貴到不可能成為預(yù)訓(xùn)練主體。
但τ0-WM第一次把這個(gè)邏輯反過來了。
他們一邊引入Ego-Centric數(shù)據(jù),一邊直接用17800小時(shí)真機(jī)遙操作數(shù)據(jù)給預(yù)訓(xùn)練打底。
這件事也不是突然發(fā)生的。
回看羅劍嵐團(tuán)隊(duì)過去一年多的工作,會(huì)發(fā)現(xiàn)一條非常清晰的主線,他們搭的不是單點(diǎn)模型,而是一整套真實(shí)世界數(shù)據(jù)飛輪。
2026年1月,SOP搭起了規(guī)模化的真機(jī)數(shù)據(jù)采集和回流基礎(chǔ)設(shè)施。
![]()
2026年4月,LWD把大規(guī)模強(qiáng)化學(xué)習(xí)引入具身VLA的后訓(xùn)練,構(gòu)建了部署即訓(xùn)練的數(shù)據(jù)飛輪,機(jī)器人跑得越多,回流數(shù)據(jù)越多,模型越強(qiáng),又能跑更多任務(wù)。失敗軌跡也第一次被系統(tǒng)性納入學(xué)習(xí)。
![]()
而當(dāng)真機(jī)交互數(shù)據(jù)積累跨過某個(gè)臨界點(diǎn)之后,一件以前沒人敢想的事,就自然發(fā)生了:
真機(jī)數(shù)據(jù)終于開始從“后訓(xùn)練耗材”,變成“預(yù)訓(xùn)練燃料”。
直到這里,具身智能里的“預(yù)訓(xùn)練—真機(jī)部署—數(shù)據(jù)回流—再預(yù)訓(xùn)練”這條鏈路,才第一次真正開始跑通。
項(xiàng)目網(wǎng)站:
https://finch.agibot.com/research/tau0-wm
項(xiàng)目github:
https://github.com/sii-research/tau-0-wm
模型huggingface:
https://huggingface.co/sii-research/tau-0-wm
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.