網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

τ0-WM：最大規(guī)模預(yù)訓(xùn)練的開源具身世界模型來了

2026-05-31 15:37:06　來源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

具身智能火了快兩年，現(xiàn)在，終于有團(tuán)隊(duì)富裕到拿真機(jī)數(shù)據(jù)去砸預(yù)訓(xùn)練了。

而且一砸，就是17800小時(shí)。

這是啥概念？差不多相當(dāng)于一臺(tái)機(jī)器人，連續(xù)兩年、一天24小時(shí)不停地被人類遙操作。

當(dāng)所有人都以為真機(jī)數(shù)據(jù)是奢侈品，難以scaling，只能放在最后的微調(diào)階段時(shí)。

剛剛，上海創(chuàng)智學(xué)院副教授、智元機(jī)器人首席科學(xué)家羅劍嵐帶隊(duì)，發(fā)布全球最大規(guī)模的開源預(yù)訓(xùn)練具身世界模型——

τ0-World Model（τ0-WM)。

整個(gè)τ0-WM參數(shù)量達(dá)到5B，預(yù)訓(xùn)練數(shù)據(jù)規(guī)模高達(dá)約3萬小時(shí)。其中，真機(jī)遙操作數(shù)據(jù)第一次成了絕對(duì)主力，占到了1.78萬小時(shí)。

而3萬小時(shí)的預(yù)訓(xùn)練數(shù)據(jù)，是目前全球開源預(yù)訓(xùn)練具身世界模型中最大的。

τ0-WM不僅能像其他世界模型那樣預(yù)測未來畫面、生成動(dòng)作。

更重要的是，它還結(jié)合了測試時(shí)計(jì)算（Test-Time Computation），讓機(jī)器人在執(zhí)行前對(duì)多個(gè)候選動(dòng)作進(jìn)行排序，選出最優(yōu)方案，質(zhì)量不夠就調(diào)用模擬器修正后再執(zhí)行。

基于這套方法；τ0-WM在四個(gè)長程精細(xì)操作任務(wù)，包括Toolbox（工具收納）、School Bag（書包裝物）、Badminton（羽毛球裝盒）和Faucet（水管接頭對(duì)接）的平均成功率超過了對(duì)標(biāo)π0.5和Fast-WAM。

可以說，羅劍嵐團(tuán)隊(duì)此前在后訓(xùn)練方面的持續(xù)投入，不僅攢出了足夠規(guī)模的真機(jī)數(shù)據(jù)，也攢出了把這些數(shù)據(jù)用于大規(guī)模預(yù)訓(xùn)練的經(jīng)驗(yàn)。

預(yù)訓(xùn)練和后訓(xùn)練這兩條線，終于對(duì)齊了。

提議、模擬、評(píng)估，然后行動(dòng)

過去幾年，驅(qū)動(dòng)機(jī)器人實(shí)現(xiàn)感知與控制的主流范式，大多是一種反應(yīng)式的端到端策略：

神經(jīng)網(wǎng)絡(luò)看到畫面，立刻輸出動(dòng)作。

這種類似于人類“條件反射”的方式，在抓取、放置等標(biāo)準(zhǔn)任務(wù)里已經(jīng)非常成功。

但就像人類其實(shí)并不完全依賴肌肉記憶一樣，機(jī)器人在面對(duì)接觸密集、長程跨度、或者存在嚴(yán)重遮擋的復(fù)雜操作時(shí)，單純依靠“看見場景就輸出動(dòng)作”的方式，也很容易導(dǎo)致不可逆的錯(cuò)誤。

很多時(shí)候，一步錯(cuò)，后面可能就全錯(cuò)了。

所以，和許多世界模型方法一樣，τ0-WM選擇讓機(jī)器人在行動(dòng)之前，先在腦子里“想象”一下：

如果自己執(zhí)行了這個(gè)動(dòng)作，未來會(huì)發(fā)生什么，環(huán)境會(huì)怎么變化。

但τ0-WM特別的地方在于，它不只“想一次”。

為了讓機(jī)器人能夠三思而后行，研究引入了Test-Time Computation（測試時(shí)計(jì)算），讓機(jī)器人在真正執(zhí)行前，可以多花一點(diǎn)時(shí)間，在內(nèi)部“虛擬沙盤”里并行想象很多次，反復(fù)比較，甚至主動(dòng)糾錯(cuò)。

也就是說，τ0-WM讓機(jī)器人不再只是看到畫面就立刻出手，而是像人一樣，先在腦子里盤一遍哪種路線更靠譜，再?zèng)Q定真正怎么做。

某種程度上，這其實(shí)是在讓機(jī)器人學(xué)會(huì)一種“慢思考”。

具體來說，τ0-WM的在線推理，分成三步。

第一步，提議。

首先，視頻動(dòng)作模型（VAM）會(huì)根據(jù)當(dāng)前多視角觀測、語言指令以及機(jī)器人狀態(tài)，一次性采樣出多組候選動(dòng)作，同時(shí)生成對(duì)應(yīng)的模糊未來畫面。

這相當(dāng)于機(jī)器人先在腦子里快速閃過幾種可能的做法。

第二步，推演。

其次，動(dòng)作條件視頻模擬器會(huì)針對(duì)每組候選動(dòng)作，進(jìn)一步生成對(duì)應(yīng)的多視角未來畫面。

之所以是多視角，是因?yàn)檎鎸?shí)機(jī)器人操作里，正面視角經(jīng)常會(huì)被機(jī)械臂或物體擋住，所以模型必須還能“腦補(bǔ)”側(cè)面、頂部等其他視角下的未來狀態(tài)，才能真正判斷動(dòng)作后果。

第三步，評(píng)估與修正。

最后，系統(tǒng)會(huì)先用RCS（Re-denoising Consistency Score）給動(dòng)作打分：把候選動(dòng)作重新加噪，再丟回模型重新去噪，觀察重建誤差。

誤差越小，說明這個(gè)動(dòng)作越接近模型訓(xùn)練時(shí)學(xué)到的高質(zhì)量動(dòng)作分布，也越靠譜。

但如果最優(yōu)動(dòng)作的分?jǐn)?shù)依然不夠高，就會(huì)觸發(fā)第二層機(jī)制LAR（Low-quality Action Rectification）。

系統(tǒng)會(huì)把所有候選動(dòng)作送進(jìn)視頻模擬器，預(yù)測對(duì)應(yīng)未來狀態(tài)以及任務(wù)進(jìn)度，挑出“任務(wù)推進(jìn)效果最好”的未來畫面，再讓VAM基于這個(gè)“最優(yōu)未來”重新生成動(dòng)作。

最終，模型基于這三步走，輸出最好的動(dòng)作。

值得一提的是，雖然很多世界模型在訓(xùn)練時(shí)也會(huì)預(yù)測未來，但部署時(shí)為了推理速度，往往會(huì)把未來預(yù)測模塊直接去掉。

τ0-WM則堅(jiān)持在推理階段保留“顯式未來想象”，并把這些未來畫面真正用于后續(xù)動(dòng)作的打分、篩選與修正。

也就是說，對(duì)τ0-WM而言，“想象未來”不是訓(xùn)練技巧，而是機(jī)器人做決策的一部分。

在這三階段pipeline背后，τ0-WM主要由兩個(gè)共享視頻擴(kuò)散backbone組件驅(qū)動(dòng)：

負(fù)責(zé)“提議動(dòng)作”的VAM，以及負(fù)責(zé)“沙盤推演”的動(dòng)作條件視頻模擬器。

前者基于Wan2.2-5B視頻生成模型，同時(shí)輸出未來視頻latent和動(dòng)作chunk；后者則專門負(fù)責(zé)評(píng)估未來狀態(tài)和任務(wù)進(jìn)度。

而在訓(xùn)練階段，三類不同來源的數(shù)據(jù)，也通過modality-specific supervision masks被統(tǒng)一揉進(jìn)了同一個(gè)體系：

有動(dòng)作標(biāo)簽的數(shù)據(jù)，同時(shí)訓(xùn)練視頻與動(dòng)作；沒有動(dòng)作標(biāo)簽的數(shù)據(jù)，則只訓(xùn)練視頻分支。

3萬小時(shí)預(yù)訓(xùn)練數(shù)據(jù)

接下來，就到了τ0-WM這次最夸張、也最“重資產(chǎn)”的部分：訓(xùn)練數(shù)據(jù)。

這近3萬小時(shí)的預(yù)訓(xùn)練數(shù)據(jù)，不只刷新了開源具身世界模型的規(guī)模紀(jì)錄，更重要的是，它正在打破行業(yè)對(duì)具身智能數(shù)據(jù)金字塔的固有認(rèn)知。

整個(gè)τ0-WM的訓(xùn)練數(shù)據(jù)，主要由三部分組成，而且每一類數(shù)據(jù)的角色都不一樣。

第一類，是真機(jī)遙操作數(shù)據(jù)，總量17800小時(shí)。

這部分?jǐn)?shù)據(jù)來自雙臂機(jī)器人、多視角采集，而且動(dòng)作空間和真實(shí)部署環(huán)境完全對(duì)齊。

某種程度上，它也是整個(gè)數(shù)據(jù)體系里“最貴”的部分。

因?yàn)檎鏅C(jī)采集不僅慢，還特別吃人力和硬件資源。但與此同時(shí)，它也是質(zhì)量最高的數(shù)據(jù)。

這批數(shù)據(jù)提供了最核心的動(dòng)作監(jiān)督信號(hào)，可以說是τ0-WM敢做大規(guī)模預(yù)訓(xùn)練的真正根基。

第二類，是6500小時(shí)的UMI數(shù)據(jù)。

簡單來說，UMI（Universal Manipulation Interface）是一種不依賴特定機(jī)器人平臺(tái)的數(shù)據(jù)采集方式。

相比真機(jī)遙操作，它覆蓋的物體種類和操作場景會(huì)豐富很多。但問題也很明顯，它的動(dòng)作空間，并不完全等同于真實(shí)機(jī)器人部署時(shí)的動(dòng)作空間。

所以在τ0-WM中，UMI數(shù)據(jù)更像是在補(bǔ)“行為多樣性”。

它不一定最精準(zhǔn)，但能讓模型見過更多操作方式、更多物體、更多長尾場景。

第三類，則是3000小時(shí)的人類第一視角EgoCentric數(shù)據(jù)。

這部分?jǐn)?shù)據(jù)的采集成本最低，但覆蓋范圍卻最大。

里面會(huì)包含大量長尾交互行為，以及很多機(jī)器人暫時(shí)很難專門采集到的真實(shí)場景。

不過，它有一個(gè)問題：沒有機(jī)器人動(dòng)作標(biāo)簽。

也就是說，模型只能“看”，不能直接學(xué)“機(jī)器人該怎么動(dòng)”。因此，這部分?jǐn)?shù)據(jù)只參與視頻分支訓(xùn)練，不參與動(dòng)作預(yù)測。

它更像是在幫助模型學(xué)習(xí)：物體會(huì)怎么運(yùn)動(dòng)，人與環(huán)境會(huì)怎么交互，場景狀態(tài)會(huì)如何變化。

看到這里，其實(shí)會(huì)冒出一個(gè)很自然的問題：

既然人類視頻沒有動(dòng)作標(biāo)簽，UMI的數(shù)據(jù)格式又和真機(jī)動(dòng)作空間不完全一致，那模型到底怎么把它們一起訓(xùn)進(jìn)去？

τ0-WM這里用了一個(gè)很巧的設(shè)計(jì)——Modality-specific supervision masks（模態(tài)特定監(jiān)督掩碼）。

簡單來說，對(duì)于有動(dòng)作標(biāo)簽的數(shù)據(jù)，就同時(shí)訓(xùn)練視頻和動(dòng)作，沒有動(dòng)作標(biāo)簽的數(shù)據(jù)，就把動(dòng)作部分mask掉，只訓(xùn)練視覺分支。

這樣一來，不同來源、不同模態(tài)、不同動(dòng)作空間的數(shù)據(jù)，就第一次被真正揉進(jìn)了同一個(gè)預(yù)訓(xùn)練體系里。

實(shí)驗(yàn)結(jié)論

在實(shí)驗(yàn)部分，團(tuán)隊(duì)最核心想驗(yàn)證的一件事，其實(shí)就是：

Test-Time Computation（測試時(shí)計(jì)算），到底有沒有用。

在抽紙巾放進(jìn)盒子和撿筆放進(jìn)盒子兩個(gè)任務(wù)上，這兩個(gè)任務(wù)在3萬小時(shí)預(yù)訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過，屬于模型完全沒見過的新任務(wù)。

研究采用了比常規(guī)做法更嚴(yán)格的評(píng)測標(biāo)準(zhǔn)，不允許重試，單次機(jī)會(huì)，20輪取平均。

結(jié)果表明，不加測試時(shí)計(jì)算時(shí)，裸策略平均成功率只有43%。加入第一層RCS動(dòng)作篩選后，提升到50%。

再疊加LAR模擬器修正之后，最終來到60%。提升最明顯的是更難的Pen→Box任務(wù)，成功率直接從30%拉到了50%。

此外，研究還專門對(duì)比了其他測試時(shí)引導(dǎo)方法。同樣條件下，Classifier-Free Guidance（CFG）成功率只有20%，Action Coherence Guidance（ACG）為38%，τ0-WM則達(dá)到60%。

這里最關(guān)鍵的區(qū)別就來自之前提到的，CFG和ACG，本質(zhì)上還是在檢查“動(dòng)作本身是否連貫”。

而τ0-WM評(píng)估的，則是：

“這個(gè)動(dòng)作做完之后，未來世界會(huì)變成什么樣，任務(wù)有沒有真的往前推進(jìn)。”

也就是說，前者關(guān)注的是動(dòng)作空間內(nèi)部的一致性。

而后者，開始真正把“未來后果”納入了決策。

（其余實(shí)驗(yàn)細(xì)節(jié)可參考論文）

數(shù)據(jù)金字塔，要變樣了

如果放到整個(gè)具身智能行業(yè)的數(shù)據(jù)路線里看，τ0-WM這次真正特別的地方，其實(shí)會(huì)更明顯。

過去，具身行業(yè)的數(shù)據(jù)體系一直像一個(gè)很典型的金字塔。

最底層，是互聯(lián)網(wǎng)視頻數(shù)據(jù)。

規(guī)模最大、最便宜，但沒有機(jī)器人動(dòng)作標(biāo)簽，只能讓模型學(xué)一些通用視覺和世界變化規(guī)律。

再往上一層，是仿真數(shù)據(jù)。

機(jī)器人終于開始“動(dòng)起來”了，但問題在于，仿真和真實(shí)物理世界之間，始終隔著一道巨大的sim2real gap。

而金字塔最頂層，則是真機(jī)遙操作數(shù)據(jù)。質(zhì)量最高，動(dòng)作空間和真實(shí)部署完全一致，但行業(yè)過去的普遍認(rèn)知一直是：

太貴、太少、根本不可能scale。

所以大多數(shù)團(tuán)隊(duì)，都會(huì)把真機(jī)數(shù)據(jù)留到最后微調(diào)階段再用。

但今年，一個(gè)新的變化開始出現(xiàn)了，Ego-Centric第一視角數(shù)據(jù)突然崛起。

大家開始意識(shí)到，人類第一視角視頻雖然沒有機(jī)器人動(dòng)作標(biāo)簽，但它天然包含了大量真實(shí)世界里的交互過程、物體變化和長尾操作。

于是整個(gè)行業(yè)，開始集體all in Ego數(shù)據(jù)。

某種程度上，Ego-Centric正在變成數(shù)據(jù)金字塔里的“新中層”，比互聯(lián)網(wǎng)視頻更接近真實(shí)交互，又比真機(jī)數(shù)據(jù)便宜得多。

但問題是，絕大多數(shù)團(tuán)隊(duì)做到這里，其實(shí)就停下來了，因?yàn)榇蠹胰匀荒J(rèn)真機(jī)數(shù)據(jù)依然貴到不可能成為預(yù)訓(xùn)練主體。

但τ0-WM第一次把這個(gè)邏輯反過來了。

他們一邊引入Ego-Centric數(shù)據(jù)，一邊直接用17800小時(shí)真機(jī)遙操作數(shù)據(jù)給預(yù)訓(xùn)練打底。

這件事也不是突然發(fā)生的。

回看羅劍嵐團(tuán)隊(duì)過去一年多的工作，會(huì)發(fā)現(xiàn)一條非常清晰的主線，他們搭的不是單點(diǎn)模型，而是一整套真實(shí)世界數(shù)據(jù)飛輪。

2026年1月，SOP搭起了規(guī)模化的真機(jī)數(shù)據(jù)采集和回流基礎(chǔ)設(shè)施。

2026年4月，LWD把大規(guī)模強(qiáng)化學(xué)習(xí)引入具身VLA的后訓(xùn)練，構(gòu)建了部署即訓(xùn)練的數(shù)據(jù)飛輪，機(jī)器人跑得越多，回流數(shù)據(jù)越多，模型越強(qiáng)，又能跑更多任務(wù)。失敗軌跡也第一次被系統(tǒng)性納入學(xué)習(xí)。

而當(dāng)真機(jī)交互數(shù)據(jù)積累跨過某個(gè)臨界點(diǎn)之后，一件以前沒人敢想的事，就自然發(fā)生了：

真機(jī)數(shù)據(jù)終于開始從“后訓(xùn)練耗材”，變成“預(yù)訓(xùn)練燃料”。

直到這里，具身智能里的“預(yù)訓(xùn)練—真機(jī)部署—數(shù)據(jù)回流—再預(yù)訓(xùn)練”這條鏈路，才第一次真正開始跑通。

項(xiàng)目網(wǎng)站：
https://finch.agibot.com/research/tau0-wm
項(xiàng)目github：
https://github.com/sii-research/tau-0-wm
模型huggingface：
https://huggingface.co/sii-research/tau-0-wm

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.