網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

機(jī)器人不該只在像素里做夢(mèng)：μ?和我們想找的「物理語(yǔ)言」

2026-06-28 19:23:25　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

視頻鏈接：https://mp.weixin.qq.com/s/mh8-RFGWHoHzlnc9GmDwHg

最近具身智能很熱，world model 也很熱。熱到什么程度呢？熱到大家一說(shuō)機(jī)器人要有 world model，第一反應(yīng)往往就是：那我們是不是要訓(xùn)練一個(gè)更大的視頻預(yù)測(cè)模型，讓機(jī)器人在 pixel space 里面 “做夢(mèng)”？

這個(gè)直覺(jué)確實(shí)有道理。畢竟互聯(lián)網(wǎng)最不缺的就是視頻。人類(lèi)開(kāi)門(mén)、倒水、切菜、疊衣服、擰瓶蓋、用工具，什么都有。如果語(yǔ)言模型可以從全網(wǎng)文本中學(xué)到知識(shí)，那機(jī)器人是不是也可以從全網(wǎng)視頻中學(xué)到物理世界？

這個(gè)愿景很美。但我們一直有一個(gè)揮之不去的疑問(wèn)：機(jī)器人真的應(yīng)該在像素里學(xué)習(xí)物理嗎？

像素當(dāng)然是最直接的數(shù)據(jù)形式。視頻打開(kāi)就是 pixels，數(shù)據(jù)量巨大，天然 scalable。但問(wèn)題也在這里：pixels 太低層了。一個(gè)機(jī)器人真正關(guān)心的，不是桌布上那朵花的紋理，也不是背景里某個(gè)椅子的顏色，更不是攝像機(jī)輕微抖動(dòng)后每個(gè)像素應(yīng)該怎么變。機(jī)器人關(guān)心的是：物體怎么動(dòng)？哪里發(fā)生了接觸？工具和目標(biāo)之間的關(guān)系怎么變化？手推了哪里？杯子為什么倒了？門(mén)把手到底是旋轉(zhuǎn)還是平移？

如果我們訓(xùn)練一個(gè) pixel-space world model，讓它預(yù)測(cè)未來(lái)畫(huà)面，它可能花了很多力氣學(xué)會(huì)了光照、紋理、背景和相機(jī)運(yùn)動(dòng)。很厲害，很貴，也很可能不是機(jī)器人最需要的東西。

這就帶來(lái)一個(gè)很樸素、甚至有點(diǎn) “不講武德” 的問(wèn)題：如果要訓(xùn)練一個(gè)真正適合 robotics 的 pixel world model，本身就需要大量 robotics data；那如果已經(jīng)有這么多 robotics data，為什么不直接訓(xùn)練 policy？world model 不是應(yīng)該幫助我們解決 action-labeled robotics data 不 scalable 的問(wèn)題嗎？怎么繞了一圈，又回到了 “請(qǐng)給我更多機(jī)器人數(shù)據(jù)”？

這就是一個(gè)雞生蛋、蛋生雞問(wèn)題。機(jī)器人學(xué)界已經(jīng)有很多雞和蛋了，真的不缺這一枚。

另一條路線是 latent world model。這個(gè)方向看起來(lái)更優(yōu)雅：不要預(yù)測(cè)每個(gè)像素，把世界壓到一個(gè) compact latent space 里，再預(yù)測(cè) latent dynamics。聽(tīng)起來(lái)很合理。我也承認(rèn)，latent representation 是機(jī)器學(xué)習(xí)里非常強(qiáng)大的工具。

但我們對(duì)純黑盒 latent space 一直保持一點(diǎn)職業(yè)性懷疑。這個(gè)懷疑不是憑空來(lái)的。做 spectral methods、representation learning、latent variable models 很多年，一個(gè)反復(fù)被教育的經(jīng)驗(yàn)是：latent space 在 paper 里常常很漂亮，在 benchmark 上也常常很能打，但一旦你想解釋它、干預(yù)它、糾正它，它就開(kāi)始露出脾氣。

有時(shí)候 latent space 像一個(gè)很聰明但不愿意解釋作業(yè)過(guò)程的小孩。答案可能對(duì)，但你不知道它為什么對(duì)；錯(cuò)了你也不知道從哪里改。更糟糕的是，它還可能 collapse。機(jī)器人系統(tǒng)偏偏又不是寫(xiě)詩(shī)，它需要和真實(shí)世界發(fā)生接觸，需要可靠、可控、可糾錯(cuò)。一個(gè) “我也不知道里面發(fā)生了什么，但 loss 降了” 的 world model，對(duì)機(jī)器人來(lái)說(shuō)有點(diǎn)危險(xiǎn)。

所以作者們?cè)?μ? 里問(wèn)了一個(gè)問(wèn)題：有沒(méi)有一種表示，既不像 pixels 那么低層、昂貴、冗余，又不像黑盒 latent 那么不可解釋、難干預(yù)？

μ? 的答案是：3D interaction traces。

μ? 不是一個(gè) pixel world model，也不是一個(gè)純 latent world model。它是一個(gè) symbolic /structured world model，預(yù)測(cè)的是物理交互中的三維運(yùn)動(dòng)軌跡。

更具體一點(diǎn)，μ? 預(yù)測(cè)的是少量語(yǔ)義交互點(diǎn)的運(yùn)動(dòng)：物體部件、工具、手、接觸區(qū)域。這些點(diǎn)怎么動(dòng)，往哪里動(dòng)，如何隨時(shí)間變化。我們把它們叫做 3D interaction traces。

這個(gè)表示很 “小”。它不需要生成整張未來(lái)圖像，不需要把背景、紋理、光照都復(fù)原出來(lái)。但它又不是一個(gè)完全黑盒的 latent。每一條 trace 都對(duì)應(yīng)真實(shí)世界中某個(gè)有意義的東西：一個(gè)物體邊緣，一個(gè)工具端點(diǎn)，一個(gè)手指附近的接觸區(qū)域，一個(gè)正在被推動(dòng)的部件。

這就是 μ?的可愛(ài)之處：compact enough to scale, structured enough to interpret。

如果說(shuō)得更 “宏大” 一點(diǎn)，μ? 作者們認(rèn)為機(jī)器人需要自己的符號(hào)空間。

LLM 為什么能 scale？一個(gè)很重要的原因是人類(lèi)已經(jīng)替它發(fā)明好了 words。文字是一個(gè)統(tǒng)一空間。我們用文字記錄、壓縮、交換、復(fù)用知識(shí)。幾千年文明活動(dòng)，最后都可以被搬進(jìn)一個(gè) shared token space：書(shū)、論文、網(wǎng)頁(yè)、代碼、聊天記錄。LLM 站在這個(gè)人類(lèi)文明的 “便宜大碗數(shù)據(jù)格式” 上訓(xùn)練，當(dāng)然很幸福。

機(jī)器人就沒(méi)這么幸運(yùn)。機(jī)器人世界太 heterogeneous 了。不同 embodiment，不同 action space，不同傳感器，不同工具，不同任務(wù)，不同環(huán)境。一個(gè) Franka 的 action label，并不會(huì)自動(dòng)變成靈巧手的 action label；人類(lèi)手部視頻，也不會(huì)天然變成機(jī)器人可執(zhí)行的 joint command。

所以對(duì) robotics 來(lái)說(shuō)，真正的問(wèn)題可能不是 “我們要不要 world model”，而是：什么是 robotics 的 words？什么樣的 symbol space 可以讓機(jī)器人跨 embodiment、跨場(chǎng)景、跨任務(wù)復(fù)用物理知識(shí)？

μ? 給出的第一個(gè)探索性答案是：motion traces 可能是一種物理語(yǔ)言。

不是語(yǔ)言意義上的 language，而是物理交互意義上的 language。它描述的不是 “這個(gè)物體叫什么”，而是 “它在交互中如何運(yùn)動(dòng)”。它把人類(lèi)視頻和機(jī)器人視頻中共同的部分抽出來(lái)：不是誰(shuí)的手、誰(shuí)的關(guān)節(jié)、誰(shuí)的 motor command，而是物體、工具、接觸點(diǎn)的三維運(yùn)動(dòng)結(jié)構(gòu)。

為了學(xué)這個(gè)表示，μ? 的作者做了個(gè)數(shù)據(jù)引擎 TraceExtract。簡(jiǎn)單說(shuō)，它把普通視頻轉(zhuǎn)成 trace supervision。先找 “什么在動(dòng)”，再估 “它在哪里動(dòng)”，最后分解 “它怎么動(dòng)”。這個(gè)過(guò)程讓我們可以從 video-only data 中學(xué)習(xí) physical interaction，而不是一上來(lái)就依賴昂貴的機(jī)器人 action labels。

這對(duì) academic lab 很重要：沒(méi)有工業(yè)級(jí) compute，沒(méi)有內(nèi)部私有大數(shù)據(jù)資產(chǎn)，沒(méi)有一屋子的機(jī)器人晝夜不停采數(shù)據(jù)。有的只是開(kāi)源數(shù)據(jù)、學(xué)校 compute cluster、學(xué)生的毅力，以及導(dǎo)師偶爾半夜發(fā) Slack 的熱情。聽(tīng)起來(lái)不豪華，但也正因?yàn)槿绱耍琣cademic lab 必須認(rèn)真思考什么樣的 representation 才是真的高效。

這也是 μ? 有意思的地方。它不是靠 “我比你更大” 來(lái)講故事。μ? 的預(yù)訓(xùn)練數(shù)據(jù)大約是 200K episodes、13M frames、15.7TB。聽(tīng)起來(lái)不少，對(duì)一個(gè) academic cluster 來(lái)說(shuō)也確實(shí)不少 —— 有些 job 跑起來(lái)的時(shí)候，我都覺(jué)得 cluster 風(fēng)扇聲里帶著一點(diǎn)控訴。但和工業(yè)級(jí) VLA 模型的數(shù)據(jù)規(guī)模相比，這遠(yuǎn)不是一個(gè) “大力出奇跡” 的設(shè)置。

μ? 的策略是：讓已有 vision-language backbone 保留語(yǔ)義知識(shí)，讓單獨(dú)的 trace expert 學(xué)物理運(yùn)動(dòng)。也就是說(shuō)，語(yǔ)義和 dynamics 不要混在一起煮成一鍋 latent 粥。語(yǔ)義交給 pretrained foundation model，運(yùn)動(dòng)交給 trace-space world model。

更關(guān)鍵的是，μ? 的 world model 預(yù)訓(xùn)練階段不需要 action labels。之后把 μ? freeze，只在上面訓(xùn)練一個(gè)很輕量的 action expert，把 trace features 轉(zhuǎn)換成機(jī)器人動(dòng)作。這個(gè)設(shè)計(jì)其實(shí)很樸素：如果 trace-space world model 真的學(xué)到了可復(fù)用的物理運(yùn)動(dòng)先驗(yàn)，那么下游機(jī)器人控制應(yīng)該能用得上它，而不只是看起來(lái)像個(gè)漂亮的預(yù)測(cè)任務(wù)。

實(shí)驗(yàn)結(jié)果讓人很興奮。在 trace forecasting 上，μ? 在多個(gè)指標(biāo)和預(yù)測(cè) horizon 上表現(xiàn)很好，也比一些強(qiáng) API 模型更擅長(zhǎng)這個(gè)具體的物理預(yù)測(cè)問(wèn)題。它的推理速度也很快，單次預(yù)測(cè)大約 0.29 秒。

更重要的是，在仿真和真實(shí)機(jī)器人實(shí)驗(yàn)中，凍結(jié) μ? 后接一個(gè)輕量 action expert，仍然能達(dá)到和強(qiáng) VLA policy 相當(dāng)?shù)臋C(jī)器人表現(xiàn)；在真實(shí)機(jī)器人評(píng)測(cè)里，μ? + action expert 的平均成功率超過(guò)了 π?.?。

這里最重要的不是 “做出了一個(gè)最終 robot policy”。沒(méi)有。μ? 還不是終點(diǎn)，也遠(yuǎn)遠(yuǎn)不是一個(gè)完整機(jī)器人系統(tǒng)的全部答案。更重要的是：trace-space prediction 學(xué)到的東西，確實(shí)能被機(jī)器人控制復(fù)用

這件事如果成立，就說(shuō)明 world model 的價(jià)值不一定在于生成更逼真的視頻。機(jī)器人不一定需要在像素里做更高清的夢(mèng)。它可能更需要一種可遷移、可解釋、可干預(yù)的物理表示。

當(dāng)然，3D interaction traces 也不是唯一可能的物理語(yǔ)言。它只是第一步。未來(lái)還能繼續(xù)加入更多 physical priors：contact graphs、force/torque traces、tactile fields、object-centric affordance graphs、constraints、energy landscapes…… 這些東西聽(tīng)起來(lái)不像 pixels 那么 “萬(wàn)能”，但可能更接近機(jī)器人真正需要理解的世界。

具身智能的 scaling 不會(huì)只是 “更多數(shù)據(jù)、更大模型、更長(zhǎng)訓(xùn)練”。當(dāng)然，我們也想 scale data，而且非常想。只是作為一個(gè)沒(méi)有無(wú)限 compute 的 academic lab，甚至本著對(duì)資源使用負(fù)責(zé)的態(tài)度的 frontier lab, 可能更需要問(wèn)：在 scaling 之前，表示空間選對(duì)了嗎？如果 symbol space 選錯(cuò)了，scale 得越大，可能只是越快地把資源燒到錯(cuò)誤方向上。

這也是 μ? 想表達(dá)的一個(gè)小小立場(chǎng)：

機(jī)器人學(xué)習(xí)不該只是在 pixels 里復(fù)刻視頻世界，也不該把物理交互全部塞進(jìn)不可解釋的 latent。我們需要尋找 robotics 自己的 symbol space。

LLM 有 words。

Robots 也許需要 traces。

μ? 是我們朝這個(gè)方向邁出的一步。不是最后一步，但至少這一步，讓我覺(jué)得我們離 robotics 的 GPT-3.5 moment，好像又近了一點(diǎn)點(diǎn)。

項(xiàng)目頁(yè)：https://mu0-wm.github.io/

作者簡(jiǎn)介

Furong Huang，馬里蘭大學(xué)計(jì)算機(jī)科學(xué)系副教授，研究方向包括機(jī)器學(xué)習(xí)、具身智能、機(jī)器人學(xué)習(xí)、表示學(xué)習(xí)與高效大模型。她長(zhǎng)期關(guān)注如何在有限數(shù)據(jù)與計(jì)算資源下構(gòu)建可擴(kuò)展、可解釋、可遷移的智能系統(tǒng)。近期工作 μ? 探索以 3D interaction traces 作為機(jī)器人世界模型的符號(hào)空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.