機(jī)器之心發(fā)布
單機(jī)時(shí)代快結(jié)束了。
過(guò)去兩年,視頻世界模型的進(jìn)展有目共睹 ——Sora、Cosmos、Genie 把畫質(zhì)、時(shí)序、交互能力不斷往前推。但所有這些進(jìn)展,都建立在同一個(gè)前提上:世界里只有一個(gè)參與者。
這個(gè)前提,在真實(shí)應(yīng)用場(chǎng)景里幾乎從不成立。
多人游戲里,你的走位會(huì)改變隊(duì)友和對(duì)手的決策空間;工廠產(chǎn)線上,一臺(tái)機(jī)械臂的軌跡約束著另一臺(tái)的運(yùn)動(dòng)范圍;具身智能體訓(xùn)練里,多個(gè) agent 在同一個(gè)環(huán)境里同時(shí)探索、互相影響。這些場(chǎng)景的共同特征是因果耦合:一個(gè)主體的行為改變了共享環(huán)境的狀態(tài),其他所有主體都必須感知到并據(jù)此行動(dòng)。
這不是單智能體框架加點(diǎn)數(shù)據(jù)就能解決的,是設(shè)計(jì)層面本就沒有預(yù)留接口的問題。
![]()
![]()
- 論文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
- 機(jī)構(gòu):NVIDIA / 清華大學(xué) / 多倫多大學(xué) / Vector Institute
- 作者:Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren
- 項(xiàng)目主頁(yè):https://research.nvidia.com/labs/sil/projects/gamma-world/
- GitHub:https://github.com/nv-tlabs/Gamma-World
- Huggingface: https://huggingface.co/papers/2605.28816
現(xiàn)有世界模型方案都卡在同一個(gè)地方
過(guò)去一年,多智能體世界模型方向密集出現(xiàn)新工作。
Solaris在 Minecraft 里收集了大規(guī)模多人同步數(shù)據(jù),訓(xùn)練出可以同步生成雙人視角的世界模型,是目前公開工作里最接近實(shí)用的方案。Enigma Labs 的 Multiverse走開源路線,用兩個(gè)模型搭建多人賽車世界。Odyssey 的 Agora-1更激進(jìn),讓四個(gè)玩家共享同一個(gè)實(shí)時(shí)生成的對(duì)戰(zhàn)世界。
這些工作都證明了多智能體世界模型可以做。但仔細(xì)看,它們卡在同一個(gè)地方 ——做到了,但擴(kuò)展不了
以 Solaris 為例,兩個(gè)結(jié)構(gòu)性問題直接決定了它的天花板。
對(duì)稱性打破了。 Solaris 給每個(gè)玩家學(xué)一套固定的槽位身份向量。表面上是「給玩家分配了 ID」,實(shí)際上是在模型里把「1 號(hào)玩家」和「2 號(hào)玩家」學(xué)成了兩種不同的角色類型。模型學(xué)到的是「這兩個(gè)特定角色如何互動(dòng)」,而不是「多個(gè)平等的玩家如何共享一個(gè)世界」。想加第三個(gè)玩家,必須重新訓(xùn)練。
算力隨人數(shù)平方爆炸。 Solaris 讓所有玩家的所有 token 兩兩交互。這個(gè)成本隨玩家數(shù)量平方增長(zhǎng) ——2 人到 4 人計(jì)算量翻 4 倍,2 人到 8 人翻 16 倍。兩人跑得動(dòng),多幾個(gè)人基本告別實(shí)時(shí)。
這兩個(gè)問題,一個(gè)是建模哲學(xué)問題,一個(gè)是算法復(fù)雜度問題,靠堆算力和數(shù)據(jù)都解決不了。
Gamma-World:這場(chǎng)仗,從底層打起
5 月下旬,NVIDIA 聯(lián)合清華大學(xué)、多倫多大學(xué)和 Vector Institute 發(fā)布Gamma-World,共一第一為清華大學(xué)電子系博士劉芳甫,核心 Research 方向是世界模型和空間智能
Gamma-World 沒有在現(xiàn)有世界模型基礎(chǔ)上修補(bǔ),而是重新設(shè)計(jì)了一套全新的多玩家的世界模型框架,把位置編碼和注意力機(jī)制兩個(gè)底層組件重新設(shè)計(jì),把上面兩個(gè)問題一并解決。
對(duì)稱性問題: 把每個(gè)玩家映射到旋轉(zhuǎn)角空間里一個(gè)正單純形的頂點(diǎn)上。正單純形的所有頂點(diǎn)之間距離完全相等 ——2 個(gè)玩家是線段兩端,4 個(gè)玩家是正四面體四個(gè)頂點(diǎn),任意兩點(diǎn)距離相同。模型看到任何兩個(gè)玩家,他們之間的幾何關(guān)系完全一致,誰(shuí)也不比誰(shuí)特殊。這個(gè)編碼不需要任何可學(xué)習(xí)參數(shù),也不綁定固定玩家數(shù)量 —— 訓(xùn)練時(shí)用兩人,推理時(shí)想用四人,從頂點(diǎn)池里多取兩個(gè)頂點(diǎn)就行,架構(gòu)不用改,不用重新訓(xùn)練
復(fù)雜度問題: 引入一組 hub token 作為共享通信樞紐。玩家不再兩兩直連,而是「所有人先把信息匯給樞紐,樞紐再?gòu)V播給所有人」,信息路徑變成兩跳:玩家→樞紐→玩家。計(jì)算成本從平方增長(zhǎng)壓到線性增長(zhǎng)。8 個(gè)玩家時(shí),Gamma-World 的算力消耗只有全連接方案的八分之一,延遲從 17.6ms 降到 4.5ms。
![]()
實(shí)驗(yàn)方法總覽圖
看看它實(shí)際跑出來(lái)是什么樣
先看雙人 Minecraft 交互:
![]()
雙人Minecraft協(xié)作,兩個(gè)視角并排+鍵盤控制顯示
兩路畫面實(shí)時(shí)同步。一個(gè)玩家的走位和動(dòng)作,立刻反映在另一個(gè)玩家的視角里。這不是「兩段碰巧放在一起的視頻」—— 兩路畫面描述的是同一個(gè)世界,玩家 A 看到的和玩家 B 看到的,在空間上是自洽的。
然后是這個(gè)項(xiàng)目最有沖擊力的結(jié)果 —— 零樣本四人泛化:
![]()
四人Minecraft零樣本泛化,四個(gè)視角+四套鍵盤控制
![]()
四個(gè)Agent實(shí)時(shí)協(xié)作,從游戲場(chǎng)景遷移到現(xiàn)實(shí)情境
這個(gè)模型從來(lái)沒見過(guò)四個(gè)人的訓(xùn)練數(shù)據(jù)。推理時(shí)只需要從單純形頂點(diǎn)池里多取兩個(gè)頂點(diǎn),四路同步視角直接生成,共享世界狀態(tài)完整保留。這不是「多生成幾段視頻」,是模型真的學(xué)會(huì)了「多個(gè)主體共享同一個(gè)世界」這件事本身。
最后是真實(shí)機(jī)器人場(chǎng)景:
![]()
機(jī)械臂雙人實(shí)時(shí)協(xié)同
同一套框架,從 Minecraft 方塊世界直接遷移到真實(shí)桌面操作,左右兩條機(jī)械臂各作為一個(gè)獨(dú)立智能體。生成的未來(lái)幀保持了雙臂的協(xié)同運(yùn)動(dòng)和空間布局,沒有任何額外改動(dòng)。X 的網(wǎng)友評(píng)論:
“實(shí)時(shí)多智能體游戲!太瘋狂了……
我特別喜歡將游戲玩法擴(kuò)展到 UMI 數(shù)據(jù)收集場(chǎng)景的想法,將兩個(gè)臂視為獨(dú)立的代理(共享觀察空間)。
由于其實(shí)時(shí)效率,或許可以開始利用神經(jīng)模擬而非物理交互來(lái)實(shí)現(xiàn)具身的數(shù)據(jù)采集。”
這件事真正打開了什么
Physical AI 領(lǐng)域長(zhǎng)期面臨一個(gè)核心瓶頸:高質(zhì)量的多智能體交互數(shù)據(jù)極度稀缺。語(yǔ)言數(shù)據(jù)可以從互聯(lián)網(wǎng)挖,圖像數(shù)據(jù)可以從相機(jī)采集,但物理交互數(shù)據(jù) —— 一臺(tái)機(jī)器人拿起杯子、另一臺(tái)做出響應(yīng),一個(gè)玩家改變環(huán)境、另一個(gè)據(jù)此決策 —— 幾乎不存在規(guī)模化的采集來(lái)源。采一小時(shí)真實(shí)雙臂協(xié)作數(shù)據(jù),需要兩臺(tái)機(jī)器人、一個(gè)操作空間、至少一個(gè)人全程監(jiān)督。真實(shí)世界的數(shù)據(jù)產(chǎn)出速度,最終受限于人類時(shí)間和物理空間,這個(gè)瓶頸不是錢能直接解決的。
這也是為什么語(yǔ)言模型令全世界沸騰的的 scaling law 在 Physical AI 領(lǐng)域遲遲沒能復(fù)現(xiàn) —— 不是模型不夠大,是數(shù)據(jù)根本不夠。
多智能體世界模型有可能改變這個(gè)等式。當(dāng)模型能在共享環(huán)境中同時(shí)模擬多個(gè)智能體的交互,它就天然成為一臺(tái)交互數(shù)據(jù)的生成器 —— 多個(gè) agent 在虛擬世界中對(duì)抗、協(xié)作、探索,24 小時(shí)不間斷地產(chǎn)出軌跡數(shù)據(jù),然后用這些數(shù)據(jù)訓(xùn)練真實(shí)的機(jī)器人和游戲 AI。更重要的是,這個(gè)過(guò)程可以主動(dòng)設(shè)計(jì):想要更多雙臂協(xié)作場(chǎng)景,就在虛擬環(huán)境里跑更多雙臂任務(wù);想要更極端的對(duì)抗場(chǎng)景,就讓 agent 在虛擬世界里自我博弈。真實(shí)世界采數(shù)據(jù)是被動(dòng)的,世界模型生成數(shù)據(jù)是主動(dòng)的,這個(gè)主動(dòng)性本身就是一個(gè)質(zhì)的躍升。
而且這個(gè)飛輪一旦轉(zhuǎn)起來(lái),會(huì)自我加速:更好的世界模型生成更高質(zhì)量的訓(xùn)練數(shù)據(jù),更高質(zhì)量的訓(xùn)練數(shù)據(jù)訓(xùn)練出更好的 policy,更好的 policy 跑出更多樣的交互軌跡,又反哺世界模型的下一輪訓(xùn)練。這個(gè)循環(huán)在單智能體時(shí)代已經(jīng)有人在做,多智能體世界模型把這個(gè)循環(huán)的覆蓋范圍擴(kuò)展到了真正有價(jià)值的場(chǎng)景。
賽道格局正在變
![]()
γ-World 多人實(shí)時(shí)協(xié)同世界模型
Solaris 證明了兩個(gè)玩家是可行的;Gamma-World 證明了擴(kuò)展到更多玩家是可行的,而且不需要為每個(gè)新的玩家數(shù)重新訓(xùn)練。聽起來(lái)只是一步,但這是這個(gè)賽道從「能做」到「可擴(kuò)展」的關(guān)鍵跨越 —— 就像當(dāng)年游戲引擎從單機(jī)走向聯(lián)機(jī),不只是多了幾個(gè)角色,而是整個(gè)游戲世界的生產(chǎn)邏輯變了。
Solaris、Multiverse、Agora-1、Gamma-World,各家技術(shù)路線不同,但指向同一個(gè)判斷:?jiǎn)螜C(jī)時(shí)代的世界模型,已經(jīng)到了天花板。
接下來(lái)的競(jìng)爭(zhēng)會(huì)在幾個(gè)維度同時(shí)展開。模型層面,誰(shuí)能把多智能體一致性實(shí)時(shí)響應(yīng)做得更好、支持更多 agent、在更復(fù)雜的場(chǎng)景下不崩;數(shù)據(jù)層面,多智能體世界模型本身就是數(shù)據(jù)生成器,誰(shuí)的生成質(zhì)量更高、物理規(guī)律更準(zhǔn),誰(shuí)就能產(chǎn)出更好的訓(xùn)練數(shù)據(jù)反哺下一代模型;應(yīng)用層面,從 Minecraft 到機(jī)械臂只是開始,自動(dòng)駕駛、無(wú)人機(jī)編隊(duì)、手術(shù)機(jī)器人協(xié)作,每一個(gè)都是一個(gè)獨(dú)立的戰(zhàn)場(chǎng),也都指向千億萬(wàn)億級(jí)的市場(chǎng)規(guī)模。
但這些競(jìng)爭(zhēng)背后有一個(gè)更根本的問題還沒有答案:生成出來(lái)的多智能體交互,物理規(guī)律和因果邏輯能不能真正經(jīng)得起檢驗(yàn)? 虛擬環(huán)境里學(xué)到的規(guī)則如果和真實(shí)世界對(duì)不上,灌再多數(shù)據(jù)也是噪聲。Gamma-World 在機(jī)械臂上的遷移實(shí)驗(yàn)是一個(gè)積極信號(hào),但這個(gè)問題要真正答完,還需要更系統(tǒng)的驗(yàn)證。
這也是為什么這個(gè)方向現(xiàn)在這么值得關(guān)注 —— 它不只是「世界模型做多人版」,而是在試圖回答一個(gè)更大的問題:AI 能不能真正理解一個(gè)有多個(gè)參與者的世界,以及這種理解能不能遷移到真實(shí)物理場(chǎng)景中去。這件事一旦答出來(lái),Physical AI 訓(xùn)練數(shù)據(jù)的生產(chǎn)方式會(huì)發(fā)生根本性的改變。
從單機(jī)到聯(lián)機(jī),世界模型的下一場(chǎng)戰(zhàn)爭(zhēng),才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.