機器之心發(fā)布
單機時代快結束了。
過去兩年,視頻世界模型的進展有目共睹 ——Sora、Cosmos、Genie 把畫質、時序、交互能力不斷往前推。但所有這些進展,都建立在同一個前提上:世界里只有一個參與者。
這個前提,在真實應用場景里幾乎從不成立。
多人游戲里,你的走位會改變隊友和對手的決策空間;工廠產(chǎn)線上,一臺機械臂的軌跡約束著另一臺的運動范圍;具身智能體訓練里,多個 agent 在同一個環(huán)境里同時探索、互相影響。這些場景的共同特征是因果耦合:一個主體的行為改變了共享環(huán)境的狀態(tài),其他所有主體都必須感知到并據(jù)此行動。
這不是單智能體框架加點數(shù)據(jù)就能解決的,是設計層面本就沒有預留接口的問題。
![]()
![]()
- 論文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
- 機構:NVIDIA / 清華大學 / 多倫多大學 / Vector Institute
- 作者:Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren
- 項目主頁:https://research.nvidia.com/labs/sil/projects/gamma-world/
- GitHub:https://github.com/nv-tlabs/Gamma-World
- Huggingface: https://huggingface.co/papers/2605.28816
現(xiàn)有世界模型方案都卡在同一個地方
過去一年,多智能體世界模型方向密集出現(xiàn)新工作。
Solaris在 Minecraft 里收集了大規(guī)模多人同步數(shù)據(jù),訓練出可以同步生成雙人視角的世界模型,是目前公開工作里最接近實用的方案。Enigma Labs 的 Multiverse走開源路線,用兩個模型搭建多人賽車世界。Odyssey 的 Agora-1更激進,讓四個玩家共享同一個實時生成的對戰(zhàn)世界。
這些工作都證明了多智能體世界模型可以做。但仔細看,它們卡在同一個地方 ——做到了,但擴展不了
以 Solaris 為例,兩個結構性問題直接決定了它的天花板。
對稱性打破了。 Solaris 給每個玩家學一套固定的槽位身份向量。表面上是「給玩家分配了 ID」,實際上是在模型里把「1 號玩家」和「2 號玩家」學成了兩種不同的角色類型。模型學到的是「這兩個特定角色如何互動」,而不是「多個平等的玩家如何共享一個世界」。想加第三個玩家,必須重新訓練。
算力隨人數(shù)平方爆炸。 Solaris 讓所有玩家的所有 token 兩兩交互。這個成本隨玩家數(shù)量平方增長 ——2 人到 4 人計算量翻 4 倍,2 人到 8 人翻 16 倍。兩人跑得動,多幾個人基本告別實時。
這兩個問題,一個是建模哲學問題,一個是算法復雜度問題,靠堆算力和數(shù)據(jù)都解決不了。
Gamma-World:這場仗,從底層打起
5 月下旬,NVIDIA 聯(lián)合清華大學、多倫多大學和 Vector Institute 發(fā)布Gamma-World,共一第一為清華大學電子系博士劉芳甫,核心 Research 方向是世界模型和空間智能
Gamma-World 沒有在現(xiàn)有世界模型基礎上修補,而是重新設計了一套全新的多玩家的世界模型框架,把位置編碼和注意力機制兩個底層組件重新設計,把上面兩個問題一并解決。
對稱性問題: 把每個玩家映射到旋轉角空間里一個正單純形的頂點上。正單純形的所有頂點之間距離完全相等 ——2 個玩家是線段兩端,4 個玩家是正四面體四個頂點,任意兩點距離相同。模型看到任何兩個玩家,他們之間的幾何關系完全一致,誰也不比誰特殊。這個編碼不需要任何可學習參數(shù),也不綁定固定玩家數(shù)量 —— 訓練時用兩人,推理時想用四人,從頂點池里多取兩個頂點就行,架構不用改,不用重新訓練
復雜度問題: 引入一組 hub token 作為共享通信樞紐。玩家不再兩兩直連,而是「所有人先把信息匯給樞紐,樞紐再廣播給所有人」,信息路徑變成兩跳:玩家→樞紐→玩家。計算成本從平方增長壓到線性增長。8 個玩家時,Gamma-World 的算力消耗只有全連接方案的八分之一,延遲從 17.6ms 降到 4.5ms。
![]()
實驗方法總覽圖
看看它實際跑出來是什么樣
先看雙人 Minecraft 交互:
![]()
雙人Minecraft協(xié)作,兩個視角并排+鍵盤控制顯示
兩路畫面實時同步。一個玩家的走位和動作,立刻反映在另一個玩家的視角里。這不是「兩段碰巧放在一起的視頻」—— 兩路畫面描述的是同一個世界,玩家 A 看到的和玩家 B 看到的,在空間上是自洽的。
然后是這個項目最有沖擊力的結果 —— 零樣本四人泛化:
![]()
四人Minecraft零樣本泛化,四個視角+四套鍵盤控制
![]()
四個Agent實時協(xié)作,從游戲場景遷移到現(xiàn)實情境
這個模型從來沒見過四個人的訓練數(shù)據(jù)。推理時只需要從單純形頂點池里多取兩個頂點,四路同步視角直接生成,共享世界狀態(tài)完整保留。這不是「多生成幾段視頻」,是模型真的學會了「多個主體共享同一個世界」這件事本身。
最后是真實機器人場景:
![]()
機械臂雙人實時協(xié)同
同一套框架,從 Minecraft 方塊世界直接遷移到真實桌面操作,左右兩條機械臂各作為一個獨立智能體。生成的未來幀保持了雙臂的協(xié)同運動和空間布局,沒有任何額外改動。X 的網(wǎng)友評論:
“實時多智能體游戲!太瘋狂了……
我特別喜歡將游戲玩法擴展到 UMI 數(shù)據(jù)收集場景的想法,將兩個臂視為獨立的代理(共享觀察空間)。
由于其實時效率,或許可以開始利用神經(jīng)模擬而非物理交互來實現(xiàn)具身的數(shù)據(jù)采集。”
這件事真正打開了什么
Physical AI 領域長期面臨一個核心瓶頸:高質量的多智能體交互數(shù)據(jù)極度稀缺。語言數(shù)據(jù)可以從互聯(lián)網(wǎng)挖,圖像數(shù)據(jù)可以從相機采集,但物理交互數(shù)據(jù) —— 一臺機器人拿起杯子、另一臺做出響應,一個玩家改變環(huán)境、另一個據(jù)此決策 —— 幾乎不存在規(guī)模化的采集來源。采一小時真實雙臂協(xié)作數(shù)據(jù),需要兩臺機器人、一個操作空間、至少一個人全程監(jiān)督。真實世界的數(shù)據(jù)產(chǎn)出速度,最終受限于人類時間和物理空間,這個瓶頸不是錢能直接解決的。
這也是為什么語言模型令全世界沸騰的的 scaling law 在 Physical AI 領域遲遲沒能復現(xiàn) —— 不是模型不夠大,是數(shù)據(jù)根本不夠。
多智能體世界模型有可能改變這個等式。當模型能在共享環(huán)境中同時模擬多個智能體的交互,它就天然成為一臺交互數(shù)據(jù)的生成器 —— 多個 agent 在虛擬世界中對抗、協(xié)作、探索,24 小時不間斷地產(chǎn)出軌跡數(shù)據(jù),然后用這些數(shù)據(jù)訓練真實的機器人和游戲 AI。更重要的是,這個過程可以主動設計:想要更多雙臂協(xié)作場景,就在虛擬環(huán)境里跑更多雙臂任務;想要更極端的對抗場景,就讓 agent 在虛擬世界里自我博弈。真實世界采數(shù)據(jù)是被動的,世界模型生成數(shù)據(jù)是主動的,這個主動性本身就是一個質的躍升。
而且這個飛輪一旦轉起來,會自我加速:更好的世界模型生成更高質量的訓練數(shù)據(jù),更高質量的訓練數(shù)據(jù)訓練出更好的 policy,更好的 policy 跑出更多樣的交互軌跡,又反哺世界模型的下一輪訓練。這個循環(huán)在單智能體時代已經(jīng)有人在做,多智能體世界模型把這個循環(huán)的覆蓋范圍擴展到了真正有價值的場景。
賽道格局正在變
![]()
γ-World 多人實時協(xié)同世界模型
Solaris 證明了兩個玩家是可行的;Gamma-World 證明了擴展到更多玩家是可行的,而且不需要為每個新的玩家數(shù)重新訓練。聽起來只是一步,但這是這個賽道從「能做」到「可擴展」的關鍵跨越 —— 就像當年游戲引擎從單機走向聯(lián)機,不只是多了幾個角色,而是整個游戲世界的生產(chǎn)邏輯變了。
Solaris、Multiverse、Agora-1、Gamma-World,各家技術路線不同,但指向同一個判斷:單機時代的世界模型,已經(jīng)到了天花板。
接下來的競爭會在幾個維度同時展開。模型層面,誰能把多智能體一致性實時響應做得更好、支持更多 agent、在更復雜的場景下不崩;數(shù)據(jù)層面,多智能體世界模型本身就是數(shù)據(jù)生成器,誰的生成質量更高、物理規(guī)律更準,誰就能產(chǎn)出更好的訓練數(shù)據(jù)反哺下一代模型;應用層面,從 Minecraft 到機械臂只是開始,自動駕駛、無人機編隊、手術機器人協(xié)作,每一個都是一個獨立的戰(zhàn)場,也都指向千億萬億級的市場規(guī)模。
但這些競爭背后有一個更根本的問題還沒有答案:生成出來的多智能體交互,物理規(guī)律和因果邏輯能不能真正經(jīng)得起檢驗? 虛擬環(huán)境里學到的規(guī)則如果和真實世界對不上,灌再多數(shù)據(jù)也是噪聲。Gamma-World 在機械臂上的遷移實驗是一個積極信號,但這個問題要真正答完,還需要更系統(tǒng)的驗證。
這也是為什么這個方向現(xiàn)在這么值得關注 —— 它不只是「世界模型做多人版」,而是在試圖回答一個更大的問題:AI 能不能真正理解一個有多個參與者的世界,以及這種理解能不能遷移到真實物理場景中去。這件事一旦答出來,Physical AI 訓練數(shù)據(jù)的生產(chǎn)方式會發(fā)生根本性的改變。
從單機到聯(lián)機,世界模型的下一場戰(zhàn)爭,才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.