網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

登頂HuggingFace日榜！γ-World：把世界模型從單機打到聯(lián)機

2026-05-30 12:39:17　來源: 機器之心Pro

河北舉報

分享至

機器之心發(fā)布

單機時代快結束了。

過去兩年，視頻世界模型的進展有目共睹 ——Sora、Cosmos、Genie 把畫質、時序、交互能力不斷往前推。但所有這些進展，都建立在同一個前提上：世界里只有一個參與者。

這個前提，在真實應用場景里幾乎從不成立。

多人游戲里，你的走位會改變隊友和對手的決策空間；工廠產(chǎn)線上，一臺機械臂的軌跡約束著另一臺的運動范圍；具身智能體訓練里，多個 agent 在同一個環(huán)境里同時探索、互相影響。這些場景的共同特征是因果耦合：一個主體的行為改變了共享環(huán)境的狀態(tài)，其他所有主體都必須感知到并據(jù)此行動。

這不是單智能體框架加點數(shù)據(jù)就能解決的，是設計層面本就沒有預留接口的問題。

論文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
機構：NVIDIA / 清華大學 / 多倫多大學 / Vector Institute
作者：Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren
項目主頁：https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub：https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816

現(xiàn)有世界模型方案都卡在同一個地方

過去一年，多智能體世界模型方向密集出現(xiàn)新工作。

Solaris在 Minecraft 里收集了大規(guī)模多人同步數(shù)據(jù)，訓練出可以同步生成雙人視角的世界模型，是目前公開工作里最接近實用的方案。Enigma Labs 的 Multiverse走開源路線，用兩個模型搭建多人賽車世界。Odyssey 的 Agora-1更激進，讓四個玩家共享同一個實時生成的對戰(zhàn)世界。

這些工作都證明了多智能體世界模型可以做。但仔細看，它們卡在同一個地方 ——做到了，但擴展不了

以 Solaris 為例，兩個結構性問題直接決定了它的天花板。

對稱性打破了。 Solaris 給每個玩家學一套固定的槽位身份向量。表面上是「給玩家分配了 ID」，實際上是在模型里把「1 號玩家」和「2 號玩家」學成了兩種不同的角色類型。模型學到的是「這兩個特定角色如何互動」，而不是「多個平等的玩家如何共享一個世界」。想加第三個玩家，必須重新訓練。

算力隨人數(shù)平方爆炸。 Solaris 讓所有玩家的所有 token 兩兩交互。這個成本隨玩家數(shù)量平方增長 ——2 人到 4 人計算量翻 4 倍，2 人到 8 人翻 16 倍。兩人跑得動，多幾個人基本告別實時。

這兩個問題，一個是建模哲學問題，一個是算法復雜度問題，靠堆算力和數(shù)據(jù)都解決不了。

Gamma-World：這場仗，從底層打起

5 月下旬，NVIDIA 聯(lián)合清華大學、多倫多大學和 Vector Institute 發(fā)布Gamma-World，共一第一為清華大學電子系博士劉芳甫，核心 Research 方向是世界模型和空間智能

Gamma-World 沒有在現(xiàn)有世界模型基礎上修補，而是重新設計了一套全新的多玩家的世界模型框架，把位置編碼和注意力機制兩個底層組件重新設計，把上面兩個問題一并解決。

對稱性問題：把每個玩家映射到旋轉角空間里一個正單純形的頂點上。正單純形的所有頂點之間距離完全相等 ——2 個玩家是線段兩端，4 個玩家是正四面體四個頂點，任意兩點距離相同。模型看到任何兩個玩家，他們之間的幾何關系完全一致，誰也不比誰特殊。這個編碼不需要任何可學習參數(shù)，也不綁定固定玩家數(shù)量 —— 訓練時用兩人，推理時想用四人，從頂點池里多取兩個頂點就行，架構不用改，不用重新訓練

復雜度問題：引入一組 hub token 作為共享通信樞紐。玩家不再兩兩直連，而是「所有人先把信息匯給樞紐，樞紐再廣播給所有人」，信息路徑變成兩跳：玩家→樞紐→玩家。計算成本從平方增長壓到線性增長。8 個玩家時，Gamma-World 的算力消耗只有全連接方案的八分之一，延遲從 17.6ms 降到 4.5ms。

實驗方法總覽圖

看看它實際跑出來是什么樣

先看雙人 Minecraft 交互：

雙人Minecraft協(xié)作，兩個視角并排+鍵盤控制顯示

兩路畫面實時同步。一個玩家的走位和動作，立刻反映在另一個玩家的視角里。這不是「兩段碰巧放在一起的視頻」—— 兩路畫面描述的是同一個世界，玩家 A 看到的和玩家 B 看到的，在空間上是自洽的。

然后是這個項目最有沖擊力的結果 —— 零樣本四人泛化：

四人Minecraft零樣本泛化，四個視角+四套鍵盤控制

四個Agent實時協(xié)作，從游戲場景遷移到現(xiàn)實情境

這個模型從來沒見過四個人的訓練數(shù)據(jù)。推理時只需要從單純形頂點池里多取兩個頂點，四路同步視角直接生成，共享世界狀態(tài)完整保留。這不是「多生成幾段視頻」，是模型真的學會了「多個主體共享同一個世界」這件事本身。

最后是真實機器人場景：

機械臂雙人實時協(xié)同

同一套框架，從 Minecraft 方塊世界直接遷移到真實桌面操作，左右兩條機械臂各作為一個獨立智能體。生成的未來幀保持了雙臂的協(xié)同運動和空間布局，沒有任何額外改動。X 的網(wǎng)友評論：

“實時多智能體游戲！太瘋狂了……

我特別喜歡將游戲玩法擴展到 UMI 數(shù)據(jù)收集場景的想法，將兩個臂視為獨立的代理（共享觀察空間）。

由于其實時效率，或許可以開始利用神經(jīng)模擬而非物理交互來實現(xiàn)具身的數(shù)據(jù)采集。”

這件事真正打開了什么

Physical AI 領域長期面臨一個核心瓶頸：高質量的多智能體交互數(shù)據(jù)極度稀缺。語言數(shù)據(jù)可以從互聯(lián)網(wǎng)挖，圖像數(shù)據(jù)可以從相機采集，但物理交互數(shù)據(jù) —— 一臺機器人拿起杯子、另一臺做出響應，一個玩家改變環(huán)境、另一個據(jù)此決策 —— 幾乎不存在規(guī)模化的采集來源。采一小時真實雙臂協(xié)作數(shù)據(jù)，需要兩臺機器人、一個操作空間、至少一個人全程監(jiān)督。真實世界的數(shù)據(jù)產(chǎn)出速度，最終受限于人類時間和物理空間，這個瓶頸不是錢能直接解決的。

這也是為什么語言模型令全世界沸騰的的 scaling law 在 Physical AI 領域遲遲沒能復現(xiàn) —— 不是模型不夠大，是數(shù)據(jù)根本不夠。

多智能體世界模型有可能改變這個等式。當模型能在共享環(huán)境中同時模擬多個智能體的交互，它就天然成為一臺交互數(shù)據(jù)的生成器 —— 多個 agent 在虛擬世界中對抗、協(xié)作、探索，24 小時不間斷地產(chǎn)出軌跡數(shù)據(jù)，然后用這些數(shù)據(jù)訓練真實的機器人和游戲 AI。更重要的是，這個過程可以主動設計：想要更多雙臂協(xié)作場景，就在虛擬環(huán)境里跑更多雙臂任務；想要更極端的對抗場景，就讓 agent 在虛擬世界里自我博弈。真實世界采數(shù)據(jù)是被動的，世界模型生成數(shù)據(jù)是主動的，這個主動性本身就是一個質的躍升。

而且這個飛輪一旦轉起來，會自我加速：更好的世界模型生成更高質量的訓練數(shù)據(jù)，更高質量的訓練數(shù)據(jù)訓練出更好的 policy，更好的 policy 跑出更多樣的交互軌跡，又反哺世界模型的下一輪訓練。這個循環(huán)在單智能體時代已經(jīng)有人在做，多智能體世界模型把這個循環(huán)的覆蓋范圍擴展到了真正有價值的場景。

賽道格局正在變

γ-World 多人實時協(xié)同世界模型

Solaris 證明了兩個玩家是可行的；Gamma-World 證明了擴展到更多玩家是可行的，而且不需要為每個新的玩家數(shù)重新訓練。聽起來只是一步，但這是這個賽道從「能做」到「可擴展」的關鍵跨越 —— 就像當年游戲引擎從單機走向聯(lián)機，不只是多了幾個角色，而是整個游戲世界的生產(chǎn)邏輯變了。

Solaris、Multiverse、Agora-1、Gamma-World，各家技術路線不同，但指向同一個判斷：單機時代的世界模型，已經(jīng)到了天花板。

接下來的競爭會在幾個維度同時展開。模型層面，誰能把多智能體一致性實時響應做得更好、支持更多 agent、在更復雜的場景下不崩；數(shù)據(jù)層面，多智能體世界模型本身就是數(shù)據(jù)生成器，誰的生成質量更高、物理規(guī)律更準，誰就能產(chǎn)出更好的訓練數(shù)據(jù)反哺下一代模型；應用層面，從 Minecraft 到機械臂只是開始，自動駕駛、無人機編隊、手術機器人協(xié)作，每一個都是一個獨立的戰(zhàn)場，也都指向千億萬億級的市場規(guī)模。

但這些競爭背后有一個更根本的問題還沒有答案：生成出來的多智能體交互，物理規(guī)律和因果邏輯能不能真正經(jīng)得起檢驗？虛擬環(huán)境里學到的規(guī)則如果和真實世界對不上，灌再多數(shù)據(jù)也是噪聲。Gamma-World 在機械臂上的遷移實驗是一個積極信號，但這個問題要真正答完，還需要更系統(tǒng)的驗證。

這也是為什么這個方向現(xiàn)在這么值得關注 —— 它不只是「世界模型做多人版」，而是在試圖回答一個更大的問題：AI 能不能真正理解一個有多個參與者的世界，以及這種理解能不能遷移到真實物理場景中去。這件事一旦答出來，Physical AI 訓練數(shù)據(jù)的生產(chǎn)方式會發(fā)生根本性的改變。

從單機到聯(lián)機，世界模型的下一場戰(zhàn)爭，才剛剛開始。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.