智元團隊做了一個很省事的決定。他們沒有針對WorldArena賽道設計任何特殊優化方案,直接把自家原生的世界模型GE 2.0拿去做了一點基礎微調,然后就提交了上去。結果還是拿了第一。在具身智能領域最熱門的世界模型感知與動作響應榜單上,這個操作直接把英偉達的DreamDojo、清華與斯坦福聯手的Ctrl-World等一眾強手擠到了身后。
先搞清楚一個定義:所謂世界模型,就是一個能理解物理規律的AI大腦。它不需要被喂進每一幀真實畫面,就能知道杯子掉落會碎、水往低處流、積木搭得太高會倒。這種常識,對機器人來說卻是最難補齊的短板。缺少世界模型,機器人就永遠只是個順從指令的執行體,而不是能預判后果的自主者。
![]()
GE 2.0這次展現出的能力,拆開看有五件事值得細說。第一件,它把長時序推演的穩定性拉到了一個新高度。同類模型在生成畫面時,時間一拉長,質量就會斷崖式下滑,但GE 2.0的衰減曲線平緩得多。團隊拿長視頻片段做壓力測試,連續推演40到50秒后的畫面,質量依然壓過一些基線模型開頭10秒的表現。這意味著機器人可以在更長的時間維度里保持對環境變化的連續感知,而不是剛走兩步就“失憶”。
第二件事是它對物理世界的模擬不是碰運氣,而是有實打實的量化證據。團隊沒有只停留在宏觀成功率的一致上,而是逐案對比了閉環評測的推演結果,并用混淆矩陣給出嚴謹的統計校驗。這些數據表明,GE 2.0生成的虛擬環境與真實世界保持了強關聯,不是那種只能看、不能用的空中樓閣,而是可以直接充當策略評測器的可靠模擬器。
第三件事把世界模型和機器人策略模型的閉環打通了:獎勵模型自動出手,篩選回推過程中產出的高質量數據,再精準回流給策略模型繼續訓練。實驗結果顯示,這種數據回流機制讓策略模型在多項任務上拿到了明顯的性能漲點。翻譯成大實話就是,世界模型不但自己跑得通,還能反過來教機器人本體變得更聰明,讓整個學習回路滾動起來。
第四件也最讓外界意外的事,是這一切只用了20億參數。2B量級,放在如今的大模型軍備競賽里,連打個水花都不夠。同場參賽的英偉達、微軟拿出來的都是超大參數旗艦,結果卻被這個小體量模型反超。這恰好驗證了在人形機器人應用上,輕量化路線在適配性上完全不輸給“大力出奇跡”的暴力堆料。當別人還在瘋狂升級參數規模時,智元用更少的參數完成了更貼近物理世界的模擬,也在無意中戳破了一個迷思:機器人需要的世界模型,未必非得是龐然大物。
GE 2.0這次登頂,不只是一家機器人公司刷了個榜單。它更像個信號,提醒整個行業——當模型開始真正理解水會流、物會碎、積木會倒這些樸素物理規律時,量綱的大小就不再是唯一標尺。輕量化世界模型的適配能力和數據回流的自我強化機制,反而可能比盲目擴張參數更管用。至少在這條賽道上,小而準已經跑贏了大而粗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.