IT之家 5 月 30 日消息,“智元 AGIBOT”官方公眾號 29 日發文宣布:具身領域熱門榜單 WorldArena Track1(世界模型感知與動作響應賽道)最新評測結果揭曉,智元自研的世界模型 Genie Envisioner-Sim 2.0(IT之家注:以下簡稱 GE 2.0)登頂榜單。
所謂“世界模型”,簡單來說就是能理解物理世界規律的 AI 大模型。機器人若具備“世界模型”能力,就能知道杯子掉地上會碎、水往低處流、積木搭太高會倒等常識。
在該賽道評測中,智元團隊使用了原生的世界模型 GE 2.0,并未針對賽題進行特殊設計優化,僅基于榜單數據進行了基礎微調(Finetune)。
![]()
根據介紹,GE 2.0 在功能上首次全面覆蓋了長時序生成、多視角生成、本體狀態生成、近實時推理以及獎勵判別等核心環節,構建了世界模擬器完整的技術能力閉環。
![]()
在長時序推理任務中,GE 2.0 表現出極強的穩定性,畫面質量隨推理時長的衰減顯著弱于行業基線方案。即使在連續推演 40-50 秒的長視頻片段時,其生成質量依然超越了基線模型前 10 秒內的表現。
![]()
團隊驗證了大量閉環評測結果,證明 GE 2.0 在多項任務上均與真實世界保持著強相關性。這種相關性不止步于宏觀統計意義上的“成功率一致”,團隊還進行了逐案(Case-by-case)的 rollout 結果對比分析,并通過混淆矩陣(Confusion Matrix)提供了嚴謹的量化佐證,進一步證明了 GE 2.0 作為策略評測器的可靠性。
![]()
在獎勵模型(Reward Model)的加持下,GE 2.0 能夠對閉環評測的 rollout 過程進行自動化篩選,將世界模型中產出的有效高質量數據精準回流給策略模型(Policy Model)。實驗證明,這一機制在多項任務上均助力策略模型實現了顯著的性能漲點。
![]()
此外,據上觀新聞報道,智元 GE 2.0 此次與英偉達最新模型 DreamDojo、清華聯合斯坦福的 Ctrl-World 團隊等國內外 AI 頂尖團隊直接競爭,并最終奪冠。GE 2.0 僅用 20 億(2B)參數的模型,結果比英偉達、微軟等超大參數的旗艦模型效果更優秀,也驗證了在人形機器人應用方面,輕量化模型的適配性不遜于超大參數模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.