无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

機器人為什么需要世界模型?世界頂尖機構聯合綜述震撼發布

0
分享至



作者團隊來自南洋理工大學 MARS Lab、加州大學伯克利分校、斯坦福大學、哈佛大學、普林斯頓大學、ETH Zurich、牛津大學、東京大學、Microsoft 等機構的研究者。團隊長期關注機器人學習、具身智能、世界模型、多模態基礎模型與機器人策略學習。

世界模型正在成為機器人學習中繞不開的議題。

過去幾年,機器人策略學習的主線之一,是從傳統的任務特定策略,轉向更通用的 Vision-Language-Action (VLA) 模型。通過大規模視覺語言模型和機器人軌跡數據,VLA 模型能夠將視覺觀測、語言指令和動作輸出統一起來,在跨任務、跨場景泛化上展現出潛力。

但機器人控制并不只是「看圖回答動作」。在真實物理環境中,策略模型需要面對接觸、遮擋、長時序依賴、錯誤累積和多步規劃等問題。一個只根據當前觀測直接輸出動作的模型,往往缺少對未來狀態變化的顯式預判。

這使得世界模型重新成為機器人學習中的核心方向:機器人不僅要知道「現在是什么」,還要能預測「如果執行某個動作,世界接下來會如何演化」。

近日,來自南洋理工大學 MARS Lab 的研究者,聯合加州大學伯克利分校、斯坦福大學、哈佛大學、普林斯頓大學、ETH Zurich、牛津大學、東京大學、Microsoft 等機構,發布綜述論文《World Model for Robot Learning: A Comprehensive Survey》,系統梳理了世界模型在機器人學習中的定義、架構范式、應用場景、評測基準與未來挑戰。論文共 43 頁,并配套持續更新維護的 GitHub 資源庫。



  • 論文標題:World Model for Robot Learning: A Comprehensive Survey
  • 論文鏈接:
  • https://arxiv.org/abs/2605.00080
  • 項目主頁:
  • https://ntumars.github.io/wm-robot-survey/
  • GitHub:
  • https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy



圖 1:論文整體框架圖

機器人世界模型:

重點不是生成,而是可用于決策的預測

在機器學習和認知科學語境中,world model 并不是一個新概念。它通常指能夠刻畫環境狀態如何隨時間和動作發生變化的預測模型。

但在機器人學習中,作者強調需要對這一概念作更嚴格的界定。機器人世界模型不應只是一個能生成未來畫面的模型,而應是能夠描述「智能體——環境」動態演化的模型。換言之,它需要回答的是:在當前狀態下,如果機器人執行某個動作,未來狀態會如何改變。

這一點也區分了機器人世界模型和一般視頻生成模型。后者可以生成視覺上合理的視頻,但未必具備動作一致性。例如,模型可能生成一段看似自然的物體移動視頻,卻無法準確反映機器人夾爪動作、接觸關系和受力變化。對于機器人控制來說,這樣的預測價值有限。

因此,論文將機器人世界模型的核心能力概括為三類:

第一,foresight,即在執行前預測動作后果;

第二,imagination-driven planning,即通過想象 rollout 比較候選行為;

第三,data amplification,即通過合成軌跡或演示數據改善策略學習。

這也解釋了為什么世界模型與機器人學習的結合正在加速。VLA 策略提供了從視覺和語言到動作的接口,而世界模型補充了對未來物理變化的預測結構。二者結合后,機器人策略不再只是反應式映射,而是有機會引入更強的前瞻性和規劃能力。

世界模型如何接入機器人策略?


論文首先討論的是世界模型與機器人策略的結合方式。作者將現有方法按架構劃分為多類,從早期解耦式方法,到單骨干網絡、MoE / MoT 架構、統一 VLA,再到 latent-space world modeling。



圖 2:時間線發展圖

早期路線通常采用「預測未來,再恢復動作」的兩階段框架。模型先利用視頻生成或未來觀測預測模塊,生成任務相關的未來狀態;隨后,一個逆動力學模型根據當前觀測和預測未來,推斷機器人應執行的動作。UniPi、VidMan、Vidar、Gen2Act 等工作可以歸入這一類。

這類方法的優勢在于模塊清晰。世界模型負責預測「將會發生什么」,策略模塊負責把預測結果轉化為動作。但問題也很明顯:兩個模塊之間存在接口誤差,生成的視頻或 latent 表征如果與真實動作后果不一致,就會影響后續控制。

隨后,研究開始轉向更緊耦合的方案。一類方法使用單一生成骨干同時建模未來視覺狀態和動作序列,將視頻預測與動作生成放進同一個擴散或流匹配過程。UVA、UWA、VideoVLA、Cosmos Policy 等方法都體現了這一趨勢。它們不再把世界模型當作外部模塊,而是試圖讓預測和控制在同一個模型內部共同發生。

另一類方法采用 MoE / MoT 或多分支專家結構。視頻專家、動作專家和語言理解模塊保持一定程度的參數獨立,但通過共享注意力、交叉注意力或層間交互實現信息融合。Motus、LingBot-VA、BagelVLA 等方法都屬于這一方向。相比完全共享骨干,這種設計保留了不同模態的專門能力,同時讓視頻預測中的時序和物理先驗影響動作生成。



圖 3:IDM、Single-Backbone、MoT 三種方式的對比

統一 VLA 則代表了另一條路線。它們不一定顯式調用外部視頻世界模型,而是通過未來圖像預測、視覺 foresight、結構化世界知識或 latent 動態建模,把預測目標內化到 VLA 訓練過程之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等方法都在不同層面體現了這種趨勢。

值得注意的是,論文并沒有簡單判斷哪一路線已經勝出。相反,作者指出,當前機器人世界模型仍處在快速演化階段。解耦模塊、統一生成骨干、專家混合結構和 latent 表征各有優劣,最終效果取決于數據規模、控制頻率、任務復雜度、推理成本以及模型是否真正捕捉到動作條件下的物理變化。

從策略模塊到可交互模擬器


世界模型的第二類重要用途,是作為機器人學習中的模擬器。

傳統機器人強化學習面臨一個長期瓶頸:真實交互成本高、采樣效率低、復位困難,而且存在硬件安全風險。如果可以用學習到的世界模型替代真實環境進行 rollout,策略就可以在虛擬交互中獲得訓練信號。

論文將這一方向稱為World Model as Simulator。在這一范式中,世界模型接收當前觀測、任務指令和候選動作,預測下一步觀測、獎勵或終止信號。策略模型可以在這個學習到的環境中進行強化學習后訓練,也可以在測試階段用世界模型評估多個候選動作。



圖 4:世界模型作為 RL 模擬器和動作驗證器

這一路線的關鍵價值,是把世界模型從「輔助預測器」推進到「訓練環境」。例如,部分方法嘗試用世界模型生成 imagined transitions,用于 VLA 的 RL post-training;也有方法利用預測 rollout 對候選動作進行排序,在執行前判斷哪一組動作更可能成功。

不過,作為模擬器的世界模型也面臨更高要求。用于開放式視頻生成時,模型只需在視覺上保持合理;但用于策略訓練時,模型錯誤會直接影響策略優化方向。一個略微偏差的動力學預測,可能在多步 rollout 中被放大,導致策略學到錯誤行為。因此,長期穩定性、動作敏感性和獎勵一致性,是這一方向繞不開的問題。

視頻生成模型能否成為機器人世界模型?


近年來,大規模視頻生成模型的發展,為機器人世界模型提供了新的基礎設施。視頻模型天然學習時序變化、運動連續性和空間結構,因此被認為可能為機器人控制提供有價值的先驗。

但論文強調,機器人視頻世界模型不能直接等同于通用視頻生成。對于機器人學習而言,最重要的并不是畫面質量,而是動作可控性和物理一致性。

一個真正有用的機器人視頻世界模型,需要在給定語言指令、當前觀測和動作序列時,生成與動作后果一致的未來狀態。它還需要處理物體遮擋、接觸變化、工具使用、場景幾何和長時序任務等問題。

論文將機器人視頻世界模型的發展概括為幾個階段:

從最初的 imagination-based generation,即生成未來視頻作為策略學習的輔助;

到 action-controllable world model,即顯式建模動作對未來視覺狀態的影響;

再到 structure-aware world model,即引入深度、3D、對象、軌跡、場景結構等中間表示;

最終走向 foundation-scale world model,即具備更大數據規模、更強泛化能力和多任務適應性的基礎世界模型。



圖 5:機器人視頻世界模型相關分類

評測標準正在發生變化


論文的另一個重點是評測。對于世界模型,單純評估視頻清晰度或生成質量已經不夠。

在機器人場景中,評測應關注模型是否能改善真實任務表現。例如,它能否提升策略成功率?能否正確排序候選動作?能否預測失敗軌跡?能否在長時序任務中保持因果一致?能否幫助策略減少真實交互樣本?

因此,作者認為未來的 benchmark 需要從 open-loop visual fidelity 轉向 closed-loop task utility。也就是說,世界模型的好壞不應只由「生成得像不像」決定,而應由「是否幫助機器人做得更好」來決定。



圖 6:機器人與世界模型數據集

論文整理了多個機器人學習 benchmark 和數據集,包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等,并對不同世界模型策略在這些環境中的表現進行了歸類比較。這些結果顯示,當前最有效的方法并不集中在單一架構上;不同任務下,解耦式、統一式、專家混合式和 latent-space 方法都可能表現出競爭力。

未來挑戰:動作一致性、效率和物理 grounding


盡管世界模型在機器人學習中展現出潛力,但論文也指出,距離可靠部署仍有多項關鍵挑戰。

首先是動作條件下的因果一致性。模型不能只根據歷史觀測「腦補」未來,而必須準確反映動作帶來的狀態變化。對于閉環控制來說,這是世界模型是否真正有用的基礎。

其次是推理效率。許多視頻擴散模型計算成本較高,難以滿足機器人實時控制需求。因此,越來越多方法開始探索 latent-space prediction、訓練時使用世界模型、測試時跳過顯式視頻生成等方案。

第三是物理 grounding。真實機器人交互依賴摩擦、力、觸覺、物體材質和接觸穩定性,僅靠視覺預測往往不足。未來世界模型可能需要融合本體感覺、力覺、觸覺和結構化幾何表示。

此外,論文也提到,神經世界模型并不必然取代傳統規劃和控制方法。相反,符號表示、對象關系、因果結構和經典控制仍可能為長時序任務提供更穩定的抽象層。如何把神經預測能力與結構化規劃結合起來,將是機器人世界模型的重要方向。

結語


這篇綜述的價值在于,它沒有把世界模型簡單視為視頻生成模型在機器人領域的遷移,而是從機器人學習本身出發,重新梳理了世界模型應該承擔的功能:輔助策略生成、充當學習模擬器、支持評估與規劃、生成訓練數據,并最終服務于真實可執行的機器人行為。

對機器人學習而言,世界模型的核心問題不是「能不能想象未來」,而是「想象出的未來能否用于控制」。

當機器人能夠在行動前預測后果、在執行中校正計劃、在訓練中利用虛擬交互改進策略,世界模型才真正從生成模型走向具身智能系統的核心組件。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
28億,肯德基也要被賣了

28億,肯德基也要被賣了

融資中國
2026-05-17 10:43:10
AI時代學生該怎么辦?北大教授喬曉春:AI將淘汰初、中級從業者,學生應深耕某一領域成為專家

AI時代學生該怎么辦?北大教授喬曉春:AI將淘汰初、中級從業者,學生應深耕某一領域成為專家

極目新聞
2026-05-17 20:46:22
續航1218公里+10分鐘充80%!比亞迪固態電池獲認證,充電寶要下崗

續航1218公里+10分鐘充80%!比亞迪固態電池獲認證,充電寶要下崗

西莫的藝術宮殿
2026-05-17 16:51:14
中考真要取消了?這幾個城市已悄悄試點,家長再不看就晚了!

中考真要取消了?這幾個城市已悄悄試點,家長再不看就晚了!

優墨出品
2026-05-18 05:20:17
過氣演員到底多可憐?從拒拍裸戲,到近乎全裸拍戲,太心酸

過氣演員到底多可憐?從拒拍裸戲,到近乎全裸拍戲,太心酸

悠悠說世界
2026-05-15 13:50:20
一瓢水潑掉20萬粉!白鹿綜藝失控全網炸鍋,陳赫10秒看酸全網

一瓢水潑掉20萬粉!白鹿綜藝失控全網炸鍋,陳赫10秒看酸全網

原夢叁生
2026-05-17 02:44:38
北京男籃VS上海隊G3,許利民找到贏球方法,懷特塞德為何不被重用

北京男籃VS上海隊G3,許利民找到贏球方法,懷特塞德為何不被重用

體育大學僧
2026-05-18 12:14:30
德轉列各國前鋒總身價排行:巴西26.1億第一,英格蘭23億第二

德轉列各國前鋒總身價排行:巴西26.1億第一,英格蘭23億第二

懂球帝
2026-05-17 20:04:42
張雪機車奪第4冠!升起的卻不是五星紅旗 張雪投100萬+下令德比斯

張雪機車奪第4冠!升起的卻不是五星紅旗 張雪投100萬+下令德比斯

念洲
2026-05-17 15:17:10
忠心員工捐髓救老板一命,老板康復后卻將她辭退,報應來得快

忠心員工捐髓救老板一命,老板康復后卻將她辭退,報應來得快

懸案解密檔案
2025-05-14 14:16:08
南通出現大蛇

南通出現大蛇

南通濠生活
2026-05-18 09:26:14
劉少奇在長征中經歷什么?看懂這件事,才明白他為何能成二號人物

劉少奇在長征中經歷什么?看懂這件事,才明白他為何能成二號人物

鶴羽說個事
2026-03-21 21:21:46
別猜了,他是不是Gay,看這幾點心里就有數了

別猜了,他是不是Gay,看這幾點心里就有數了

健身狂人
2026-05-18 12:07:39
人類連氫彈都能造,為什么卻造不出一粒米?

人類連氫彈都能造,為什么卻造不出一粒米?

半解智士
2026-04-10 17:40:34
驚天逆轉!中國臨時組合力克日本隊奪冠!

驚天逆轉!中國臨時組合力克日本隊奪冠!

環球網資訊
2026-05-17 17:05:09
大眾、豐田、奧迪、捷豹路虎、等車企宣布,多款燃油車大降價!

大眾、豐田、奧迪、捷豹路虎、等車企宣布,多款燃油車大降價!

娛樂圈的筆娛君
2026-05-17 16:19:51
哪有軟柿子,前女首富陳麗華去世1個月,遲重瑞的真實現狀曝光

哪有軟柿子,前女首富陳麗華去世1個月,遲重瑞的真實現狀曝光

閱微札記
2026-05-18 11:34:03
穆里尼奧力挺弗格森:瓜帥再偉大,也撼動不了曼聯教父的地位!

穆里尼奧力挺弗格森:瓜帥再偉大,也撼動不了曼聯教父的地位!

體育閑話說
2026-05-17 13:02:57
外號笑死個人!網友:只有起錯的名字,沒有起錯的外號

外號笑死個人!網友:只有起錯的名字,沒有起錯的外號

另子維愛讀史
2026-05-17 22:14:28
天降三重利好!中國U17決戰澳大利亞,這一次真的要爆冷沖決賽

天降三重利好!中國U17決戰澳大利亞,這一次真的要爆冷沖決賽

林子說事
2026-05-18 11:16:54
2026-05-18 13:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13019文章數 142650關注度
往期回顧 全部

科技要聞

國產大模型集體更新后能力有多強?

頭條要聞

牛彈琴:特朗普很焦慮 出訪回國后幾小時就召高官開會

頭條要聞

牛彈琴:特朗普很焦慮 出訪回國后幾小時就召高官開會

體育要聞

哈登晉級東決:第5次分區決賽第5次贏搶七

娛樂要聞

小S曬全家福懷念大S,爺爺奶奶最疼姐姐

財經要聞

前4月工業生產較快增長 失業率5.3%

汽車要聞

小米YU7 GT定檔5月21日19:00上市 跑車級轎跑SUV

態度原創

旅游
藝術
家居
房產
軍事航空

旅游要聞

免門票、半價!河北多家景區最新消息→

藝術要聞

賀子珍莫斯科"求助信"首曝光!書法魅力何在令收藏者癡迷?

家居要聞

觀山隱秀 心靈沉淀

房產要聞

最新數據!海口二手房價,開始連漲!

軍事要聞

黎以停火再延長 空襲卻未停止

無障礙瀏覽 進入關懷版