![]()
![]()
視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA
近期,世界-動作模型(World-Action Model,WAM)正成為具身智能的重要方向。它將世界建模與動作預測結合起來:機器人不僅能根據當前觀測生成控制動作,還能預測未來狀態或畫面,在行動前先預演可能的結果。這有助于模型學習物理規律和動作影響,但也帶來了新的挑戰。
首先,圖像預測往往需要重建大量與任務無關的細節,如背景、紋理和光照。這些信息對生成動作幫助有限,卻會增加學習負擔。其次,計算開銷較高,如果推理階段仍需顯式生成圖像或視頻,可能引入額外延遲,影響機器人實時閉環控制。
更重要的是,許多 WAM 仍主要依賴像素級視覺預測,語義信息不足,難以充分表達任務意圖、因果關系和長期規劃。
![]()
圖 1:WAM 的局限性:細節重建負擔、推理延遲與語義缺失
為了解決這一問題,上海交通大學 DENG Lab 提出了世界 - 語言 - 動作模型(World-Language-Action Model, WLA),將世界建模、語言推理與機器人動作生成統一到同一個框架中。WLA 對未來狀態的預測不只停留在「生成未來畫面」,而是同時建模兩類關鍵信息:粗粒度的文本意圖與細粒度的物理動態。
文本意圖用自然語言描述未來狀態和任務目標,為機器人提供簡潔、可解釋的語義表示。它能夠過濾大量與決策無關的視覺細節,使模型更聚焦于任務本身,并進一步支持目標分解、記憶組織、邏輯推理和長期規劃。
與此同時,物理動態刻畫動作對環境狀態的影響,描述物體位姿、接觸關系、運動趨勢等細粒度變化。它連接高層任務意圖與底層動作控制,使機器人不僅理解「要做什么」,也能判斷「這樣做會帶來什么結果」。
![]()
在部署階段,WLA 僅激活 2B 參數,卻在仿真與真實機器人實驗中全面超越多類強 WAM / VLA 基線,并在長時程、強記憶依賴的 RMBench 上取得 56.5% 成功率,接近是次優方法的兩倍。更重要的是,經過系統級推理優化后,WLA 的單次推理延遲降至 40ms,使其能夠勝任動態場景下的實時機器人控制。此外,WLA 還展現出直接從跨本體、無動作標注機器人視頻中學習新任務的潛力,為降低機器人數據采集成本提供了新的可能。
![]()
代碼與模型權重均已完全開源:
- 論文標題:World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
- 論文地址:https://arxiv.org/abs/2606.05979
- 代碼地址:https://github.com/SJTU-DENG-Lab/WLA
- 模型倉庫:https://huggingface.co/collections/SJTU-DENG-Lab/wla
文本意圖:我做到了哪一步,接下來怎么做?
不同于許多基于雙向 DiT 的 WAM,WLA 采用自回歸 Transformer 作為骨干網絡,并由預訓練視覺 - 語言模型(VLM)初始化。這一設計使模型天然地繼承了 VLM 的語言理解、序列生成和上下文管理能力,不再局限于像素級預測。
在長時程任務中,語言指令通常只給出最終目標,卻不會告訴機器人每一步應如何推進。為此,WLA 將高層意圖表示為文本子任務:模型會預測未來動作窗口對應的子任務序列,并維護一個記憶緩沖區,用于記錄已經完成的步驟。推理時,模型先自回歸生成當前應執行的子任務,再基于該子任務生成動作;執行后的子任務會被寫入記憶,作為后續決策的上下文。
由此,WLA 不再只是「看一幀、做一步」,而是能夠持續判斷任務進度:哪些步驟已經完成、當前應做什么、接下來如何推進。這種文本意圖建模為長時程、強記憶依賴的機器人操作提供了清晰、可解釋的高層語義支撐。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA
視頻 1:WLA 具備推理、規劃和記憶能力,能夠處理長時程任務
物理動態:動作如何改變環境?
為使自回歸主干具備物理動態建模能力,WLA 引入了「世界專家」和一組 meta-queries。模型將 meta-queries 追加到輸入序列之后,使其通過因果注意力聚合上下文信息,從而形成對環境變化的緊湊表征。
訓練時,世界專家以當前視覺狀態和 meta-queries 的隱藏表示為條件,預測未來的視覺狀態。由于這一預測目標要求模型捕捉動作序列引起的環境變化,這些隱藏表示會被約束為一種潛在動作表征:它們不負責重建低層細節,而是集中編碼核心物理動態。與此同時,這些潛在動作表征也會作為條件輸入,引導「動作專家」生成可執行的機器人動作。
![]()
圖 3: WLA 的架構設計
因此,WLA 在推理時并不需要先顯式生成未來圖像。世界建模信號已在訓練階段通過共享主干和 meta-queries 注入動作生成過程,推理時可以關閉世界專家,直接生成機器人動作。這樣,WLA 既保留了世界建模帶來的物理先驗,又避免了傳統 WAM「先想象、再執行」范式帶來的額外延遲。經過一系列系統級優化后,WLA 的單次推理延遲降至 40 ms,適用于動態場景下的實時機器人控制。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA
視頻 2:WLA 的推理延遲顯著低于傳統 WAM 方法
實驗結果:仿真、真機全面驗證
在 RoboTwin 2.0 和 LIBERO 仿真基準上,WLA-0 在僅激活 2B 參數且未進行具身預訓練的情況下,取得了極具競爭力的結果。
![]()
![]()
![]()
![]()
![]()
跨具身遷移:從無標注視頻中學習新任務
最后,實驗進一步考察 WLA 能否從無動作標注視頻中學習未見任務。作者將 RoboTwin 的 50 個任務被劃分為 45 個 seen 任務和 5 個 unseen 任務,并設置四組對比:僅使用 seen 任務動作監督的 Seen-Action baseline、加入 seen 視頻監督的 Seen-Action+Video、加入 unseen 同本體視頻的 +Unseen Same-Emb. Video,以及加入 unseen 跨本體視頻的 +Unseen Cross-Emb. Video。
![]()
結果顯示,僅加入可見任務的視頻監督幾乎沒有收益,平均 Clean/Rand. 成功率從 13.0/11.6 變為 11.8/12.6;加入 unseen 同本體視頻后提升至 34.4/30.0,加入 unseen 跨本體視頻后仍達到 28.8/27.4。以 Beat Block Hammer 為例,baseline 幾乎完全失敗,而未見任務視頻監督使模型學會抓取錘子并嘗試敲擊目標,展現出跨本體遷移的潛力。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.