網易首頁 > 網易號 > 正文申請入駐

預測到規劃未來：WLA統一了世界建模、語言推理與動作生成

2026-07-03 16:11:26　來源: 機器之心Pro

天津舉報

分享至

視頻鏈接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

近期，世界-動作模型（World-Action Model，WAM）正成為具身智能的重要方向。它將世界建模與動作預測結合起來：機器人不僅能根據當前觀測生成控制動作，還能預測未來狀態或畫面，在行動前先預演可能的結果。這有助于模型學習物理規律和動作影響，但也帶來了新的挑戰。

首先，圖像預測往往需要重建大量與任務無關的細節，如背景、紋理和光照。這些信息對生成動作幫助有限，卻會增加學習負擔。其次，計算開銷較高，如果推理階段仍需顯式生成圖像或視頻，可能引入額外延遲，影響機器人實時閉環控制。

更重要的是，許多 WAM 仍主要依賴像素級視覺預測，語義信息不足，難以充分表達任務意圖、因果關系和長期規劃。

圖 1：WAM 的局限性：細節重建負擔、推理延遲與語義缺失

為了解決這一問題，上海交通大學 DENG Lab 提出了世界 - 語言 - 動作模型（World-Language-Action Model, WLA），將世界建模、語言推理與機器人動作生成統一到同一個框架中。WLA 對未來狀態的預測不只停留在「生成未來畫面」，而是同時建模兩類關鍵信息：粗粒度的文本意圖與細粒度的物理動態。

文本意圖用自然語言描述未來狀態和任務目標，為機器人提供簡潔、可解釋的語義表示。它能夠過濾大量與決策無關的視覺細節，使模型更聚焦于任務本身，并進一步支持目標分解、記憶組織、邏輯推理和長期規劃。

與此同時，物理動態刻畫動作對環境狀態的影響，描述物體位姿、接觸關系、運動趨勢等細粒度變化。它連接高層任務意圖與底層動作控制，使機器人不僅理解「要做什么」，也能判斷「這樣做會帶來什么結果」。

在部署階段，WLA 僅激活 2B 參數，卻在仿真與真實機器人實驗中全面超越多類強 WAM / VLA 基線，并在長時程、強記憶依賴的 RMBench 上取得 56.5% 成功率，接近是次優方法的兩倍。更重要的是，經過系統級推理優化后，WLA 的單次推理延遲降至 40ms，使其能夠勝任動態場景下的實時機器人控制。此外，WLA 還展現出直接從跨本體、無動作標注機器人視頻中學習新任務的潛力，為降低機器人數據采集成本提供了新的可能。

代碼與模型權重均已完全開源：

論文標題：World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
論文地址：https://arxiv.org/abs/2606.05979
代碼地址：https://github.com/SJTU-DENG-Lab/WLA
模型倉庫：https://huggingface.co/collections/SJTU-DENG-Lab/wla

文本意圖：我做到了哪一步，接下來怎么做？

不同于許多基于雙向 DiT 的 WAM，WLA 采用自回歸 Transformer 作為骨干網絡，并由預訓練視覺 - 語言模型（VLM）初始化。這一設計使模型天然地繼承了 VLM 的語言理解、序列生成和上下文管理能力，不再局限于像素級預測。

在長時程任務中，語言指令通常只給出最終目標，卻不會告訴機器人每一步應如何推進。為此，WLA 將高層意圖表示為文本子任務：模型會預測未來動作窗口對應的子任務序列，并維護一個記憶緩沖區，用于記錄已經完成的步驟。推理時，模型先自回歸生成當前應執行的子任務，再基于該子任務生成動作；執行后的子任務會被寫入記憶，作為后續決策的上下文。

由此，WLA 不再只是「看一幀、做一步」，而是能夠持續判斷任務進度：哪些步驟已經完成、當前應做什么、接下來如何推進。這種文本意圖建模為長時程、強記憶依賴的機器人操作提供了清晰、可解釋的高層語義支撐。

視頻鏈接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

視頻 1：WLA 具備推理、規劃和記憶能力，能夠處理長時程任務

物理動態：動作如何改變環境？

為使自回歸主干具備物理動態建模能力，WLA 引入了「世界專家」和一組 meta-queries。模型將 meta-queries 追加到輸入序列之后，使其通過因果注意力聚合上下文信息，從而形成對環境變化的緊湊表征。

訓練時，世界專家以當前視覺狀態和 meta-queries 的隱藏表示為條件，預測未來的視覺狀態。由于這一預測目標要求模型捕捉動作序列引起的環境變化，這些隱藏表示會被約束為一種潛在動作表征：它們不負責重建低層細節，而是集中編碼核心物理動態。與此同時，這些潛在動作表征也會作為條件輸入，引導「動作專家」生成可執行的機器人動作。

圖 3: WLA 的架構設計

因此，WLA 在推理時并不需要先顯式生成未來圖像。世界建模信號已在訓練階段通過共享主干和 meta-queries 注入動作生成過程，推理時可以關閉世界專家，直接生成機器人動作。這樣，WLA 既保留了世界建模帶來的物理先驗，又避免了傳統 WAM「先想象、再執行」范式帶來的額外延遲。經過一系列系統級優化后，WLA 的單次推理延遲降至 40 ms，適用于動態場景下的實時機器人控制。

視頻鏈接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

視頻 2：WLA 的推理延遲顯著低于傳統 WAM 方法

實驗結果：仿真、真機全面驗證

在 RoboTwin 2.0 和 LIBERO 仿真基準上，WLA-0 在僅激活 2B 參數且未進行具身預訓練的情況下，取得了極具競爭力的結果。

跨具身遷移：從無標注視頻中學習新任務

最后，實驗進一步考察 WLA 能否從無動作標注視頻中學習未見任務。作者將 RoboTwin 的 50 個任務被劃分為 45 個 seen 任務和 5 個 unseen 任務，并設置四組對比：僅使用 seen 任務動作監督的 Seen-Action baseline、加入 seen 視頻監督的 Seen-Action+Video、加入 unseen 同本體視頻的 +Unseen Same-Emb. Video，以及加入 unseen 跨本體視頻的 +Unseen Cross-Emb. Video。

結果顯示，僅加入可見任務的視頻監督幾乎沒有收益，平均 Clean/Rand. 成功率從 13.0/11.6 變為 11.8/12.6；加入 unseen 同本體視頻后提升至 34.4/30.0，加入 unseen 跨本體視頻后仍達到 28.8/27.4。以 Beat Block Hammer 為例，baseline 幾乎完全失敗，而未見任務視頻監督使模型學會抓取錘子并嘗試敲擊目標，展現出跨本體遷移的潛力。

視頻鏈接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.