无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

預測到規劃未來:WLA統一了世界建模、語言推理與動作生成

0
分享至





視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

近期,世界-動作模型(World-Action Model,WAM)正成為具身智能的重要方向。它將世界建模與動作預測結合起來:機器人不僅能根據當前觀測生成控制動作,還能預測未來狀態或畫面,在行動前先預演可能的結果。這有助于模型學習物理規律和動作影響,但也帶來了新的挑戰。

首先,圖像預測往往需要重建大量與任務無關的細節,如背景、紋理和光照。這些信息對生成動作幫助有限,卻會增加學習負擔。其次,計算開銷較高,如果推理階段仍需顯式生成圖像或視頻,可能引入額外延遲,影響機器人實時閉環控制。

更重要的是,許多 WAM 仍主要依賴像素級視覺預測,語義信息不足,難以充分表達任務意圖、因果關系和長期規劃。



圖 1:WAM 的局限性:細節重建負擔、推理延遲與語義缺失

為了解決這一問題,上海交通大學 DENG Lab 提出了世界 - 語言 - 動作模型(World-Language-Action Model, WLA),將世界建模、語言推理與機器人動作生成統一到同一個框架中。WLA 對未來狀態的預測不只停留在「生成未來畫面」,而是同時建模兩類關鍵信息:粗粒度的文本意圖與細粒度的物理動態。

文本意圖用自然語言描述未來狀態和任務目標,為機器人提供簡潔、可解釋的語義表示。它能夠過濾大量與決策無關的視覺細節,使模型更聚焦于任務本身,并進一步支持目標分解、記憶組織、邏輯推理和長期規劃。

與此同時,物理動態刻畫動作對環境狀態的影響,描述物體位姿、接觸關系、運動趨勢等細粒度變化。它連接高層任務意圖與底層動作控制,使機器人不僅理解「要做什么」,也能判斷「這樣做會帶來什么結果」。



在部署階段,WLA 僅激活 2B 參數,卻在仿真與真實機器人實驗中全面超越多類強 WAM / VLA 基線,并在長時程、強記憶依賴的 RMBench 上取得 56.5% 成功率,接近是次優方法的兩倍。更重要的是,經過系統級推理優化后,WLA 的單次推理延遲降至 40ms,使其能夠勝任動態場景下的實時機器人控制。此外,WLA 還展現出直接從跨本體、無動作標注機器人視頻中學習新任務的潛力,為降低機器人數據采集成本提供了新的可能。



代碼與模型權重均已完全開源:

  • 論文標題:World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
  • 論文地址:https://arxiv.org/abs/2606.05979
  • 代碼地址:https://github.com/SJTU-DENG-Lab/WLA
  • 模型倉庫:https://huggingface.co/collections/SJTU-DENG-Lab/wla

文本意圖:我做到了哪一步,接下來怎么做?

不同于許多基于雙向 DiT 的 WAM,WLA 采用自回歸 Transformer 作為骨干網絡,并由預訓練視覺 - 語言模型(VLM)初始化。這一設計使模型天然地繼承了 VLM 的語言理解、序列生成和上下文管理能力,不再局限于像素級預測。

在長時程任務中,語言指令通常只給出最終目標,卻不會告訴機器人每一步應如何推進。為此,WLA 將高層意圖表示為文本子任務:模型會預測未來動作窗口對應的子任務序列,并維護一個記憶緩沖區,用于記錄已經完成的步驟。推理時,模型先自回歸生成當前應執行的子任務,再基于該子任務生成動作;執行后的子任務會被寫入記憶,作為后續決策的上下文。

由此,WLA 不再只是「看一幀、做一步」,而是能夠持續判斷任務進度:哪些步驟已經完成、當前應做什么、接下來如何推進。這種文本意圖建模為長時程、強記憶依賴的機器人操作提供了清晰、可解釋的高層語義支撐。



視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

視頻 1:WLA 具備推理、規劃和記憶能力,能夠處理長時程任務

物理動態:動作如何改變環境?

為使自回歸主干具備物理動態建模能力,WLA 引入了「世界專家」和一組 meta-queries。模型將 meta-queries 追加到輸入序列之后,使其通過因果注意力聚合上下文信息,從而形成對環境變化的緊湊表征。

訓練時,世界專家以當前視覺狀態和 meta-queries 的隱藏表示為條件,預測未來的視覺狀態。由于這一預測目標要求模型捕捉動作序列引起的環境變化,這些隱藏表示會被約束為一種潛在動作表征:它們不負責重建低層細節,而是集中編碼核心物理動態。與此同時,這些潛在動作表征也會作為條件輸入,引導「動作專家」生成可執行的機器人動作。



圖 3: WLA 的架構設計

因此,WLA 在推理時并不需要先顯式生成未來圖像。世界建模信號已在訓練階段通過共享主干和 meta-queries 注入動作生成過程,推理時可以關閉世界專家,直接生成機器人動作。這樣,WLA 既保留了世界建模帶來的物理先驗,又避免了傳統 WAM「先想象、再執行」范式帶來的額外延遲。經過一系列系統級優化后,WLA 的單次推理延遲降至 40 ms,適用于動態場景下的實時機器人控制。



視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

視頻 2:WLA 的推理延遲顯著低于傳統 WAM 方法

實驗結果:仿真、真機全面驗證

在 RoboTwin 2.0 和 LIBERO 仿真基準上,WLA-0 在僅激活 2B 參數且未進行具身預訓練的情況下,取得了極具競爭力的結果。











跨具身遷移:從無標注視頻中學習新任務

最后,實驗進一步考察 WLA 能否從無動作標注視頻中學習未見任務。作者將 RoboTwin 的 50 個任務被劃分為 45 個 seen 任務和 5 個 unseen 任務,并設置四組對比:僅使用 seen 任務動作監督的 Seen-Action baseline、加入 seen 視頻監督的 Seen-Action+Video、加入 unseen 同本體視頻的 +Unseen Same-Emb. Video,以及加入 unseen 跨本體視頻的 +Unseen Cross-Emb. Video。



結果顯示,僅加入可見任務的視頻監督幾乎沒有收益,平均 Clean/Rand. 成功率從 13.0/11.6 變為 11.8/12.6;加入 unseen 同本體視頻后提升至 34.4/30.0,加入 unseen 跨本體視頻后仍達到 28.8/27.4。以 Beat Block Hammer 為例,baseline 幾乎完全失敗,而未見任務視頻監督使模型學會抓取錘子并嘗試敲擊目標,展現出跨本體遷移的潛力。



視頻鏈接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
0時0分準時生效,中國反制很快,日本財政恐爆雷,高市開始自救

0時0分準時生效,中國反制很快,日本財政恐爆雷,高市開始自救

影孖看世界
2026-07-02 23:59:16
新疆維吾爾自治區塔城地委委員、塔城市委書記王東升被查

新疆維吾爾自治區塔城地委委員、塔城市委書記王東升被查

新京報
2026-07-03 15:37:13
突發!Claude 將對中國用戶下狠手!VPN、中轉站、海外殼、云服務商全封禁

突發!Claude 將對中國用戶下狠手!VPN、中轉站、海外殼、云服務商全封禁

云頭條
2026-07-03 13:39:42
俄發出最終警告,不撤軍就屠城!鋯石擊穿基輔,烏克蘭迎生死夜

俄發出最終警告,不撤軍就屠城!鋯石擊穿基輔,烏克蘭迎生死夜

青青衫書生
2026-07-03 15:15:06
小紅書上市前夜爆雷

小紅書上市前夜爆雷

不正確
2026-07-02 18:51:26
俄羅斯宣布:芬蘭已成核打擊目標!

俄羅斯宣布:芬蘭已成核打擊目標!

看看新聞Knews
2026-07-03 13:09:37
女子考編第一名崗位卻被取消,網友:你不是人家想要的蘿卜

女子考編第一名崗位卻被取消,網友:你不是人家想要的蘿卜

網易新聞出品
2026-06-30 21:59:39
世界杯16強已定13席!1/8決賽6組對決出爐:西葡會師+3場焦點大戰

世界杯16強已定13席!1/8決賽6組對決出爐:西葡會師+3場焦點大戰

我愛英超
2026-07-03 13:06:00
極氪翻倍增長、出口首破10萬,吉利交出高質量半年答卷

極氪翻倍增長、出口首破10萬,吉利交出高質量半年答卷

汽車公社
2026-07-02 19:58:00
穆杰塔巴萬萬沒想到,老哈梅靈車還沒到圣城,以軍又準備斬首行動

穆杰塔巴萬萬沒想到,老哈梅靈車還沒到圣城,以軍又準備斬首行動

面包夾知識
2026-07-02 17:35:23
閃婚33天被卷走300萬,深圳富豪花9年把“校花毒妻”送進監獄:比復仇更重要的,是這件事……

閃婚33天被卷走300萬,深圳富豪花9年把“校花毒妻”送進監獄:比復仇更重要的,是這件事……

脆皮先生
2026-07-02 22:19:23
重磅!正式加盟76人!一億射手搭檔杰倫布朗

重磅!正式加盟76人!一億射手搭檔杰倫布朗

技巧君侃球
2026-07-03 17:22:07
“高考估分715查分299 女孩稱試卷不是自己的”?四川綿陽市教體局核查:純屬謠言 查無此人

“高考估分715查分299 女孩稱試卷不是自己的”?四川綿陽市教體局核查:純屬謠言 查無此人

閃電新聞
2026-07-02 12:26:25
跨越千里,飛利浦空調&恩博力電器攜手紅頂公益點亮絲路童心

跨越千里,飛利浦空調&恩博力電器攜手紅頂公益點亮絲路童心

中國家電網
2026-07-03 09:58:49
杰倫-布朗:得知被交易后我去了球館,結果門禁卡竟然失效了

杰倫-布朗:得知被交易后我去了球館,結果門禁卡竟然失效了

懂球帝
2026-07-03 11:00:15
最大的越位爭議判罰!克羅地亞黃金一代老男孩昂首離開,C羅率領葡萄牙隊晉級

最大的越位爭議判罰!克羅地亞黃金一代老男孩昂首離開,C羅率領葡萄牙隊晉級

上觀新聞
2026-07-03 09:26:15
春水堂正式發布仿真人形伴侶機器人 1.5萬元級把具身陪伴帶回家

春水堂正式發布仿真人形伴侶機器人 1.5萬元級把具身陪伴帶回家

科技說說
2026-07-02 18:25:55
中國智造“殺死”克羅地亞隊?三重浪內置芯片捕捉觸球瞬間,絕平進球無效!

中國智造“殺死”克羅地亞隊?三重浪內置芯片捕捉觸球瞬間,絕平進球無效!

上觀新聞
2026-07-03 09:47:14
3男孩在無人自助臺球廳內,互噴滅火器致粉末飛揚,球桌、地毯、空調均被污染;商家:損失約四五千元,已報警

3男孩在無人自助臺球廳內,互噴滅火器致粉末飛揚,球桌、地毯、空調均被污染;商家:損失約四五千元,已報警

揚子晚報
2026-07-03 07:35:37
FIFA官方證實克羅地亞絕平球無效 球員承認:我頭發蹭球+確實越位

FIFA官方證實克羅地亞絕平球無效 球員承認:我頭發蹭球+確實越位

我愛英超
2026-07-03 12:12:42
2026-07-03 17:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13426文章數 142686關注度
往期回顧 全部

科技要聞

萬億富豪馬斯克 舍不得特斯拉員工敞開用AI

頭條要聞

中國船員在被韓海警扣押期間死亡 船友曾6次提醒救人

頭條要聞

中國船員在被韓海警扣押期間死亡 船友曾6次提醒救人

體育要聞

C羅穿已故隊友若塔球衣謝場 眼中含淚

娛樂要聞

海來阿木孕期出軌指控掀起全網熱議

財經要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

數碼
旅游
手機
時尚
教育

數碼要聞

哈趣K3 Ultra Max:2000元檔機皇,百吋巨幕看世界杯

旅游要聞

2026安吉文旅招商推介走進上海,長三角親水度假新路線新鮮發布

手機要聞

HMD Touch“混合型手機”國內入網:64MB內存、3.2英寸小屏

夏天的裙子流行“剪一刀”,誰穿誰美!

教育要聞

從普通到優秀!武漢學院學子王天澈法考考研雙上岸!

無障礙瀏覽 進入關懷版