網易首頁 > 網易號 > 正文申請入駐

機器人的終局：英偉達Jim Fan宣告VLA時代結束，WAM登場

2026-05-10 17:30:04　來源: 可達鴨面面觀

北京舉報

分享至

Jim Fan是英偉達機器人與AI研究組（GEAR Lab）負責人，過去幾年主推的GR00T人形機器人基礎模型用的是VLA（Vision-Language-Action，視覺-語言-動作）架構。他剛在Sequoia AI Ascent 2026上做了一場20分鐘的演講，主題叫《Robotics' End Game》，第一件事就是宣布VLA路線過時——包括他自己半年前還在推的GR00T。

取而代之的新范式叫世界動作模型（WAM），代表作是英偉達2月發布的DreamZero。他把這套思路叫"底層同構"：復制LLM（Large Language Model，大語言模型）走過的三步（預訓練→對齊→強化學習），用視頻世界模型替代語言模型，用人類第一人稱視頻替代遙操作數據，最終在2040年前讓機器人自己設計和制造下一代自己。他對此有95%的把握。

要點速覽

VLA路線落幕：Jim公開宣告VLA路線過時，新范式叫世界動作模型（WAM），代表作是DreamZero（140億參數）。

告別遙操作數據：遙操作物理上限低，預測一兩年內降到接近0，被傳感化人類數據取代。

神經縮放定律：EgoScale用21,000小時人類第一人稱視頻預訓練，團隊發現了靈巧操作的神經縮放定律（R2 = 0.998）。

神經仿真器：Dream Dojo用44,000小時人類視頻訓練出一個完全繞過物理引擎的神經仿真器。

終局倒計時：給出2040年完成機器人終局的預測（物理自動研究），置信度95%。

從DGX-1簽名到"底層同構"

Jim用一段往事開場。2016年夏天，就在OpenAI當時的辦公室，黃仁勛穿著標志性皮夾克，抱著一塊大金屬托盤走進來，上面寫著："致Elon和OpenAI團隊，致計算和人類的未來。"那是全球第一臺DGX-1。

Jim當時是OpenAI的第一個實習生，趕緊排隊去上面簽了名。"那時候我完全不知道自己在簽什么。"旁邊一起簽的還有Andrej Karpathy。這臺機器現在在Computer History Museum收藏。

于是他做出了一個決定：抄作業，換個名字，叫"底層同構"（the Great Parallel）。把"模擬字符串的下一個狀態"換成"模擬物理世界的下一個狀態"，通過動作微調收斂到機器人需要的那部分，最后讓強化學習走完最后一公里。

VLA怎么了：參數都堆在了語言上

過去三年，機器人領域的主流架構是VLA（Vision-Language-Action，視覺-語言-動作模型）。英偉達自家的GR00T和Physical Intelligence的π0都屬于這個類別。

Jim指出了結構性問題：其實這些模型該叫LVA，因為參數大頭全堆在語言上了。語言是一等公民，視覺次之，動作只能墊底。

VLA擅長編碼知識和名詞，不擅長物理和動詞。重心放在了不對的地方。

他舉了RT-2原始論文里那個經典demo：讓機器人把可樂罐推到Taylor Swift的照片旁邊。模型沒見過Taylor Swift，但能泛化過去。問題是，泛化的是名詞（能認出Taylor Swift），而不是動詞（該怎么推、找什么角度、用多大力）。

從AI垃圾視頻到DreamZero

VLA不是答案，那下一個預訓練范式是什么？結果發現是視頻模型，它們在內部學會了模擬物理世界的下一個狀態。

怎么把這些世界模型變有用？做動作微調。把"所有可能的未來"這種疊加態，收斂到一條對真實機器人有意義的動作軌跡上。

英偉達的答案叫DreamZero。這是一種新型策略模型，在執行動作之前先往未來"做夢"幾秒鐘，然后根據夢境行動。DreamZero同時解碼下一幀畫面和下一步動作。在這里，視覺和動作第一次真正成為了"一等公民"。

Jim坦率地承認DreamZero目前做不到每個任務都100%可靠。"它大概相當于GPT-2的階段，方向對了，但表現還不夠穩定可靠。"他給這個新架構起名叫WAM（World Action Models，世界動作模型）。

數據革命：從遙操作到"機器人不用參與的數據采集"

過去三年是遙操作（teleop）的黃金時代。但遙操作有一個硬上限：每臺機器人每天24小時。

"我說一天24小時，那是騙自己的。實際一天能干3小時就不錯了，還得看當天的'機器人之神'賞不賞臉——畢竟這幫機器天天鬧脾氣出毛病。"

怎么破局？把機器人的末端執行器直接戴在人手上，直接采集數據，完全繞過機器人本體。

英偉達方案是DexUMI，一種外骨骼裝置。用外骨骼數據訓練出的機器人策略可以完全自主運行，訓練數據里沒有任何遙操作數據。

EgoScale：21,000小時人類視頻和縮放定律

英偉達搞了一個叫EgoScale的數據集，包含21,000小時人類第一人稱視頻，涵蓋日常家務、辦公室工作、工業操作等場景。

團隊發現了靈巧操作的神經縮放定律：隨著預訓練數據量增加，模型在下游任務上的表現呈線性提升，擬合度R2 = 0.998。

這意味著什么？機器人學習也遵循和LLM類似的縮放規律——只要數據夠多，模型就能持續變強。

Dream Dojo：完全繞過物理引擎的神經仿真器

傳統機器人訓練需要在仿真環境里一遍遍試錯，但仿真器和真實世界總有差距。

Jim團隊的解決方案是Dream Dojo：用44,000小時人類視頻訓練出一個完全基于神經網絡的世界模型，徹底繞過傳統物理引擎。

這個神經仿真器能生成逼真的物理交互視頻，機器人在"夢境"里訓練，然后零樣本遷移到真實世界。

2040年終局：機器人自己造下一代

Jim給出了一個大膽預測：2040年前，機器人將完成"物理自動研究"——也就是機器人自己設計和制造下一代機器人。他對此的置信度是95%。

路徑已經很清晰：預訓練（世界模型）→對齊（動作微調）→強化學習（自我改進）→自動研究（機器人造機器人）。

這和LLM的發展軌跡幾乎一模一樣。唯一的區別是，LLM處理的是文本，WAM處理的是物理世界。

"如果你相信深度學習，深度學習就信你。"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.