Jim Fan是英偉達機器人與AI研究組(GEAR Lab)負責人,過去幾年主推的GR00T人形機器人基礎模型用的是VLA(Vision-Language-Action,視覺-語言-動作)架構。他剛在Sequoia AI Ascent 2026上做了一場20分鐘的演講,主題叫《Robotics' End Game》,第一件事就是宣布VLA路線過時——包括他自己半年前還在推的GR00T。
![]()
取而代之的新范式叫世界動作模型(WAM),代表作是英偉達2月發布的DreamZero。他把這套思路叫"底層同構":復制LLM(Large Language Model,大語言模型)走過的三步(預訓練→對齊→強化學習),用視頻世界模型替代語言模型,用人類第一人稱視頻替代遙操作數據,最終在2040年前讓機器人自己設計和制造下一代自己。他對此有95%的把握。
要點速覽
VLA路線落幕:Jim公開宣告VLA路線過時,新范式叫世界動作模型(WAM),代表作是DreamZero(140億參數)。
告別遙操作數據:遙操作物理上限低,預測一兩年內降到接近0,被傳感化人類數據取代。
神經縮放定律:EgoScale用21,000小時人類第一人稱視頻預訓練,團隊發現了靈巧操作的神經縮放定律(R2 = 0.998)。
神經仿真器:Dream Dojo用44,000小時人類視頻訓練出一個完全繞過物理引擎的神經仿真器。
終局倒計時:給出2040年完成機器人終局的預測(物理自動研究),置信度95%。
從DGX-1簽名到"底層同構"
Jim用一段往事開場。2016年夏天,就在OpenAI當時的辦公室,黃仁勛穿著標志性皮夾克,抱著一塊大金屬托盤走進來,上面寫著:"致Elon和OpenAI團隊,致計算和人類的未來。"那是全球第一臺DGX-1。
Jim當時是OpenAI的第一個實習生,趕緊排隊去上面簽了名。"那時候我完全不知道自己在簽什么。"旁邊一起簽的還有Andrej Karpathy。這臺機器現在在Computer History Museum收藏。
于是他做出了一個決定:抄作業,換個名字,叫"底層同構"(the Great Parallel)。把"模擬字符串的下一個狀態"換成"模擬物理世界的下一個狀態",通過動作微調收斂到機器人需要的那部分,最后讓強化學習走完最后一公里。
VLA怎么了:參數都堆在了語言上
過去三年,機器人領域的主流架構是VLA(Vision-Language-Action,視覺-語言-動作模型)。英偉達自家的GR00T和Physical Intelligence的π0都屬于這個類別。
Jim指出了結構性問題:其實這些模型該叫LVA,因為參數大頭全堆在語言上了。語言是一等公民,視覺次之,動作只能墊底。
VLA擅長編碼知識和名詞,不擅長物理和動詞。重心放在了不對的地方。
他舉了RT-2原始論文里那個經典demo:讓機器人把可樂罐推到Taylor Swift的照片旁邊。模型沒見過Taylor Swift,但能泛化過去。問題是,泛化的是名詞(能認出Taylor Swift),而不是動詞(該怎么推、找什么角度、用多大力)。
從AI垃圾視頻到DreamZero
VLA不是答案,那下一個預訓練范式是什么?結果發現是視頻模型,它們在內部學會了模擬物理世界的下一個狀態。
怎么把這些世界模型變有用?做動作微調。把"所有可能的未來"這種疊加態,收斂到一條對真實機器人有意義的動作軌跡上。
英偉達的答案叫DreamZero。這是一種新型策略模型,在執行動作之前先往未來"做夢"幾秒鐘,然后根據夢境行動。DreamZero同時解碼下一幀畫面和下一步動作。在這里,視覺和動作第一次真正成為了"一等公民"。
Jim坦率地承認DreamZero目前做不到每個任務都100%可靠。"它大概相當于GPT-2的階段,方向對了,但表現還不夠穩定可靠。"他給這個新架構起名叫WAM(World Action Models,世界動作模型)。
數據革命:從遙操作到"機器人不用參與的數據采集"
過去三年是遙操作(teleop)的黃金時代。但遙操作有一個硬上限:每臺機器人每天24小時。
"我說一天24小時,那是騙自己的。實際一天能干3小時就不錯了,還得看當天的'機器人之神'賞不賞臉——畢竟這幫機器天天鬧脾氣出毛病。"
怎么破局?把機器人的末端執行器直接戴在人手上,直接采集數據,完全繞過機器人本體。
英偉達方案是DexUMI,一種外骨骼裝置。用外骨骼數據訓練出的機器人策略可以完全自主運行,訓練數據里沒有任何遙操作數據。
EgoScale:21,000小時人類視頻和縮放定律
英偉達搞了一個叫EgoScale的數據集,包含21,000小時人類第一人稱視頻,涵蓋日常家務、辦公室工作、工業操作等場景。
團隊發現了靈巧操作的神經縮放定律:隨著預訓練數據量增加,模型在下游任務上的表現呈線性提升,擬合度R2 = 0.998。
這意味著什么?機器人學習也遵循和LLM類似的縮放規律——只要數據夠多,模型就能持續變強。
Dream Dojo:完全繞過物理引擎的神經仿真器
傳統機器人訓練需要在仿真環境里一遍遍試錯,但仿真器和真實世界總有差距。
Jim團隊的解決方案是Dream Dojo:用44,000小時人類視頻訓練出一個完全基于神經網絡的世界模型,徹底繞過傳統物理引擎。
這個神經仿真器能生成逼真的物理交互視頻,機器人在"夢境"里訓練,然后零樣本遷移到真實世界。
2040年終局:機器人自己造下一代
Jim給出了一個大膽預測:2040年前,機器人將完成"物理自動研究"——也就是機器人自己設計和制造下一代機器人。他對此的置信度是95%。
路徑已經很清晰:預訓練(世界模型)→對齊(動作微調)→強化學習(自我改進)→自動研究(機器人造機器人)。
這和LLM的發展軌跡幾乎一模一樣。唯一的區別是,LLM處理的是文本,WAM處理的是物理世界。
"如果你相信深度學習,深度學習就信你。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.