網易首頁 > 網易號 > 正文申請入駐

LeCun、謝賽寧轉發世界模型方案：中關村學院ECCV2026—VLA-JEPA

2026-06-23 19:06:55　來源: 機器之心Pro

天津舉報

分享至

依賴于有限機器人數據和大量人類數據，也能讓 VLA 模型更穩健嗎？

近期，來自中科大、北京中關村學院、上海交通大學，寧波東方理工大學等機構的團隊提出的 VLA-JEPA 給出了一個思路：不要再讓模型在像素空間里追逐“未來幀”，而是借鑒 Yann LeCun 等人提出的 JEPA 路線，在潛在表征空間中學習和預測世界狀態的變化。

作為首個移植到 lerobot 框架的 VLA 和世界模型結合的工作，經官方驗證 VLA-JEPA 僅使用 13 條軌跡就可以完成簡單的裝配任務，并獲得 LeCun，謝賽寧在社交平臺上的轉發關注。

相比逐像素重建，JEPA 式潛空間世界模型更關注場景結構、物體交互和動作導致的狀態轉移，能夠弱化背景、光照、視角變化和攝像機抖動等無關視覺噪聲。換句話說，VLA-JEPA 試圖讓模型從人類視頻和機器人演示中學到“動作如何改變世界”，而不是只記住畫面里哪些像素發生了變化。

這一思路與 LeCun 等人推動的 JEPA 潛空間預測路線，以及謝賽寧等人在自監督視覺表征學習中的相關探索一脈相承：相比直接重建像素，更關注從上下文中學習可遷移、可泛化的高層表征。

arXiv：https://arxiv.org/abs/2602.10098
代碼：https://github.com/ginwind/VLA-JEPA
項目主頁：https://ginwind.github.io/VLA-JEPA/
Hugging Face：https://huggingface.co/ginwind/VLA-JEPA

一句話看懂

VLA-JEPA 是一個面向 Vision-Language-Action 模型的 JEPA 式預訓練框架。它把人類視頻和機器人演示統一到“潛在世界模型”的訓練目標中：當前觀測經過 VLA 主干得到潛在動作 token，未來幀只通過目標編碼器提供監督信號，模型需要在 Latent Space 中預測未來狀態。

這套設計試圖解決過去 latent action 預訓練的核心偏差：模型容易學到像素變化，而不是動作導致的狀態轉移。尤其在互聯網視頻或人類演示視頻中，鏡頭移動、背景變化、無關物體運動可能比真正的操作信號更顯眼，導致所謂“潛在動作”退化為目標圖像的壓縮表示。

為什么需要這種方法

Latent Action 方法的必要性

對于 VLA（Vision-Language-Action）模型來說，真實機器人軌跡采集成本高、規模有限、任務覆蓋窄，而互聯網上的人類視頻和無標簽操作視頻卻極其豐富。而 latent action 方法正是希望利用無標簽操作視頻進行 VLA 預訓練。它希望從無動作標簽的視頻中學習“狀態如何變化”的中間表示，再把這種表示遷移到下游機器人控制任務中。換句話說，latent action 是連接大規模視頻數據與機器人動作策略的一座橋梁。

理想情況下，latent action 應該捕捉的是“動作相關的狀態轉移語義”，例如物體被推動、抓取、移動后環境狀態如何變化，而不是簡單記錄畫面中哪些像素發生了變化。但 VLA-JEPA 論文在 introduction 中指出，現有 latent-action 預訓練方法普遍存在以下四類問題。

問題 1：像素級目標容易讓表示偏向外觀，而不是動作

許多方法使用未來幀作為監督信號，比如直接預測未來像素，或者把相鄰幀之間的變化壓縮成一個 latent action。

問題在于，視頻中最顯著的變化往往不是動作本身，而是紋理、光照、背景、視角等視覺因素。這些因素變化大、容易預測，卻和機器人真正需要控制的自由度關系較弱。

因此，模型學到的 latent action 可能更像是“畫面變化編碼器”，而不是“動作語義表示”。

問題 2：真實世界視頻會放大無關運動噪聲

在人類視頻或互聯網視頻中，攝像機移動、背景變化、非因果物體運動等噪聲非常常見。

這些變化有時比真正由操作引起的狀態變化還要明顯。如果 latent action 目標主要依賴幀間差異，模型就會傾向于編碼這些強視覺信號，例如鏡頭晃動、背景移動，而不是編碼有意義的交互動態。

結果是，latent action 被噪聲運動主導，難以服務于機器人控制。

問題 3：信息泄漏會讓 latent action 退化

一些 latent-action pipeline 在訓練轉移模型時，會同時使用當前觀測和未來觀測，或者允許未來信息影響 action variable 的學習。

這種設計會引入一個捷徑：latent action 不需要解釋“狀態為什么會變”，只需要把未來本身編碼進去即可。

這樣得到的 latent action 可能在訓練損失上表現不錯，但語義上是空的。它對擬合訓練目標有用，卻不一定是可用于控制的動作因素。

問題 4：多階段訓練流程過于復雜

為了緩解上述問題，許多方法采用三階段甚至更多階段的訓練流程，例如先做表示預訓練，再學習或對齊 latent action，最后訓練策略模型。

這種 pipeline 增加了工程復雜度，也容易引入階段之間的不一致。不同階段的目標函數、數據分布和表示空間可能并不完全匹配，導致方法難以穩定訓練，也不利于清晰評估每個模塊到底帶來了什么收益。

方法：把未來當監督，而不是輸入

VLA-JEPA 框架。人類視頻階段使用 latent world modeling 的對齊損失，機器人數據階段額外加入動作預測損失。

具體而言，VLA-JEPA 采用 Qwen3-VL 作為 VLM 主干，引入可學習的 latent action token 表示相鄰狀態之間的轉移。視頻幀由 V-JEPA2 編碼器映射到世界狀態表示；預測器根據當前狀態和 latent action 預測未來 latent state，并與目標編碼器得到的未來狀態對齊。

在有機器人動作標注的數據上，方法進一步接入基于 flow matching 的動作頭，用于生成連續末端執行器軌跡。這樣，人類視頻負責提供動態知識，機器人軌跡負責把動態知識落到可執行動作上。訓練流程也比多階段 latent-action pipeline 更直接：先 JEPA 預訓練，再微調動作頭。

實驗：

三個仿真基準 + 一個真實機器人環境

LIBERO、LIBERO-Plus、SimplerEnv 與真實 Franka 機器人實驗

論文在 LIBERO、LIBERO-Plus、SimplerEnv 和真實 Franka 桌面操作任務上評估模型。預訓練階段使用 Something-Something-v2 中約 22 萬個人類視頻，以及 DROID 中約 7.6 萬條高質量機器人演示軌跡；LIBERO/LIBERO-Plus 微調只使用約 2000 條仿真專家演示；真實世界實驗使用三類任務共 100 條演示。

LIBERO&LIBERO-Plus：

分別達到97.2和78.1的平均成功率

在 LIBERO 上，VLA-JEPA 的平均成功率為 97.2，在 Object 和 LIBERO-10 兩個 suite 上取得最高結果。更值得注意的是，OpenVLA-OFT、pi0.5 等強基線依賴大量機器人數據，而 VLA-JEPA 試圖用更少的訓練數據拿到接近甚至更高的平均表現。

在具備多種擾動 OOD 的 LIBERO-Plus benchmark 上，VLA-JEPA 在 7 個擾動維度中有 5 個拿到最好結果，平均成功率 78.1，明顯高于 OpenVLA-OFT 的 69.6 和 pi0-Fast 的 61.6。論文作者認為，這說明 latent action 學到的不是單一視覺模板，而是更接近世界狀態變化的表示，這也反映出 VLA-JEPA 在魯棒性上的優勢。

SimplerEnv：

分別達到65.2和57.3的平均成功率

SimplerEnv 的結果也給出一個現實提醒：人類視頻并不是萬能靈藥。在若干視覺匹配任務上，去掉人類視頻后的模型甚至更高。這表明 VLA-JEPA 的主要價值不是憑空生成新動作技能，而是在高質量機器人數據的基礎上增強魯棒性和穩定性。

真實機器人：學到了失敗后的二次抓取

真實 Franka 機器人實驗結果

真實世界實驗使用 FR3 機械臂、Robotiq 夾爪（2F-85）和三臺 D435 攝像頭，訓練集包含 100 條桌面抓取/放置演示。論文設置了 ID、任務 OOD 和布局 OOD 三類評估。

相較 pi0 與 pi0.5，VLA-JEPA 在真實操作中呈現出一個有意思的現象：當第一次抓取失敗后，模型會重新打開夾爪并嘗試二次抓取，而對比模型沒有穩定出現這一行為。

視頻鏈接：https://mp.weixin.qq.com/s/FV2M9myazol7wzwoBkyaOA

作者將其歸因于人類視頻中的重復抓取知識：人類操作中失敗后調整再抓的片段更常見，而機器人演示數據通常不會刻意覆蓋這種恢復行為。這也是 VLA-JEPA 路線最有報道價值的地方：人類視頻不一定直接教會機器人控制，但可能補足現實世界中“如何補救”的常識。

消融：人類視頻主要提升穩定性

人類視頻比例對 LIBERO-Plus 不同擾動維度成功率的影響。

在人類視頻比例實驗中，隨著人類視頻規模上升，LIBERO-Plus 的魯棒性整體改善。論文的解釋是，人類視頻更像是在強化模型已有技能庫的穩定性，而不是直接引入新的動作執行能力。換句話說，VLA-JEPA 把人類視頻從“動作標簽替代品”重新定位為“世界動態先驗”，同時也使得 VLA 模型具備更高的數據效率。

結語

具身智能的核心，不只是讓模型“看懂”世界，而是讓它能夠理解動作會如何改變世界。對于機器人而言，視覺、語言和動作并不是彼此孤立的模塊：語言給出目標，視覺提供狀態，動作則通過物理交互改變環境。世界模型的價值，正是在這三者之間建立可預測的動態關系。

VLA-JEPA 的關鍵意義在于，它沒有把人類視頻簡單當作“缺少動作標簽的機器人數據”，而是把它作為學習世界動態的來源。潛在世界模型在這里承擔了一個中間層角色：它把原始像素變化壓縮為更抽象的狀態轉移表示，讓模型關注“什么變化與動作有關”，而不是被光照、背景、視角、相機運動等無關因素牽著走。

這種潛在空間中的預測目標，也讓世界模型更適合與 VLA 結合。相比直接預測未來像素，預測未來 latent state 更接近具身智能真正需要的能力：在當前觀測和潛在動作條件下，估計環境接下來會進入什么狀態。換句話說，潛在世界模型把“視頻中的變化”轉化為“可用于控制的動態先驗”。

當然，VLA-JEPA 并沒有證明人類視頻可以替代高質量機器人數據。相反，它更清楚地說明了二者的分工：機器人數據提供可執行的動作 grounding，人類視頻和互聯網視頻則提供更廣泛的世界動態經驗。未來如果具身智能要繼續擴展，關鍵問題可能不再只是收集更多機器人軌跡，而是如何把大規模視覺世界經驗轉化為機器人可調用、可預測、可泛化的潛在世界模型。

作者團隊及合作單位

VLA-JEPA 依托北京中關村學院“高效通用跨尺度空間智能世界模型”項目完成研究，第一作者為北京中關村學院&中國科學技術大學聯培博士生孫景文，上海交通大學&寧波東方理工大學聯培博士生張文垚。通訊作者為寧波東方理工大學助理教授、北京中關村學院共建導師金鑫，以及中國科學技術大學教授、北京中關村學院共建導師陳志波。研究團隊長期聚焦具身領域世界模型的前沿研究。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.