![]()
依賴于有限機器人數據和大量人類數據,也能讓 VLA 模型更穩健嗎?
近期,來自中科大、北京中關村學院、上海交通大學,寧波東方理工大學等機構的團隊提出的 VLA-JEPA 給出了一個思路:不要再讓模型在像素空間里追逐“未來幀”,而是借鑒 Yann LeCun 等人提出的 JEPA 路線,在潛在表征空間中學習和預測世界狀態的變化。
作為首個移植到 lerobot 框架的 VLA 和世界模型結合的工作,經官方驗證 VLA-JEPA 僅使用 13 條軌跡就可以完成簡單的裝配任務,并獲得 LeCun,謝賽寧在社交平臺上的轉發關注。
![]()
相比逐像素重建,JEPA 式潛空間世界模型更關注場景結構、物體交互和動作導致的狀態轉移,能夠弱化背景、光照、視角變化和攝像機抖動等無關視覺噪聲。換句話說,VLA-JEPA 試圖讓模型從人類視頻和機器人演示中學到“動作如何改變世界”,而不是只記住畫面里哪些像素發生了變化。
這一思路與 LeCun 等人推動的 JEPA 潛空間預測路線,以及謝賽寧等人在自監督視覺表征學習中的相關探索一脈相承:相比直接重建像素,更關注從上下文中學習可遷移、可泛化的高層表征。
![]()
- arXiv:https://arxiv.org/abs/2602.10098
- 代碼:https://github.com/ginwind/VLA-JEPA
- 項目主頁:https://ginwind.github.io/VLA-JEPA/
- Hugging Face:https://huggingface.co/ginwind/VLA-JEPA
一句話看懂
VLA-JEPA 是一個面向 Vision-Language-Action 模型的 JEPA 式預訓練框架。它把人類視頻和機器人演示統一到“潛在世界模型”的訓練目標中:當前觀測經過 VLA 主干得到潛在動作 token,未來幀只通過目標編碼器提供監督信號,模型需要在 Latent Space 中預測未來狀態。
這套設計試圖解決過去 latent action 預訓練的核心偏差:模型容易學到像素變化,而不是動作導致的狀態轉移。尤其在互聯網視頻或人類演示視頻中,鏡頭移動、背景變化、無關物體運動可能比真正的操作信號更顯眼,導致所謂“潛在動作”退化為目標圖像的壓縮表示。
為什么需要這種方法
Latent Action 方法的必要性
對于 VLA(Vision-Language-Action)模型來說,真實機器人軌跡采集成本高、規模有限、任務覆蓋窄,而互聯網上的人類視頻和無標簽操作視頻卻極其豐富。而 latent action 方法正是希望利用無標簽操作視頻進行 VLA 預訓練。它希望從無動作標簽的視頻中學習“狀態如何變化”的中間表示,再把這種表示遷移到下游機器人控制任務中。換句話說,latent action 是連接大規模視頻數據與機器人動作策略的一座橋梁。
理想情況下,latent action 應該捕捉的是“動作相關的狀態轉移語義”,例如物體被推動、抓取、移動后環境狀態如何變化,而不是簡單記錄畫面中哪些像素發生了變化。但 VLA-JEPA 論文在 introduction 中指出,現有 latent-action 預訓練方法普遍存在以下四類問題。
問題 1:像素級目標容易讓表示偏向外觀,而不是動作
許多方法使用未來幀作為監督信號,比如直接預測未來像素,或者把相鄰幀之間的變化壓縮成一個 latent action。
問題在于,視頻中最顯著的變化往往不是動作本身,而是紋理、光照、背景、視角等視覺因素。這些因素變化大、容易預測,卻和機器人真正需要控制的自由度關系較弱。
因此,模型學到的 latent action 可能更像是“畫面變化編碼器”,而不是“動作語義表示”。
問題 2:真實世界視頻會放大無關運動噪聲
在人類視頻或互聯網視頻中,攝像機移動、背景變化、非因果物體運動等噪聲非常常見。
這些變化有時比真正由操作引起的狀態變化還要明顯。如果 latent action 目標主要依賴幀間差異,模型就會傾向于編碼這些強視覺信號,例如鏡頭晃動、背景移動,而不是編碼有意義的交互動態。
結果是,latent action 被噪聲運動主導,難以服務于機器人控制。
問題 3:信息泄漏會讓 latent action 退化
一些 latent-action pipeline 在訓練轉移模型時,會同時使用當前觀測和未來觀測,或者允許未來信息影響 action variable 的學習。
這種設計會引入一個捷徑:latent action 不需要解釋“狀態為什么會變”,只需要把未來本身編碼進去即可。
這樣得到的 latent action 可能在訓練損失上表現不錯,但語義上是空的。它對擬合訓練目標有用,卻不一定是可用于控制的動作因素。
問題 4:多階段訓練流程過于復雜
為了緩解上述問題,許多方法采用三階段甚至更多階段的訓練流程,例如先做表示預訓練,再學習或對齊 latent action,最后訓練策略模型。
這種 pipeline 增加了工程復雜度,也容易引入階段之間的不一致。不同階段的目標函數、數據分布和表示空間可能并不完全匹配,導致方法難以穩定訓練,也不利于清晰評估每個模塊到底帶來了什么收益。
方法:把未來當監督,而不是輸入
![]()
VLA-JEPA 框架。人類視頻階段使用 latent world modeling 的對齊損失,機器人數據階段額外加入動作預測損失。
具體而言,VLA-JEPA 采用 Qwen3-VL 作為 VLM 主干,引入可學習的 latent action token 表示相鄰狀態之間的轉移。視頻幀由 V-JEPA2 編碼器映射到世界狀態表示;預測器根據當前狀態和 latent action 預測未來 latent state,并與目標編碼器得到的未來狀態對齊。
在有機器人動作標注的數據上,方法進一步接入基于 flow matching 的動作頭,用于生成連續末端執行器軌跡。這樣,人類視頻負責提供動態知識,機器人軌跡負責把動態知識落到可執行動作上。訓練流程也比多階段 latent-action pipeline 更直接:先 JEPA 預訓練,再微調動作頭。
實驗:
三個仿真基準 + 一個真實機器人環境
![]()
LIBERO、LIBERO-Plus、SimplerEnv 與真實 Franka 機器人實驗
論文在 LIBERO、LIBERO-Plus、SimplerEnv 和真實 Franka 桌面操作任務上評估模型。預訓練階段使用 Something-Something-v2 中約 22 萬個人類視頻,以及 DROID 中約 7.6 萬條高質量機器人演示軌跡;LIBERO/LIBERO-Plus 微調只使用約 2000 條仿真專家演示;真實世界實驗使用三類任務共 100 條演示。
LIBERO&LIBERO-Plus:
分別達到97.2和78.1的平均成功率
![]()
在 LIBERO 上,VLA-JEPA 的平均成功率為 97.2,在 Object 和 LIBERO-10 兩個 suite 上取得最高結果。更值得注意的是,OpenVLA-OFT、pi0.5 等強基線依賴大量機器人數據,而 VLA-JEPA 試圖用更少的訓練數據拿到接近甚至更高的平均表現。
![]()
在具備多種擾動 OOD 的 LIBERO-Plus benchmark 上,VLA-JEPA 在 7 個擾動維度中有 5 個拿到最好結果,平均成功率 78.1,明顯高于 OpenVLA-OFT 的 69.6 和 pi0-Fast 的 61.6。論文作者認為,這說明 latent action 學到的不是單一視覺模板,而是更接近世界狀態變化的表示,這也反映出 VLA-JEPA 在魯棒性上的優勢。
SimplerEnv:
分別達到65.2和57.3的平均成功率
![]()
SimplerEnv 的結果也給出一個現實提醒:人類視頻并不是萬能靈藥。在若干視覺匹配任務上,去掉人類視頻后的模型甚至更高。這表明 VLA-JEPA 的主要價值不是憑空生成新動作技能,而是在高質量機器人數據的基礎上增強魯棒性和穩定性。
真實機器人:學到了失敗后的二次抓取
![]()
真實 Franka 機器人實驗結果
真實世界實驗使用 FR3 機械臂、Robotiq 夾爪(2F-85)和三臺 D435 攝像頭,訓練集包含 100 條桌面抓取/放置演示。論文設置了 ID、任務 OOD 和布局 OOD 三類評估。
相較 pi0 與 pi0.5,VLA-JEPA 在真實操作中呈現出一個有意思的現象:當第一次抓取失敗后,模型會重新打開夾爪并嘗試二次抓取,而對比模型沒有穩定出現這一行為。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/FV2M9myazol7wzwoBkyaOA
作者將其歸因于人類視頻中的重復抓取知識:人類操作中失敗后調整再抓的片段更常見,而機器人演示數據通常不會刻意覆蓋這種恢復行為。這也是 VLA-JEPA 路線最有報道價值的地方:人類視頻不一定直接教會機器人控制,但可能補足現實世界中“如何補救”的常識。
消融:人類視頻主要提升穩定性
![]()
人類視頻比例對 LIBERO-Plus 不同擾動維度成功率的影響。
在人類視頻比例實驗中,隨著人類視頻規模上升,LIBERO-Plus 的魯棒性整體改善。論文的解釋是,人類視頻更像是在強化模型已有技能庫的穩定性,而不是直接引入新的動作執行能力。換句話說,VLA-JEPA 把人類視頻從“動作標簽替代品”重新定位為“世界動態先驗”,同時也使得 VLA 模型具備更高的數據效率。
結語
具身智能的核心,不只是讓模型“看懂”世界,而是讓它能夠理解動作會如何改變世界。對于機器人而言,視覺、語言和動作并不是彼此孤立的模塊:語言給出目標,視覺提供狀態,動作則通過物理交互改變環境。世界模型的價值,正是在這三者之間建立可預測的動態關系。
VLA-JEPA 的關鍵意義在于,它沒有把人類視頻簡單當作“缺少動作標簽的機器人數據”,而是把它作為學習世界動態的來源。潛在世界模型在這里承擔了一個中間層角色:它把原始像素變化壓縮為更抽象的狀態轉移表示,讓模型關注“什么變化與動作有關”,而不是被光照、背景、視角、相機運動等無關因素牽著走。
這種潛在空間中的預測目標,也讓世界模型更適合與 VLA 結合。相比直接預測未來像素,預測未來 latent state 更接近具身智能真正需要的能力:在當前觀測和潛在動作條件下,估計環境接下來會進入什么狀態。換句話說,潛在世界模型把“視頻中的變化”轉化為“可用于控制的動態先驗”。
當然,VLA-JEPA 并沒有證明人類視頻可以替代高質量機器人數據。相反,它更清楚地說明了二者的分工:機器人數據提供可執行的動作 grounding,人類視頻和互聯網視頻則提供更廣泛的世界動態經驗。未來如果具身智能要繼續擴展,關鍵問題可能不再只是收集更多機器人軌跡,而是如何把大規模視覺世界經驗轉化為機器人可調用、可預測、可泛化的潛在世界模型。
作者團隊及合作單位
VLA-JEPA 依托北京中關村學院“高效通用跨尺度空間智能世界模型”項目完成研究,第一作者為北京中關村學院&中國科學技術大學聯培博士生孫景文,上海交通大學&寧波東方理工大學聯培博士生張文垚。通訊作者為寧波東方理工大學助理教授、北京中關村學院共建導師金鑫,以及中國科學技術大學教授、北京中關村學院共建導師陳志波。研究團隊長期聚焦具身領域世界模型的前沿研究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.