无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

LeCun、謝賽寧轉發世界模型方案:中關村學院ECCV2026—VLA-JEPA

0
分享至



依賴于有限機器人數據和大量人類數據,也能讓 VLA 模型更穩健嗎?

近期,來自中科大、北京中關村學院、上海交通大學,寧波東方理工大學等機構的團隊提出的 VLA-JEPA 給出了一個思路:不要再讓模型在像素空間里追逐“未來幀”,而是借鑒 Yann LeCun 等人提出的 JEPA 路線,在潛在表征空間中學習和預測世界狀態的變化。

作為首個移植到 lerobot 框架的 VLA 和世界模型結合的工作,經官方驗證 VLA-JEPA 僅使用 13 條軌跡就可以完成簡單的裝配任務,并獲得 LeCun,謝賽寧在社交平臺上的轉發關注。



相比逐像素重建,JEPA 式潛空間世界模型更關注場景結構、物體交互和動作導致的狀態轉移,能夠弱化背景、光照、視角變化和攝像機抖動等無關視覺噪聲。換句話說,VLA-JEPA 試圖讓模型從人類視頻和機器人演示中學到“動作如何改變世界”,而不是只記住畫面里哪些像素發生了變化。

這一思路與 LeCun 等人推動的 JEPA 潛空間預測路線,以及謝賽寧等人在自監督視覺表征學習中的相關探索一脈相承:相比直接重建像素,更關注從上下文中學習可遷移、可泛化的高層表征。



  • arXiv:https://arxiv.org/abs/2602.10098
  • 代碼:https://github.com/ginwind/VLA-JEPA
  • 項目主頁:https://ginwind.github.io/VLA-JEPA/
  • Hugging Face:https://huggingface.co/ginwind/VLA-JEPA

一句話看懂

VLA-JEPA 是一個面向 Vision-Language-Action 模型的 JEPA 式預訓練框架。它把人類視頻和機器人演示統一到“潛在世界模型”的訓練目標中:當前觀測經過 VLA 主干得到潛在動作 token,未來幀只通過目標編碼器提供監督信號,模型需要在 Latent Space 中預測未來狀態。

這套設計試圖解決過去 latent action 預訓練的核心偏差:模型容易學到像素變化,而不是動作導致的狀態轉移。尤其在互聯網視頻或人類演示視頻中,鏡頭移動、背景變化、無關物體運動可能比真正的操作信號更顯眼,導致所謂“潛在動作”退化為目標圖像的壓縮表示。

為什么需要這種方法

Latent Action 方法的必要性

對于 VLA(Vision-Language-Action)模型來說,真實機器人軌跡采集成本高、規模有限、任務覆蓋窄,而互聯網上的人類視頻和無標簽操作視頻卻極其豐富。而 latent action 方法正是希望利用無標簽操作視頻進行 VLA 預訓練。它希望從無動作標簽的視頻中學習“狀態如何變化”的中間表示,再把這種表示遷移到下游機器人控制任務中。換句話說,latent action 是連接大規模視頻數據與機器人動作策略的一座橋梁。

理想情況下,latent action 應該捕捉的是“動作相關的狀態轉移語義”,例如物體被推動、抓取、移動后環境狀態如何變化,而不是簡單記錄畫面中哪些像素發生了變化。但 VLA-JEPA 論文在 introduction 中指出,現有 latent-action 預訓練方法普遍存在以下四類問題。

問題 1:像素級目標容易讓表示偏向外觀,而不是動作

許多方法使用未來幀作為監督信號,比如直接預測未來像素,或者把相鄰幀之間的變化壓縮成一個 latent action。

問題在于,視頻中最顯著的變化往往不是動作本身,而是紋理、光照、背景、視角等視覺因素。這些因素變化大、容易預測,卻和機器人真正需要控制的自由度關系較弱。

因此,模型學到的 latent action 可能更像是“畫面變化編碼器”,而不是“動作語義表示”。

問題 2:真實世界視頻會放大無關運動噪聲

在人類視頻或互聯網視頻中,攝像機移動、背景變化、非因果物體運動等噪聲非常常見。

這些變化有時比真正由操作引起的狀態變化還要明顯。如果 latent action 目標主要依賴幀間差異,模型就會傾向于編碼這些強視覺信號,例如鏡頭晃動、背景移動,而不是編碼有意義的交互動態。

結果是,latent action 被噪聲運動主導,難以服務于機器人控制。

問題 3:信息泄漏會讓 latent action 退化

一些 latent-action pipeline 在訓練轉移模型時,會同時使用當前觀測和未來觀測,或者允許未來信息影響 action variable 的學習。

這種設計會引入一個捷徑:latent action 不需要解釋“狀態為什么會變”,只需要把未來本身編碼進去即可。

這樣得到的 latent action 可能在訓練損失上表現不錯,但語義上是空的。它對擬合訓練目標有用,卻不一定是可用于控制的動作因素。

問題 4:多階段訓練流程過于復雜

為了緩解上述問題,許多方法采用三階段甚至更多階段的訓練流程,例如先做表示預訓練,再學習或對齊 latent action,最后訓練策略模型。

這種 pipeline 增加了工程復雜度,也容易引入階段之間的不一致。不同階段的目標函數、數據分布和表示空間可能并不完全匹配,導致方法難以穩定訓練,也不利于清晰評估每個模塊到底帶來了什么收益。

方法:把未來當監督,而不是輸入



VLA-JEPA 框架。人類視頻階段使用 latent world modeling 的對齊損失,機器人數據階段額外加入動作預測損失。

具體而言,VLA-JEPA 采用 Qwen3-VL 作為 VLM 主干,引入可學習的 latent action token 表示相鄰狀態之間的轉移。視頻幀由 V-JEPA2 編碼器映射到世界狀態表示;預測器根據當前狀態和 latent action 預測未來 latent state,并與目標編碼器得到的未來狀態對齊。

在有機器人動作標注的數據上,方法進一步接入基于 flow matching 的動作頭,用于生成連續末端執行器軌跡。這樣,人類視頻負責提供動態知識,機器人軌跡負責把動態知識落到可執行動作上。訓練流程也比多階段 latent-action pipeline 更直接:先 JEPA 預訓練,再微調動作頭。

實驗:

三個仿真基準 + 一個真實機器人環境



LIBERO、LIBERO-Plus、SimplerEnv 與真實 Franka 機器人實驗

論文在 LIBERO、LIBERO-Plus、SimplerEnv 和真實 Franka 桌面操作任務上評估模型。預訓練階段使用 Something-Something-v2 中約 22 萬個人類視頻,以及 DROID 中約 7.6 萬條高質量機器人演示軌跡;LIBERO/LIBERO-Plus 微調只使用約 2000 條仿真專家演示;真實世界實驗使用三類任務共 100 條演示。

LIBERO&LIBERO-Plus:

分別達到97.2和78.1的平均成功率



在 LIBERO 上,VLA-JEPA 的平均成功率為 97.2,在 Object 和 LIBERO-10 兩個 suite 上取得最高結果。更值得注意的是,OpenVLA-OFT、pi0.5 等強基線依賴大量機器人數據,而 VLA-JEPA 試圖用更少的訓練數據拿到接近甚至更高的平均表現。



在具備多種擾動 OOD 的 LIBERO-Plus benchmark 上,VLA-JEPA 在 7 個擾動維度中有 5 個拿到最好結果,平均成功率 78.1,明顯高于 OpenVLA-OFT 的 69.6 和 pi0-Fast 的 61.6。論文作者認為,這說明 latent action 學到的不是單一視覺模板,而是更接近世界狀態變化的表示,這也反映出 VLA-JEPA 在魯棒性上的優勢。

SimplerEnv:

分別達到65.2和57.3的平均成功率



SimplerEnv 的結果也給出一個現實提醒:人類視頻并不是萬能靈藥。在若干視覺匹配任務上,去掉人類視頻后的模型甚至更高。這表明 VLA-JEPA 的主要價值不是憑空生成新動作技能,而是在高質量機器人數據的基礎上增強魯棒性和穩定性。

真實機器人:學到了失敗后的二次抓取



真實 Franka 機器人實驗結果

真實世界實驗使用 FR3 機械臂、Robotiq 夾爪(2F-85)和三臺 D435 攝像頭,訓練集包含 100 條桌面抓取/放置演示。論文設置了 ID、任務 OOD 和布局 OOD 三類評估。

相較 pi0 與 pi0.5,VLA-JEPA 在真實操作中呈現出一個有意思的現象:當第一次抓取失敗后,模型會重新打開夾爪并嘗試二次抓取,而對比模型沒有穩定出現這一行為。



視頻鏈接:https://mp.weixin.qq.com/s/FV2M9myazol7wzwoBkyaOA

作者將其歸因于人類視頻中的重復抓取知識:人類操作中失敗后調整再抓的片段更常見,而機器人演示數據通常不會刻意覆蓋這種恢復行為。這也是 VLA-JEPA 路線最有報道價值的地方:人類視頻不一定直接教會機器人控制,但可能補足現實世界中“如何補救”的常識。

消融:人類視頻主要提升穩定性



人類視頻比例對 LIBERO-Plus 不同擾動維度成功率的影響。

在人類視頻比例實驗中,隨著人類視頻規模上升,LIBERO-Plus 的魯棒性整體改善。論文的解釋是,人類視頻更像是在強化模型已有技能庫的穩定性,而不是直接引入新的動作執行能力。換句話說,VLA-JEPA 把人類視頻從“動作標簽替代品”重新定位為“世界動態先驗”,同時也使得 VLA 模型具備更高的數據效率。

結語

具身智能的核心,不只是讓模型“看懂”世界,而是讓它能夠理解動作會如何改變世界。對于機器人而言,視覺、語言和動作并不是彼此孤立的模塊:語言給出目標,視覺提供狀態,動作則通過物理交互改變環境。世界模型的價值,正是在這三者之間建立可預測的動態關系。

VLA-JEPA 的關鍵意義在于,它沒有把人類視頻簡單當作“缺少動作標簽的機器人數據”,而是把它作為學習世界動態的來源。潛在世界模型在這里承擔了一個中間層角色:它把原始像素變化壓縮為更抽象的狀態轉移表示,讓模型關注“什么變化與動作有關”,而不是被光照、背景、視角、相機運動等無關因素牽著走。

這種潛在空間中的預測目標,也讓世界模型更適合與 VLA 結合。相比直接預測未來像素,預測未來 latent state 更接近具身智能真正需要的能力:在當前觀測和潛在動作條件下,估計環境接下來會進入什么狀態。換句話說,潛在世界模型把“視頻中的變化”轉化為“可用于控制的動態先驗”。

當然,VLA-JEPA 并沒有證明人類視頻可以替代高質量機器人數據。相反,它更清楚地說明了二者的分工:機器人數據提供可執行的動作 grounding,人類視頻和互聯網視頻則提供更廣泛的世界動態經驗。未來如果具身智能要繼續擴展,關鍵問題可能不再只是收集更多機器人軌跡,而是如何把大規模視覺世界經驗轉化為機器人可調用、可預測、可泛化的潛在世界模型。

作者團隊及合作單位

VLA-JEPA 依托北京中關村學院“高效通用跨尺度空間智能世界模型”項目完成研究,第一作者為北京中關村學院&中國科學技術大學聯培博士生孫景文,上海交通大學&寧波東方理工大學聯培博士生張文垚。通訊作者為寧波東方理工大學助理教授、北京中關村學院共建導師金鑫,以及中國科學技術大學教授、北京中關村學院共建導師陳志波。研究團隊長期聚焦具身領域世界模型的前沿研究。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比亞迪官宣:6月23日,新車正式上市!

比亞迪官宣:6月23日,新車正式上市!

科技堡壘
2026-06-23 10:00:46
與梅西一同慶祝記者:這是我的人生照片!我手機的消息都快爆了

與梅西一同慶祝記者:這是我的人生照片!我手機的消息都快爆了

云隱南山
2026-06-23 16:10:12
終于有經濟學家批評體制內退休金太高、加劇代際矛盾,評論區炸鍋

終于有經濟學家批評體制內退休金太高、加劇代際矛盾,評論區炸鍋

慧翔百科
2026-06-23 08:47:02
好猛,強回波靠近!明天大轉折!臺風消息!

好猛,強回波靠近!明天大轉折!臺風消息!

浙江天氣
2026-06-23 18:24:09
恐怖?哈蘭德國家隊52場59球 世界杯生涯前2場均雙響+狂刷6大紀錄

恐怖?哈蘭德國家隊52場59球 世界杯生涯前2場均雙響+狂刷6大紀錄

我愛英超
2026-06-23 10:03:17
曾被云南鎮雄縣公安局原副局長舉報偽造、篡改筆錄,涉事辦案人員已不再擔任縣信訪局局長職務

曾被云南鎮雄縣公安局原副局長舉報偽造、篡改筆錄,涉事辦案人員已不再擔任縣信訪局局長職務

大風新聞
2026-06-23 11:32:12
二婚帶娃女子要了40萬彩禮、116克黃金和80萬婚房,現在不結婚也不退錢!在杭打工父子求助都市快報:怎么辦?

二婚帶娃女子要了40萬彩禮、116克黃金和80萬婚房,現在不結婚也不退錢!在杭打工父子求助都市快報:怎么辦?

都市快報橙柿互動
2026-06-23 01:56:17
大羅:梅西已經超越了所有前輩,我38歲體重都漲到120公斤了

大羅:梅西已經超越了所有前輩,我38歲體重都漲到120公斤了

懂球帝
2026-06-23 14:29:34
成年球員圍毆U15希望之星,中國足球已經下作成這樣

成年球員圍毆U15希望之星,中國足球已經下作成這樣

曉看說
2026-06-22 23:06:01
江蘇執法人員開公車收禮被監控拍下,12345舉報后竟被要求做偽證

江蘇執法人員開公車收禮被監控拍下,12345舉報后竟被要求做偽證

聽心堂
2026-06-23 16:38:07
世界杯奪冠走勢越來越明朗了,這六支隊之外,基本可以洗洗睡

世界杯奪冠走勢越來越明朗了,這六支隊之外,基本可以洗洗睡

觀星娛記
2026-06-23 11:45:26
成都舞廳最新通告,嚴禁剪刀手!部分舞吧僅10元,退休群體享特惠

成都舞廳最新通告,嚴禁剪刀手!部分舞吧僅10元,退休群體享特惠

火山詩話
2026-06-23 17:28:47
商家:今年吃楊梅的都賺到了!福建“泡藥楊梅”事件后,一箱浙江楊梅從138元跌到110元

商家:今年吃楊梅的都賺到了!福建“泡藥楊梅”事件后,一箱浙江楊梅從138元跌到110元

第一財經資訊
2026-06-23 16:47:29
相當炸裂 !女子試衣遭孩童掀開簾,全身裸露,被多名男性圍觀!

相當炸裂 !女子試衣遭孩童掀開簾,全身裸露,被多名男性圍觀!

阿玲詩話
2026-06-22 21:07:47
網友吐槽“被WPS背刺了”,公司回應

網友吐槽“被WPS背刺了”,公司回應

南方都市報
2026-06-23 20:17:09
車主稱踩下剎車,特斯拉反而加速,路口“飆到110km/h”:保險還沒生效就撞報廢了;特斯拉方回復:事發前沒有發現制動系統異常

車主稱踩下剎車,特斯拉反而加速,路口“飆到110km/h”:保險還沒生效就撞報廢了;特斯拉方回復:事發前沒有發現制動系統異常

極目新聞
2026-06-23 13:25:20
廣德車禍家屬稱兩小孩已經去世,肇事女司機被帶走時都快哭了

廣德車禍家屬稱兩小孩已經去世,肇事女司機被帶走時都快哭了

映射生活的身影
2026-06-23 16:28:07
世界杯32強決出6席!阿根廷進天堂半區,避開5大前冠軍,4強穩了

世界杯32強決出6席!阿根廷進天堂半區,避開5大前冠軍,4強穩了

球場沒跑道
2026-06-23 17:17:48
達成了!重磅3方大交易!籃網徹底告別里夫斯

達成了!重磅3方大交易!籃網徹底告別里夫斯

籃球實戰寶典
2026-06-23 14:56:53
阿爾及利亞2比1約旦,“救贖之戰”完成逆轉掌握出線主動權

阿爾及利亞2比1約旦,“救贖之戰”完成逆轉掌握出線主動權

澎湃新聞
2026-06-23 13:02:28
2026-06-23 20:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13339文章數 142677關注度
往期回顧 全部

科技要聞

48名中國開發者聯名舉報蘋果

頭條要聞

17歲女孩被閨蜜持刀刺成重傷對方自殺身亡 警方已撤案

頭條要聞

17歲女孩被閨蜜持刀刺成重傷對方自殺身亡 警方已撤案

體育要聞

揚尼斯去了邁阿密:凱爾特人怎么辦?

娛樂要聞

內娛95后頂流格局發生潛移默化的變化

財經要聞

屋頂光伏度苦夏

汽車要聞

華為智駕ADS限時優惠月底結束 7月1日前下訂立省3000元

態度原創

教育
本地
時尚
房產
手機

教育要聞

2026天津高考分數線公布!本科線458!特控線547!較去年降低!

本地新聞

吃一次廣東龍舟飯,才懂什么是豪華盛宴

除了瑪麗珍、薄底鞋,今年最火的鞋子就是它了

房產要聞

洞察新局|預算不變 居住升級 2026廣州置業成本觀察

手機要聞

realme P4x 4G手機海外發布:8000mAh電池,6.8寸720P高刷屏

無障礙瀏覽 進入關懷版