網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

港中文李鴻升團隊論文 MindVLA-U1：VLA 不再輸給 VA，語言真正進入自動駕駛決策

2026-05-25 12:34:00　來源: AI科技評論

廣東舉報

分享至

MindVLA-U1：統(tǒng)一視覺語言動作架構(gòu)，實現(xiàn)理解后規(guī)劃。

作者丨鄭佳美

編輯丨馬曉寧

在自動駕駛進入大模型時代之后，行業(yè)正在從傳統(tǒng)的“感知、預(yù)測、規(guī)劃、控制”模塊化流水線，逐步轉(zhuǎn)向端到端智能系統(tǒng)。

過去，VA 模型能夠直接從視覺輸入生成駕駛軌跡，在規(guī)劃精度和實時性上表現(xiàn)突出，但它們更多依賴隱式視覺特征，很難清楚解釋“為什么這樣開”，也難以處理那些需要語義理解和常識推理的長尾場景。

比如車輛行駛在狹窄居民區(qū)道路上，兩側(cè)停滿車輛，前方可能有行人突然從車縫中出現(xiàn)；又比如在無保護左轉(zhuǎn)路口，系統(tǒng)不僅要判斷對向來車速度，還要理解讓行關(guān)系和潛在風(fēng)險；再比如施工區(qū)域、臨停車輛、單純依靠視覺到軌跡的映射往往不夠，自動駕駛系統(tǒng)還需要像人類司機一樣理解場景含義，再把理解轉(zhuǎn)化為可執(zhí)行的連續(xù)控制動作。

在這種背景下，VLA 被認為是更接近“會理解、會解釋、會行動”的自動駕駛方向，但此前很多 VLA 方法又面臨一個現(xiàn)實問題：語言能力引入后，規(guī)劃精度、動作連續(xù)性和推理速度往往難以同時保證。

正是在這種行業(yè)矛盾下，香港中文大學(xué) MMLab、理想汽車和清華大學(xué)的聯(lián)合研究團隊提出了《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》這項研究。

研究試圖回答一個關(guān)鍵問題：自動駕駛中的語言理解，究竟能不能真正幫助動作規(guī)劃，而不是只作為解釋文本存在。圍繞這一問題，研究團隊沒有簡單地擴大模型規(guī)模，而是從架構(gòu)接口入手，把視覺、語言、車輛狀態(tài)、歷史記憶和動作生成統(tǒng)一到同一個 VLM backbone 中，讓模型既能理解道路場景，也能直接生成連續(xù)駕駛軌跡。

更重要的是，研究通過 Intent-CFG 讓語言側(cè)預(yù)測出的駕駛意圖參與軌跡生成，通過 streaming memory 讓模型像真實車輛一樣逐幀處理連續(xù)視頻流，并通過快 / 慢推理路徑在實時控制和語義推理之間切換。

也就是說，當?shù)缆穲鼍昂唵螘r，系統(tǒng)可以快速給出動作；當場景復(fù)雜、風(fēng)險較高或需要解釋時，系統(tǒng)可以保留語言推理能力，再生成更有語義依據(jù)的駕駛軌跡。這使得研究不只是一次模型指標提升，更是在探索自動駕駛從“看見后執(zhí)行”走向“理解后行動”的一種新架構(gòu)路線。

論文地址：https://arxiv.org/pdf/2605.12624

當 VLA 開始超過 VA

實驗結(jié)果顯示，MindVLA-U1 在 WOD-E2E 自動駕駛 benchmark 上取得了較強的整體規(guī)劃效果，尤其是在加入 RL 后，驗證集 RFS 達到 8.20，而人類駕駛參考軌跡的 RFS 是 8.13，說明模型在開放環(huán)評測中生成的軌跡質(zhì)量已經(jīng)超過人類駕駛參考，體現(xiàn)出研究團隊提出的統(tǒng)一 VLA 架構(gòu)在軌跡規(guī)劃上的優(yōu)勢。

在官方測試集中，MindVLA-U1 + RL 的 RFS 達到 7.87，取得最高表現(xiàn)，同時 RFS-GT ADE 達到 1.09 / 2.66 m，軌跡誤差低于多數(shù)已有 VA 和 VLA 方法，說明這種方法并不是只在驗證集上有效，在隱藏測試集上也具有較好的泛化能力。

語言對動作的影響也得到了實驗驗證，普通 MindVLA-U1 的 RFS 是 7.83，加入 NTP 預(yù)測 intent 后，RFS 提升到 7.92，說明語言側(cè)預(yù)測出的駕駛意圖可以通過 Intent-CFG 引導(dǎo)連續(xù)軌跡生成，使語言信息真正進入動作生成過程，而不是只作為解釋或附加輸出存在。

流式記憶模塊同樣表現(xiàn)出明顯作用，chunk-wise 單幀訓(xùn)練的 RFS 是 7.69，streaming training 提升到 7.73，streaming + memory 進一步提升到 7.83，說明僅僅按幀進行流式訓(xùn)練還不夠，加入歷史記憶后，模型能夠更好利用時間上下文，從而改善連續(xù)駕駛場景中的長期規(guī)劃效果，同時長時間軌跡預(yù)測中的 ADE 也整體下降，例如 25 s 序列 ADE 從 1.54 降到 1.50。

快 / 慢路徑實驗說明，慢路徑可以保留語言推理能力，更適合復(fù)雜場景或安全敏感場景，快路徑則跳過語言生成，直接進行動作規(guī)劃，在保持較好規(guī)劃質(zhì)量的同時讓推理速度接近 VA 方法，表明 VLA 模型不一定只能“慢而重”，也可以通過不同推理模式在語義理解和實時控制之間切換。

模型規(guī)模實驗進一步說明，性能提升并不只依賴更大的 VLM backbone，不同尺寸下結(jié)果并不是越大越好，其中 2B 左右表現(xiàn)較好，9B 模型在默認訓(xùn)練設(shè)置下沒有明顯優(yōu)勢，延長訓(xùn)練后 9B 有一定恢復(fù)，說明當前瓶頸不只是模型大小，還包括訓(xùn)練數(shù)據(jù)規(guī)模、訓(xùn)練時長、動作接口設(shè)計和任務(wù)適配方式等因素。

總體來看，研究結(jié)果表明，MindVLA-U1 的優(yōu)勢來自多個部分共同作用，包括統(tǒng)一的視覺語言動作 backbone、連續(xù)動作生成方式、Intent-CFG 語言到動作橋接、流式記憶機制、快 / 慢推理路徑以及 RL 后訓(xùn)練，這些設(shè)計共同改善了 VLA 在自動駕駛軌跡規(guī)劃中的精度、泛化能力、實時性和語義可控性。

讓模型像真實車輛一樣連續(xù)感知

實驗經(jīng)過方面，研究基于 WOD-E2E 數(shù)據(jù)集展開，數(shù)據(jù)來自真實自動駕駛場景，每段駕駛片段約 20 秒，并且包含多攝像頭 360° 視覺輸入，因此能夠覆蓋車輛周圍不同方向的環(huán)境信息。

由于數(shù)據(jù)集中包含較多長尾場景，研究團隊可以用它測試模型在復(fù)雜駕駛情況中的軌跡規(guī)劃能力，而不是只驗證模型在普通、規(guī)則、容易預(yù)測場景中的表現(xiàn)。

主要評測內(nèi)容集中在兩個方面，一方面評測模型預(yù)測軌跡的質(zhì)量，使用 RFS 衡量預(yù)測軌跡是否符合人類評審偏好，使用 ADE 衡量預(yù)測軌跡和參考軌跡之間的距離誤差，另一方面也評估語言輸出質(zhì)量，例如 VQA 的 BLEU 和 ROUGE，用來判斷模型在保留駕駛規(guī)劃能力的同時，是否還能維持語言理解和回答能力。

模型輸入包括當前多視角圖像、車輛自身歷史狀態(tài)、文本問題或語言提示、歷史 streaming memory，以及帶噪聲的動作 token，這些信息共同進入模型，使模型既能看到當前道路環(huán)境，又能利用車輛歷史運動狀態(tài)和之前幀中保留下來的時序信息。

模型輸出包括語言回答和連續(xù)駕駛軌跡，二者由同一個共享 backbone 完成，不是先用一個模塊做語言理解，再交給另一個獨立模塊規(guī)劃動作，也不是把動作表示成離散坐標 token，而是直接生成連續(xù)軌跡，這樣可以減少離散化帶來的精度損失。

統(tǒng)一 backbone 設(shè)計中，視覺、語言、車輛狀態(tài)、記憶、動作 token 會一起進入 VLM backbone，語言通過自回歸方式生成，動作通過 flow-matching 方式生成，兩類任務(wù)共享模型表示，使語義理解和動作規(guī)劃能在同一模型內(nèi)部結(jié)合。

流式記憶設(shè)計中，模型不是一次性輸入固定長度視頻片段，而是每次只處理當前幀，歷史信息通過 FIFO memory 保存，memory 會隨著車輛運動進行對齊，每一幀處理后，模型還會寫入新的 memory，從而讓歷史上下文在連續(xù)駕駛過程中不斷傳遞，這種方式更接近真實自動駕駛中的連續(xù)視頻流，也減少了重復(fù)處理多幀視頻帶來的計算負擔(dān)。

Intent-CFG 設(shè)計中，模型先預(yù)測當前駕駛意圖，例如直行、左轉(zhuǎn)、右轉(zhuǎn)等，再把這個 intent 作為條件，引導(dǎo)動作擴散過程，并通過 CFG 讓 intent 對軌跡生成產(chǎn)生影響。

實驗還對比了無 intent、軌跡派生 intent、GT intent 和模型預(yù)測 intent，結(jié)果顯示模型預(yù)測 intent 的效果最好，說明由語言側(cè)預(yù)測出的駕駛意圖更能幫助模型生成合理軌跡。

快/慢推理設(shè)計中，vqa_first 表示先語言推理再動作規(guī)劃，action_first 表示先動作規(guī)劃再生成語言解釋，action_only 表示只生成動作不生成語言，不同模式共享同一套模型權(quán)重，因此部署時可以根據(jù)場景復(fù)雜度選擇推理方式，簡單場景中使用更快的動作路徑，復(fù)雜或安全敏感場景中保留語言推理能力。

最后，在監(jiān)督訓(xùn)練后，研究人員進一步使用 RL 優(yōu)化模型，獎勵信號主要來自 RFS，使模型生成的軌跡更符合人類評審偏好，并最終取得驗證集和測試集上的最好結(jié)果。

自動駕駛 VLA 接口的重構(gòu)

實驗意義在于重新解釋 VLA 過去落后 VA 的原因，研究團隊認為，VLA 過去規(guī)劃效果差，并不是因為語言天然會傷害控制能力，而是因為接口設(shè)計不合理，例如一些方法把本來需要保持高精度的連續(xù)軌跡離散成語言 token，導(dǎo)致動作表達受到 token 精度限制，也有一些方法把語言模塊和動作模塊分離得太遠，使語言理解結(jié)果難以真正影響軌跡規(guī)劃，還有一些方法在時間建模上依賴固定視頻 chunk，容易造成計算冗余和片段邊界不連續(xù)。

基于這種判斷，MindVLA-U1 證明 VLA 可以同時兼顧理解和控制，模型既保留語言理解能力，又保留連續(xù)動作生成能力，不需要為了獲得語言接口而犧牲軌跡精度，也不需要在推理時把語言模塊完全丟掉。

更重要的是，研究讓語言真正進入駕駛決策過程，過去很多 VLA 雖然擁有語言頭，但語言并沒有明確影響動作，更多只是作為解釋或輔助輸出存在，而 MindVLA-U1 通過 Intent-CFG 建立了語言到動作的可測量路徑，使駕駛意圖不只是對結(jié)果的說明，而是能夠改變軌跡生成方向，從而讓語言側(cè)理解對連續(xù)控制產(chǎn)生實際作用。

研究也更適合真實自動駕駛部署，因為真實駕駛是連續(xù)視頻流，而不是固定長度片段，streaming memory 能讓模型按幀處理場景，同時保留歷史上下文，并減少重復(fù)處理多幀視頻帶來的計算浪費，使模型更接近真實車輛持續(xù)感知和持續(xù)規(guī)劃的工作方式。

快/慢系統(tǒng)統(tǒng)一方案也是重要意義之一，簡單場景可以走 action_only 快路徑，直接生成動作以滿足實時控制需求，復(fù)雜場景可以走帶語言推理的慢路徑，讓模型在安全敏感或語義復(fù)雜情境中進行更充分分析，一個模型即可覆蓋不同計算需求，有助于實際部署中平衡實時性和安全性。

整體來看，研究推動了自動駕駛 VLA 架構(gòu)發(fā)展，其重點不是單個模塊改進，而是統(tǒng)一語言、視覺、記憶、動作的整體接口，為后續(xù)自動駕駛模型設(shè)計提供了參考價值。

同時，研究也留下進一步探索空間，當前主要是開放環(huán)評測，還沒有充分驗證閉環(huán)駕駛表現(xiàn)，目前只使用了較簡單的 3 類 intent，MindLabel 中更豐富的 20 類 intent、軌跡評價 QA、CoT rationale 還沒有充分利用，后續(xù)仍可以繼續(xù)提升長尾場景處理能力、多模態(tài)動作選擇能力和閉環(huán)安全性。

MindVLA-U1 背后的研究者

這篇論文的通訊作者為李鴻升，香港中文大學(xué)電子工程系 Multimedia Laboratory 副教授，同時兼任香港中文大學(xué)計算機科學(xué)與工程系副教授，并將于 2026 年 8 月 1 日起晉升為正教授。

他于 2006 年獲得華東理工大學(xué)自動化專業(yè)工學(xué)學(xué)士學(xué)位，2006 年至 2007 年在上海交通大學(xué)模式識別與智能系統(tǒng)方向?qū)W習(xí)，隨后進入美國 Lehigh University 攻讀博士，并于 2012 年獲得計算機科學(xué)博士學(xué)位。

職業(yè)經(jīng)歷上，他曾在電子科技大學(xué)電子科學(xué)學(xué)院擔(dān)任副教授，之后在香港中文大學(xué)電子工程系先后擔(dān)任博士后、研究助理教授和助理教授，并自 2022 年 7 月起擔(dān)任副教授。研究方向上，他長期關(guān)注計算機視覺、醫(yī)學(xué)影像、深度學(xué)習(xí)、多模態(tài)學(xué)習(xí)、生成模型、具身智能和機器人操作等領(lǐng)域。

學(xué)術(shù)成果方面，他在 CVPR、ICCV、NeurIPS、ICML、ACL、EMNLP、AAAI 等頂級會議持續(xù)發(fā)表成果，2025 年有 13 篇成果被 NeurIPS 接收、3 篇被 EMNLP 主會接收、7 篇被 ICCV 接收、4 篇被 ACL 接收、3 篇被 ICML 接收、11 篇被 CVPR 接收，2026 年有 3 篇成果被 ACL 接收，并有 27 篇成果被 ICML、CVPR、ICLR、AAAI 接收。

他還曾獲得過 2025 年香港中文大學(xué) Research Excellence Award、2021 年香港中文大學(xué) Young Researcher Award、2020 年 IEEE Circuits and System Society Outstanding Young Author Award，并在 2022 年、2023 年、2024 年獲得 AI 2000 計算機視覺領(lǐng)域最具影響力學(xué)者榮譽提名，2022 年至 2025 年入選斯坦福大學(xué)全球前 2% 頂尖科學(xué)家榜單。

除此之外，他的團隊曾獲得 ActivityNet Challenge 2020 時空動作定位 AVA 賽道冠軍、ImageNet Video Object Detection Challenge 2015 冠軍，以及 ImageNet Video Object Detection / Tracking Challenge 2016 冠軍，近年研究覆蓋網(wǎng)頁生成評測、移動 GUI 智能體、多模態(tài)數(shù)學(xué)推理、圖像生成、視覺生成編輯、自動駕駛場景生成和具身智能等方向。

參考鏈接：https://www.ee.cuhk.edu.hk/~hsli/

另一位通訊作者為朱本金（Benjin Zhu），目前是理想汽車的研究科學(xué)家，同時在清華大學(xué)從事博士后研究，合作導(dǎo)師為代季峰教授。

他于 2025 年在香港中文大學(xué)電子工程系獲得博士學(xué)位，博士期間隸屬于 Multimedia Lab，導(dǎo)師為李鴻升教授和王曉剛教授，并于 2018 年在華南理工大學(xué)獲得軟件工程學(xué)士學(xué)位。

職業(yè)經(jīng)歷方面，他曾于 2019 年 1 月至 2021 年 5 月在曠視研究院擔(dān)任研究員，研究方向包括端到端目標檢測、無監(jiān)督 / 自監(jiān)督學(xué)習(xí)和研究基礎(chǔ)設(shè)施，2025 年 5 月起在理想汽車擔(dān)任高級研究工程師，主要關(guān)注世界模型、視覺語言動作模型和強化學(xué)習(xí)。

他聚焦視覺語言動作模型、擴散模型、世界模型和 AI 基礎(chǔ)設(shè)施。學(xué)術(shù)成果方面，他參與了多項計算機視覺、三維感知和自動駕駛相關(guān)研究，成果曾被 ICCV、ECCV、CVPR 等國際頂級會議接收。

除此之外，他還曾獲得 WAD CVPR 2019 首屆 nuScenes 3D 目標檢測挑戰(zhàn)賽冠軍，并對多個開源計算機視覺框架作出重要貢獻，相關(guān)框架覆蓋三維檢測、視覺任務(wù)實驗管理和通用深度學(xué)習(xí)研究基礎(chǔ)設(shè)施。

參考鏈接：https://benjin.me/

這次去 CVPR 現(xiàn)場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關(guān)注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務(wù)量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學(xué)術(shù)社區(qū)做貢獻、認識更多大牛，歡迎聯(lián)系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.