網易首頁 > 網易號 > 正文申請入駐

小米開源最新智駕模型！核心技術團隊領銜，小模型搞定復雜場景

2026-05-14 19:25:40　來源: 車東西

北京舉報

分享至

車東西（公眾號：chedongxi）
作者｜ Janson
編輯｜志豪

4B參數打10B參數？！小米最新輔助駕駛模型OneVL開源。

車東西5月14日消息，日前，小米技術團隊正式發布并開源Xiaomi OneVL，這是一套面向自動駕駛軌跡預測的“一步式潛空間語言視覺推理框架”。

▲小米最新自動駕駛論文

論文中，OneVL在多個基準上實現了一個很有看點的結果——不僅推理速度快，精度還高。

在NAVSIM（一種自動駕駛規劃評測基準）上，OneVL的跑分達到88.84，高于顯式推理鏈的88.29，延遲則幾乎等同于只輸出答案的AR Answer的4.49秒。

更值得一提的是，在英偉達的Alpamayo-R1基準測試中，OneVL作為4B參數模型，在ADE平均軌跡誤差指標上取得2.62m，優于10B參數級英偉達自家Cosmos-Reason的2.86m。

可以說，小米OneVL一舉實現了用更小模型反超大模型的技術指標。

從實現思路上來看，這篇論文真正要解決的問題很直接，過去模型要想“想得清楚”，往往得先生成一大段CoT推理文字，但在自動駕駛場景里，逐字生成推理鏈會帶來明顯延遲。

小米OneVL的思路則是，訓練時讓模型學會解釋、學會預測未來畫面，推理時則把這些思考壓縮進少量latent token，一步激活，直接輸出軌跡。

此外，通過作者陣容也能看出這項工作在小米汽車技術體系中的位置。

名單中既有小米汽車首席科學家、自動駕駛與機器人部VLA負責人陳龍，也有小米具身智能與自動駕駛統一模型MiMo-Embodied的核心作者郝孝帥，以及小米汽車自動駕駛負責人葉航軍等關鍵人物。

可以說，OneVL是小米汽車在端到端自動駕駛大模型、VLA和世界模型路線上的一次集中技術展示。

一、小米OneVL怎么做？壓縮步驟降低延遲

要理解小米開源的OneVL，先要理解它為什么不是簡單的“把CoT藏起來”。

過去自動駕駛VLA模型引入CoT，主要是為了讓模型在輸出軌跡前先完成一段顯式推理，從而讓系統知道當前道路邊界在哪里，前方有沒有車、行人、錐桶，接下來應該保持速度、減速、變道還是轉向。

很明顯，顯式CoT的好處是可解釋，也能提升軌跡預測質量，但問題是，它需要一個token一個token自回歸生成，推理鏈越長，延遲越高，這對實時部署并不友好。

為了解決這個問題，latent CoT誕生了，通過把原本顯式寫出來的推理過程壓縮進隱空間。

目前行業中主流的COCONUT、CODI、SIM-CoT等方法都屬于這個方向。

但小米團隊認為，這些方法主要面向語言推理任務，壓縮的是“語言描述里的抽象語義”，而自動駕駛軌跡預測真正依賴的是道路幾何、目標運動、環境變化等時空因果結構。

▲幾種CoT范式的比較

換句話說，這樣的做法只壓縮語言，并不等于理解真實道路世界。

因此，OneVL的關鍵改動，是把“未來世界會怎么變”也壓進模型里。

論文中的OneVL主干基于Qwen3-VL-4B-Instruct，輸入包括前視圖像、車輛狀態、導航指令、歷史軌跡等信息，最終輸出未來軌跡。

它在模型中設計了兩類latent token（潛在詞元）。一類是language latent token，用來承載語言層面的隱式推理，另一類是visual latent token，用來承載視覺和時空動態信息。

▲小米OneVL架構

訓練時，OneVL會接上兩個輔助解碼器。

第一個是語言輔助解碼器。它的任務是從language latent token中還原人類可讀的CoT文本，比如解釋模型為什么判斷前方應該減速、為什么要保持車道、為什么要向左避讓。

這個模塊讓latent token不只是黑箱向量，而是可以被“翻譯”成人能理解的駕駛理由。

第二個是視覺輔助解碼器。它的任務更關鍵，從visual latent token中預測未來幀視覺token，也就是讓模型預判0.5秒和1.0秒之后畫面可能是什么樣。

這兩個模式被并稱為一種world model auxiliary，即訓練階段的世界模型輔助監督。

它要求模型不只是知道“前方有車”這個語義標簽，還要理解車輛會怎么動、道路結構如何延展、障礙物和環境會如何變化。

這也是小米OneVL和傳統latent CoT最大的區別。

傳統latent CoT更像是把“文字推理”壓縮成隱變量，小米OneVL則是把語言推理+未來視覺變化+軌跡規劃放在一個框架里聯合訓練。

語言監督負責讓模型說清楚“為什么這么開”，視覺監督負責讓模型學會“世界接下來怎么變”，軌跡監督則負責最終“應該怎么走”。

如此一來，在真正上路時，它不需要把這些推理逐字說出來，而是直接給出規劃結果。

▲小米OneVL在部分場景下的推理結果

訓練流程上，OneVL也不是簡單端到端硬訓，而是采用了分階段策略。

在初始階段，模型先對視覺輔助解碼器做自監督預訓練，讓它學會根據當前幀視覺特征預測未來幀。

這樣做是為了避免一開始latent token還沒有有效信息時，視覺解碼器就被迫完成困難任務，導致訓練不穩定。

隨后，OneVL采用了三步訓練，第一步，先訓練主VLM做軌跡預測。這個階段的重點是讓模型先學會“怎么開”，同時讓插在輸出里的latent token開始承擔“思考占位符”的作用，逐漸存下和駕駛決策有關的信息。

第二步，先固定住主模型，只訓練語言和視覺兩個輔助解碼器。語言解碼器要學會把這些latent token翻譯成文字解釋，視覺解碼器要學會把它們翻譯成未來畫面。這樣做的好處是，兩個解碼器面對的是一個相對穩定的“模型大腦”，不會一邊讀信號、一邊信號本身還在劇烈變化。

第三步，再把主模型和兩個輔助解碼器一起訓練，讓軌跡預測、語言解釋、未來畫面預測三件事互相對齊。

最終，latent token同時可以承載“怎么開”“為什么這么開”和“接下來會發生什么”的壓縮表示。

訓練時使用的語言輔助解碼器和視覺輔助解碼器，在推理時都會被丟棄。

而這，也是推理階段是小米OneVL速度提升的關鍵。

所以，OneVL的核心不是“不推理”，而是把推理從顯式長文本，壓縮成一步式潛空間激活。

二、小模型能打大模型又快又準

通過一系列優化，小米OneVL性能得到了明顯的提升，但具體怎么樣，還是要用跑分來說話。

OneVL的成績可以用一句話概括就是，它不是單純跑得快，也不是單純跑分高，而是在“接近不思考的速度”下，做出了“超過顯式推理”的精度。

過去自動駕駛VLA模型往往要在速度和推理能力之間做取舍，如果模型直接輸出軌跡，速度確實快，但少了推理過程，精度和復雜場景泛化可能不夠。

如果讓模型先生成一段CoT推理，再輸出軌跡，精度通常會提升，但速度又會明顯變慢。

OneVL做到了一種既要又要：精度高，速度快。

▲四種基準測試的表現

論文在NAVSIM、ROADWork、Impromptu、Alpamayo-R1四個基準上做了測試，可以理解成四類不同“考場”，常規軌跡規劃、施工區復雜道路、非結構化長尾場景，以及復雜因果駕駛場景。

▲NAVSIM性能對比

結果也很直接，在NAVSIM上，OneVL跑分達到88.84，超過直接輸出答案的AR Answer 87.47和顯式AR CoT+Answer 88.29。

同時延遲只有4.46秒，幾乎等同于AR Answer的4.49秒，明顯低于顯式CoT的6.58秒。

▲ROADWork性能對比

在ROADWork這種施工區這種有錐桶、臨時標線、施工車輛和封閉車道的復雜場景里，OneVL的跑分為12.49/28.80像素，優于AR Answer和顯式CoT，而且延遲遠低于顯式CoT的10.74 秒。

▲Impromptu性能對比

在Impromptu面對非結構化長尾場景中，OneVL的跑分為1.34/3.70米，優于AR Answer的1.46/4.03米和顯式CoT的1.42/3.96米，說明整條未來軌跡更貼近真實結果。

▲Alpamayo-R1性能對比

最后在Alpamayo-R1這個強調復雜因果推理的基準上，OneVL的跑分為2.62/7.53米，其中ADE優于英偉達自家Cosmos-Reason系路線的2.86 米，但FDE略遜于后者的7.42米。

這組結果說明OneVL在速度和精度之間找到了一個更好的平衡點把推理壓縮到了latent token里，讓模型在推理時一步激活。

與此同時，消融實驗也說明了OneVL到底強在哪里。

▲OneVL的消融測試結果

去掉視覺輔助解碼器后，NAVSIM的跑分會從88.84降到87.97，去掉語言輔助解碼器后，跑分會降到88.53。

這說明語言解釋有幫助，但視覺世界模型監督貢獻更大，也符合軌跡預測的任務本質：自動駕駛首先是空間和運動問題，未來畫面預測比純語言解釋更直接地逼模型學習道路、車輛、障礙物的動態變化。

值得一提的事，論文最后還探索了一個更偏車端部署的版本。

這個版本在NAVSIM上的跑分是86.83，低于完整OneVL的88.84，但推理延遲只有0.24秒，約等于4.16Hz。

▲輕量版本在NAVSIM的跑分

這說明OneVL實際上提供了兩種路線，完整版本精度更高，部署版本速度更快，但會犧牲一部分精度。

對于真實車輛部署來說，這種取舍很重要，因為車端系統不只追求最高分，還要考慮響應頻率、算力預算和穩定性。

結語：小米再發新模型

總體來看，OneVL的價值不只是“又一個開源模型”，而是提出了一條更清晰的路線：訓練時讓模型同時學會語言解釋和未來視覺預測，推理時把這些能力壓縮進 latent token，一步完成規劃。

這也解釋了為什么它能在速度接近answer-only的情況下，精度超過顯式CoT。

這個模型把思考從“逐字說出來”，變成了“壓縮在潛空間里一次性完成”。

對于自動駕駛VLA模型來說，這可能是一條更接近真實部署需求的技術路線。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

證據攤開看，場景圖畫清：讓流式視頻大模型拿捏「何時開口」

機器之心Pro 2026-05-26 14:14:25
0 跟貼 0
復旦鐵三角：開辟最優物理AI路徑！時空一體世界動作模型問世

新智元 2026-05-31 13:08:37
1 跟貼 1

從Token無上限到全員Agent：MiniMax的AI Native組織進化實踐

量子位 2026-05-31 11:48:15
3 跟貼 3

AI原生時代，讓世界適應Agent而非教AI做人 | 港大黃超@AIGC2026

量子位 2026-05-31 11:56:06
0 跟貼 0
小學生畫了撇胡子騙過AI年齡驗證，硅谷工程師沉默了

機器之心Pro 2026-05-31 14:27:31
0 跟貼 0

從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0

雷軍千萬挖角的天才少女，她根本就不是天才

雷科技 2025-11-12 21:45:22
42 跟貼 42
95后AI才女羅福莉加入小米，家族驕傲

每日經濟新聞 2025-11-13 22:06:07
0 跟貼 0

小米電視 S Pro Mini LED 2026神價登場，8499元就能買到！

科技Daily 2026-05-30 00:20:20
3 跟貼 3
手機“價格戰”開打，別急著下單，這波降價不簡單

警花說 2026-05-31 09:45:20
0 跟貼 0
高手的破局密碼：讓復雜問題迅速顯形的4大思維視角！

遇見洞見 2026-05-30 20:35:13
0 跟貼 0
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
451 跟貼 451
何小鵬：說今年能做到L4的，那是吹牛！做好智駕不代表能做好車！

長腿嗑嘰君 2026-05-29 02:04:16
0 跟貼 0
智駕再次進化試駕全新奇瑞風云T9L

敢動派 2026-05-30 10:35:17
0 跟貼 0
小米汽車又虧了，雷軍慌不慌

瞻史 2026-05-30 18:21:07
0 跟貼 0
璇璣A3發布后，我更確定了：比亞迪在造體系，小米還在造爆款

港股研究社 2026-05-29 11:53:16
219 跟貼 219
中方代表香會講話當場向日方提出兩個問題

環球網資訊 2026-05-30 19:36:11
8431 跟貼 8431
完勝智駕險！智駕兜底不收費沒上限不漲保費，技術實力鑄就底氣

東哥汽車評論 2026-05-30 20:48:31
1 跟貼 1
盧偉冰：小米第三款車不是YU9 代號昆侖定位大型增程SUV 確認年內上市有非常多創新

快科技 2026-05-29 15:34:18
0 跟貼 0
小米YU7GT開啟交付！雷軍舒淇親臨現場為新車揭布

封面新聞 2026-05-31 14:25:25
0 跟貼 0
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
227 跟貼 227
智駕雙兜底，這才是真正的敢為！

雷歐慢慢聊 2026-05-30 03:18:33
17 跟貼 17
華為nova 16定檔、小米17T回國搶市場，6月新機殺瘋了

雷科技 2026-05-31 15:12:52
0 跟貼 0
盧偉冰：小米汽車2027年三四季度出海先發達國家后發展中國家

快科技 2026-05-29 15:34:25
1 跟貼 1
比亞迪技術實力鑄就底氣，承諾車主智駕雙兜底

數碼小甜 2026-05-30 15:11:58
3 跟貼 3
比亞迪王炸！智駕撞了全賠，靠不靠譜？

極果酷玩 2026-05-30 22:37:36
11 跟貼 11
胖東來調整營業時間

界面新聞 2026-05-31 10:21:42
24 跟貼 24
FREELANDER神行者8，豪華與智駕雙在線

愛車兵團 2026-05-31 13:19:34
1 跟貼 1
“司機激活智駕并雙手脫離方向盤”，江西一轎車追尾致3死，調查報告公布（編輯：陳三多）投稿郵箱：388

中安在線 2026-05-29 15:37:33
63 跟貼 63
小米這波操作是四方共贏還是純粹趁火打劫

買車家 2026-05-29 11:18:48
0 跟貼 0
大洗牌！超過大眾、豐田，小米汽車銷量位居全球新能源第7？

王爺說圖表 2026-05-28 17:56:48
3 跟貼 3
國內第一起智駕兜底案例！比亞迪這樣回應

熱點科技 2026-05-31 14:26:16
3 跟貼 3
不止是保障，比亞迪兜底改寫智駕行業規則

汐點科技 2026-05-29 20:44:29
5 跟貼 5
你以為你了解自己，其實你早已在悄悄蛻變

溫一壺月光啊 2026-05-30 00:54:13
0 跟貼 0
真的要跟你們這些在現場的人拼了雷軍帶舒淇逛小米汽車工廠

抓馬娛樂圈a 2026-05-31 05:31:20
0 跟貼 0
奕境曾清林談輔助駕駛“智駕險”和“兜底承諾”差異

IT之家 2026-05-31 15:02:15
0 跟貼 0
技術實力鑄就底氣，讓智駕真正服務千家萬戶

河馬叭叭叭 2026-05-30 09:41:50
0 跟貼 0
手握全國最大路測數據比亞迪智駕進化速度無人能及

汽車通訊社 2026-05-29 15:07:08
1 跟貼 1
618暗戰已開，除了低價，大家還在“卷”什么

鈦媒體APP 2026-05-31 14:51:13
0 跟貼 0
高速路上男子開啟車輛智駕躺在車內閉目睡覺目擊者怒罵

直擊新鮮事 2026-05-29 11:15:02
21 跟貼 21

車東西

未來汽車看這里。

6195文章數 6418關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

家居

手機

軍事航空

手機 / 數碼

房產 / 家居

小米開源最新智駕模型！核心技術團隊領銜，小模型搞定復雜場景

戴爾諾基亞又回來了！AI重估老牌科技公司

美國嚴厲警告后 德國仍上趕著：將擴大"印太"軍事參與

美國嚴厲警告后 德國仍上趕著：將擴大"印太"軍事參與

阿森納用最悲壯的方式，成就了巴黎王朝

賈玲最新動作！侯明昊給虞書欣抬轎！

醫學首席轉崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

老師膠槍燙幼兒“社會性死亡”！正臉被扒無遮擋，過往曝光是慣犯

Luis Alvarez Roure | 美國現實主義畫家

云棲 舒展如流云

國產旗艦單品過百萬盤點，這個結果意外嗎？

解放軍代表質問日防衛大臣:日本何時道歉

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

900V+3.2秒破百領克10+&領克10上市16.99萬元起

云棲舒展如流云