![]()
車東西(公眾號:chedongxi)
作者 | Janson
編輯 | 志豪
4B參數打10B參數?!小米最新輔助駕駛模型OneVL開源。
車東西5月14日消息,日前,小米技術團隊正式發布并開源Xiaomi OneVL,這是一套面向自動駕駛軌跡預測的“一步式潛空間語言視覺推理框架”。
![]()
▲小米最新自動駕駛論文
論文中,OneVL在多個基準上實現了一個很有看點的結果——不僅推理速度快,精度還高。
在NAVSIM(一種自動駕駛規劃評測基準)上,OneVL的跑分達到88.84,高于顯式推理鏈的88.29,延遲則幾乎等同于只輸出答案的AR Answer的4.49秒。
更值得一提的是,在英偉達的Alpamayo-R1基準測試中,OneVL作為4B參數模型,在ADE平均軌跡誤差指標上取得2.62m,優于10B參數級英偉達自家Cosmos-Reason的2.86m。
可以說,小米OneVL一舉實現了用更小模型反超大模型的技術指標。
從實現思路上來看,這篇論文真正要解決的問題很直接,過去模型要想“想得清楚”,往往得先生成一大段CoT推理文字,但在自動駕駛場景里,逐字生成推理鏈會帶來明顯延遲。
小米OneVL的思路則是,訓練時讓模型學會解釋、學會預測未來畫面,推理時則把這些思考壓縮進少量latent token,一步激活,直接輸出軌跡。
此外,通過作者陣容也能看出這項工作在小米汽車技術體系中的位置。
名單中既有小米汽車首席科學家、自動駕駛與機器人部VLA負責人陳龍,也有小米具身智能與自動駕駛統一模型MiMo-Embodied的核心作者郝孝帥,以及小米汽車自動駕駛負責人葉航軍等關鍵人物。
可以說,OneVL是小米汽車在端到端自動駕駛大模型、VLA和世界模型路線上的一次集中技術展示。
一、小米OneVL怎么做? 壓縮步驟降低延遲
要理解小米開源的OneVL,先要理解它為什么不是簡單的“把CoT藏起來”。
過去自動駕駛VLA模型引入CoT,主要是為了讓模型在輸出軌跡前先完成一段顯式推理,從而讓系統知道當前道路邊界在哪里,前方有沒有車、行人、錐桶,接下來應該保持速度、減速、變道還是轉向。
很明顯,顯式CoT的好處是可解釋,也能提升軌跡預測質量,但問題是,它需要一個token一個token自回歸生成,推理鏈越長,延遲越高,這對實時部署并不友好。
為了解決這個問題,latent CoT誕生了,通過把原本顯式寫出來的推理過程壓縮進隱空間。
目前行業中主流的COCONUT、CODI、SIM-CoT等方法都屬于這個方向。
但小米團隊認為,這些方法主要面向語言推理任務,壓縮的是“語言描述里的抽象語義”,而自動駕駛軌跡預測真正依賴的是道路幾何、目標運動、環境變化等時空因果結構。
![]()
▲幾種CoT范式的比較
換句話說,這樣的做法只壓縮語言,并不等于理解真實道路世界。
因此,OneVL的關鍵改動,是把“未來世界會怎么變”也壓進模型里。
論文中的OneVL主干基于Qwen3-VL-4B-Instruct,輸入包括前視圖像、車輛狀態、導航指令、歷史軌跡等信息,最終輸出未來軌跡。
它在模型中設計了兩類latent token(潛在詞元)。一類是language latent token,用來承載語言層面的隱式推理,另一類是visual latent token,用來承載視覺和時空動態信息。
![]()
▲小米OneVL架構
訓練時,OneVL會接上兩個輔助解碼器。
第一個是語言輔助解碼器。它的任務是從language latent token中還原人類可讀的CoT文本,比如解釋模型為什么判斷前方應該減速、為什么要保持車道、為什么要向左避讓。
這個模塊讓latent token不只是黑箱向量,而是可以被“翻譯”成人能理解的駕駛理由。
第二個是視覺輔助解碼器。它的任務更關鍵,從visual latent token中預測未來幀視覺token,也就是讓模型預判0.5秒和1.0秒之后畫面可能是什么樣。
這兩個模式被并稱為一種world model auxiliary,即訓練階段的世界模型輔助監督。
它要求模型不只是知道“前方有車”這個語義標簽,還要理解車輛會怎么動、道路結構如何延展、障礙物和環境會如何變化。
這也是小米OneVL和傳統latent CoT最大的區別。
傳統latent CoT更像是把“文字推理”壓縮成隱變量,小米OneVL則是把語言推理+未來視覺變化+軌跡規劃放在一個框架里聯合訓練。
語言監督負責讓模型說清楚“為什么這么開”,視覺監督負責讓模型學會“世界接下來怎么變”,軌跡監督則負責最終“應該怎么走”。
如此一來,在真正上路時,它不需要把這些推理逐字說出來,而是直接給出規劃結果。
![]()
▲小米OneVL在部分場景下的推理結果
訓練流程上,OneVL也不是簡單端到端硬訓,而是采用了分階段策略。
在初始階段,模型先對視覺輔助解碼器做自監督預訓練,讓它學會根據當前幀視覺特征預測未來幀。
這樣做是為了避免一開始latent token還沒有有效信息時,視覺解碼器就被迫完成困難任務,導致訓練不穩定。
隨后,OneVL采用了三步訓練,第一步,先訓練主VLM做軌跡預測。這個階段的重點是讓模型先學會“怎么開”,同時讓插在輸出里的latent token開始承擔“思考占位符”的作用,逐漸存下和駕駛決策有關的信息。
第二步,先固定住主模型,只訓練語言和視覺兩個輔助解碼器。語言解碼器要學會把這些latent token翻譯成文字解釋,視覺解碼器要學會把它們翻譯成未來畫面。這樣做的好處是,兩個解碼器面對的是一個相對穩定的“模型大腦”,不會一邊讀信號、一邊信號本身還在劇烈變化。
第三步,再把主模型和兩個輔助解碼器一起訓練,讓軌跡預測、語言解釋、未來畫面預測三件事互相對齊。
最終,latent token同時可以承載“怎么開”“為什么這么開”和“接下來會發生什么”的壓縮表示。
訓練時使用的語言輔助解碼器和視覺輔助解碼器,在推理時都會被丟棄。
而這,也是推理階段是小米OneVL速度提升的關鍵。
所以,OneVL的核心不是“不推理”,而是把推理從顯式長文本,壓縮成一步式潛空間激活。
二、小模型能打大模型 又快又準
通過一系列優化,小米OneVL性能得到了明顯的提升,但具體怎么樣,還是要用跑分來說話。
OneVL的成績可以用一句話概括就是,它不是單純跑得快,也不是單純跑分高,而是在“接近不思考的速度”下,做出了“超過顯式推理”的精度。
過去自動駕駛VLA模型往往要在速度和推理能力之間做取舍,如果模型直接輸出軌跡,速度確實快,但少了推理過程,精度和復雜場景泛化可能不夠。
如果讓模型先生成一段CoT推理,再輸出軌跡,精度通常會提升,但速度又會明顯變慢。
OneVL做到了一種既要又要:精度高,速度快。
![]()
▲四種基準測試的表現
論文在NAVSIM、ROADWork、Impromptu、Alpamayo-R1四個基準上做了測試,可以理解成四類不同“考場”,常規軌跡規劃、施工區復雜道路、非結構化長尾場景,以及復雜因果駕駛場景。
![]()
▲NAVSIM性能對比
結果也很直接,在NAVSIM上,OneVL跑分達到88.84,超過直接輸出答案的AR Answer 87.47和顯式AR CoT+Answer 88.29。
同時延遲只有4.46秒,幾乎等同于AR Answer的4.49秒,明顯低于顯式CoT的6.58秒。
![]()
▲ROADWork性能對比
在ROADWork這種施工區這種有錐桶、臨時標線、施工車輛和封閉車道的復雜場景里,OneVL的跑分為12.49/28.80像素,優于AR Answer和顯式CoT,而且延遲遠低于顯式CoT的10.74 秒。
![]()
▲Impromptu性能對比
在Impromptu面對非結構化長尾場景中,OneVL的跑分為1.34/3.70米,優于AR Answer的1.46/4.03米和顯式CoT的1.42/3.96米,說明整條未來軌跡更貼近真實結果。
![]()
▲Alpamayo-R1性能對比
最后在Alpamayo-R1這個強調復雜因果推理的基準上,OneVL的跑分為2.62/7.53米,其中ADE優于英偉達自家Cosmos-Reason系路線的2.86 米,但FDE略遜于后者的7.42米。
這組結果說明OneVL在速度和精度之間找到了一個更好的平衡點把推理壓縮到了latent token里,讓模型在推理時一步激活。
與此同時,消融實驗也說明了OneVL到底強在哪里。
![]()
▲OneVL的消融測試結果
去掉視覺輔助解碼器后,NAVSIM的跑分會從88.84降到87.97,去掉語言輔助解碼器后,跑分會降到88.53。
這說明語言解釋有幫助,但視覺世界模型監督貢獻更大,也符合軌跡預測的任務本質:自動駕駛首先是空間和運動問題,未來畫面預測比純語言解釋更直接地逼模型學習道路、車輛、障礙物的動態變化。
值得一提的事,論文最后還探索了一個更偏車端部署的版本。
這個版本在NAVSIM上的跑分是86.83,低于完整OneVL的88.84,但推理延遲只有0.24秒,約等于4.16Hz。
![]()
▲輕量版本在NAVSIM的跑分
這說明OneVL實際上提供了兩種路線,完整版本精度更高,部署版本速度更快,但會犧牲一部分精度。
對于真實車輛部署來說,這種取舍很重要,因為車端系統不只追求最高分,還要考慮響應頻率、算力預算和穩定性。
結語:小米再發新模型
總體來看,OneVL的價值不只是“又一個開源模型”,而是提出了一條更清晰的路線:訓練時讓模型同時學會語言解釋和未來視覺預測,推理時把這些能力壓縮進 latent token,一步完成規劃。
這也解釋了為什么它能在速度接近answer-only的情況下,精度超過顯式CoT。
這個模型把思考從“逐字說出來”,變成了“壓縮在潛空間里一次性完成”。
對于自動駕駛VLA模型來說,這可能是一條更接近真實部署需求的技術路線。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.