无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

小米開源最新智駕模型!核心技術團隊領銜,小模型搞定復雜場景

0
分享至


車東西(公眾號:chedongxi)
作者 | Janson
編輯 | 志豪

4B參數打10B參數?!小米最新輔助駕駛模型OneVL開源。

車東西5月14日消息,日前,小米技術團隊正式發布并開源Xiaomi OneVL,這是一套面向自動駕駛軌跡預測的“一步式潛空間語言視覺推理框架”。


▲小米最新自動駕駛論文

論文中,OneVL在多個基準上實現了一個很有看點的結果——不僅推理速度快,精度還高。

在NAVSIM(一種自動駕駛規劃評測基準)上,OneVL的跑分達到88.84,高于顯式推理鏈的88.29,延遲則幾乎等同于只輸出答案的AR Answer的4.49秒。

更值得一提的是,在英偉達的Alpamayo-R1基準測試中,OneVL作為4B參數模型,在ADE平均軌跡誤差指標上取得2.62m,優于10B參數級英偉達自家Cosmos-Reason的2.86m。

可以說,小米OneVL一舉實現了用更小模型反超大模型的技術指標。

從實現思路上來看,這篇論文真正要解決的問題很直接,過去模型要想“想得清楚”,往往得先生成一大段CoT推理文字,但在自動駕駛場景里,逐字生成推理鏈會帶來明顯延遲。

小米OneVL的思路則是,訓練時讓模型學會解釋、學會預測未來畫面,推理時則把這些思考壓縮進少量latent token,一步激活,直接輸出軌跡。

此外,通過作者陣容也能看出這項工作在小米汽車技術體系中的位置。

名單中既有小米汽車首席科學家、自動駕駛與機器人部VLA負責人陳龍,也有小米具身智能與自動駕駛統一模型MiMo-Embodied的核心作者郝孝帥,以及小米汽車自動駕駛負責人葉航軍等關鍵人物。

可以說,OneVL是小米汽車在端到端自動駕駛大模型、VLA和世界模型路線上的一次集中技術展示。

一、小米OneVL怎么做? 壓縮步驟降低延遲

要理解小米開源的OneVL,先要理解它為什么不是簡單的“把CoT藏起來”。

過去自動駕駛VLA模型引入CoT,主要是為了讓模型在輸出軌跡前先完成一段顯式推理,從而讓系統知道當前道路邊界在哪里,前方有沒有車、行人、錐桶,接下來應該保持速度、減速、變道還是轉向。

很明顯,顯式CoT的好處是可解釋,也能提升軌跡預測質量,但問題是,它需要一個token一個token自回歸生成,推理鏈越長,延遲越高,這對實時部署并不友好。

為了解決這個問題,latent CoT誕生了,通過把原本顯式寫出來的推理過程壓縮進隱空間。

目前行業中主流的COCONUT、CODI、SIM-CoT等方法都屬于這個方向。

但小米團隊認為,這些方法主要面向語言推理任務,壓縮的是“語言描述里的抽象語義”,而自動駕駛軌跡預測真正依賴的是道路幾何、目標運動、環境變化等時空因果結構。


▲幾種CoT范式的比較

換句話說,這樣的做法只壓縮語言,并不等于理解真實道路世界。

因此,OneVL的關鍵改動,是把“未來世界會怎么變”也壓進模型里。

論文中的OneVL主干基于Qwen3-VL-4B-Instruct,輸入包括前視圖像、車輛狀態、導航指令、歷史軌跡等信息,最終輸出未來軌跡。

它在模型中設計了兩類latent token(潛在詞元)。一類是language latent token,用來承載語言層面的隱式推理,另一類是visual latent token,用來承載視覺和時空動態信息。


▲小米OneVL架構

訓練時,OneVL會接上兩個輔助解碼器。

第一個是語言輔助解碼器。它的任務是從language latent token中還原人類可讀的CoT文本,比如解釋模型為什么判斷前方應該減速、為什么要保持車道、為什么要向左避讓。

這個模塊讓latent token不只是黑箱向量,而是可以被“翻譯”成人能理解的駕駛理由。

第二個是視覺輔助解碼器。它的任務更關鍵,從visual latent token中預測未來幀視覺token,也就是讓模型預判0.5秒和1.0秒之后畫面可能是什么樣。

這兩個模式被并稱為一種world model auxiliary,即訓練階段的世界模型輔助監督。

它要求模型不只是知道“前方有車”這個語義標簽,還要理解車輛會怎么動、道路結構如何延展、障礙物和環境會如何變化。

這也是小米OneVL和傳統latent CoT最大的區別。

傳統latent CoT更像是把“文字推理”壓縮成隱變量,小米OneVL則是把語言推理+未來視覺變化+軌跡規劃放在一個框架里聯合訓練。

語言監督負責讓模型說清楚“為什么這么開”,視覺監督負責讓模型學會“世界接下來怎么變”,軌跡監督則負責最終“應該怎么走”。

如此一來,在真正上路時,它不需要把這些推理逐字說出來,而是直接給出規劃結果。


▲小米OneVL在部分場景下的推理結果

訓練流程上,OneVL也不是簡單端到端硬訓,而是采用了分階段策略。

在初始階段,模型先對視覺輔助解碼器做自監督預訓練,讓它學會根據當前幀視覺特征預測未來幀。

這樣做是為了避免一開始latent token還沒有有效信息時,視覺解碼器就被迫完成困難任務,導致訓練不穩定。

隨后,OneVL采用了三步訓練,第一步,先訓練主VLM做軌跡預測。這個階段的重點是讓模型先學會“怎么開”,同時讓插在輸出里的latent token開始承擔“思考占位符”的作用,逐漸存下和駕駛決策有關的信息。

第二步,先固定住主模型,只訓練語言和視覺兩個輔助解碼器。語言解碼器要學會把這些latent token翻譯成文字解釋,視覺解碼器要學會把它們翻譯成未來畫面。這樣做的好處是,兩個解碼器面對的是一個相對穩定的“模型大腦”,不會一邊讀信號、一邊信號本身還在劇烈變化。

第三步,再把主模型和兩個輔助解碼器一起訓練,讓軌跡預測、語言解釋、未來畫面預測三件事互相對齊。

最終,latent token同時可以承載“怎么開”“為什么這么開”和“接下來會發生什么”的壓縮表示。

訓練時使用的語言輔助解碼器和視覺輔助解碼器,在推理時都會被丟棄。

而這,也是推理階段是小米OneVL速度提升的關鍵。

所以,OneVL的核心不是“不推理”,而是把推理從顯式長文本,壓縮成一步式潛空間激活。

二、小模型能打大模型 又快又準

通過一系列優化,小米OneVL性能得到了明顯的提升,但具體怎么樣,還是要用跑分來說話。

OneVL的成績可以用一句話概括就是,它不是單純跑得快,也不是單純跑分高,而是在“接近不思考的速度”下,做出了“超過顯式推理”的精度。

過去自動駕駛VLA模型往往要在速度和推理能力之間做取舍,如果模型直接輸出軌跡,速度確實快,但少了推理過程,精度和復雜場景泛化可能不夠。

如果讓模型先生成一段CoT推理,再輸出軌跡,精度通常會提升,但速度又會明顯變慢。

OneVL做到了一種既要又要:精度高,速度快。


▲四種基準測試的表現

論文在NAVSIM、ROADWork、Impromptu、Alpamayo-R1四個基準上做了測試,可以理解成四類不同“考場”,常規軌跡規劃、施工區復雜道路、非結構化長尾場景,以及復雜因果駕駛場景。


▲NAVSIM性能對比

結果也很直接,在NAVSIM上,OneVL跑分達到88.84,超過直接輸出答案的AR Answer 87.47和顯式AR CoT+Answer 88.29。

同時延遲只有4.46秒,幾乎等同于AR Answer的4.49秒,明顯低于顯式CoT的6.58秒。


▲ROADWork性能對比

在ROADWork這種施工區這種有錐桶、臨時標線、施工車輛和封閉車道的復雜場景里,OneVL的跑分為12.49/28.80像素,優于AR Answer和顯式CoT,而且延遲遠低于顯式CoT的10.74 秒。


▲Impromptu性能對比

在Impromptu面對非結構化長尾場景中,OneVL的跑分為1.34/3.70米,優于AR Answer的1.46/4.03米和顯式CoT的1.42/3.96米,說明整條未來軌跡更貼近真實結果。


▲Alpamayo-R1性能對比

最后在Alpamayo-R1這個強調復雜因果推理的基準上,OneVL的跑分為2.62/7.53米,其中ADE優于英偉達自家Cosmos-Reason系路線的2.86 米,但FDE略遜于后者的7.42米。

這組結果說明OneVL在速度和精度之間找到了一個更好的平衡點把推理壓縮到了latent token里,讓模型在推理時一步激活。

與此同時,消融實驗也說明了OneVL到底強在哪里。


▲OneVL的消融測試結果

去掉視覺輔助解碼器后,NAVSIM的跑分會從88.84降到87.97,去掉語言輔助解碼器后,跑分會降到88.53。

這說明語言解釋有幫助,但視覺世界模型監督貢獻更大,也符合軌跡預測的任務本質:自動駕駛首先是空間和運動問題,未來畫面預測比純語言解釋更直接地逼模型學習道路、車輛、障礙物的動態變化。

值得一提的事,論文最后還探索了一個更偏車端部署的版本。

這個版本在NAVSIM上的跑分是86.83,低于完整OneVL的88.84,但推理延遲只有0.24秒,約等于4.16Hz。


▲輕量版本在NAVSIM的跑分

這說明OneVL實際上提供了兩種路線,完整版本精度更高,部署版本速度更快,但會犧牲一部分精度。

對于真實車輛部署來說,這種取舍很重要,因為車端系統不只追求最高分,還要考慮響應頻率、算力預算和穩定性。

結語:小米再發新模型

總體來看,OneVL的價值不只是“又一個開源模型”,而是提出了一條更清晰的路線:訓練時讓模型同時學會語言解釋和未來視覺預測,推理時把這些能力壓縮進 latent token,一步完成規劃。

這也解釋了為什么它能在速度接近answer-only的情況下,精度超過顯式CoT。

這個模型把思考從“逐字說出來”,變成了“壓縮在潛空間里一次性完成”。

對于自動駕駛VLA模型來說,這可能是一條更接近真實部署需求的技術路線。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王少杰意難平,廣東隊先拒絕2000萬報價,后拒絕用杜潤旺交易

王少杰意難平,廣東隊先拒絕2000萬報價,后拒絕用杜潤旺交易

只扣籃的教練
2026-05-31 09:57:58
原來洗錢這件事一直都貼近生活!網友:手段變化多端,長見識了

原來洗錢這件事一直都貼近生活!網友:手段變化多端,長見識了

另子維愛讀史
2026-05-27 07:52:25
英國外交大臣庫珀將訪華并舉行第十一次中英戰略對話

英國外交大臣庫珀將訪華并舉行第十一次中英戰略對話

新京報
2026-05-31 15:17:10
今天誰才是南寧萬象城最大的明星?

今天誰才是南寧萬象城最大的明星?

草莓解說體育
2026-05-31 11:15:31
11歲男孩頂替退伍軍人領國家俸祿15年,被揭穿后:敢告我就弄死你

11歲男孩頂替退伍軍人領國家俸祿15年,被揭穿后:敢告我就弄死你

墨策史
2026-05-31 00:40:08
星空體育透露米切爾力挺哈登:詹皇喬丹季后賽也拉胯

星空體育透露米切爾力挺哈登:詹皇喬丹季后賽也拉胯

小椰的影視寶庫
2026-05-31 14:27:41
湖南女外賣員戴燕執行死刑,被押火葬場,結束罪惡一生

湖南女外賣員戴燕執行死刑,被押火葬場,結束罪惡一生

徐俠客有話說
2025-07-18 15:21:44
戶口正式“失效”!國家新規落地,教育、醫保、住房被全面解綁

戶口正式“失效”!國家新規落地,教育、醫保、住房被全面解綁

鯨探所長
2026-05-30 09:59:16
古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

小豫講故事
2026-05-29 06:00:15
汶川地震中,丟了學生逃跑的老師“范跑跑”,18年后竟成了大贏家

汶川地震中,丟了學生逃跑的老師“范跑跑”,18年后竟成了大贏家

芳芳歷史燴
2026-05-24 01:06:29
山東主任醫生李明去世!僅48歲,去世當天加班連做幾臺手術

山東主任醫生李明去世!僅48歲,去世當天加班連做幾臺手術

青梅侃史啊
2026-05-31 14:24:54
大結局來了?日本拋棄美元,中國反手加倉黃金,美聯儲被逼到墻角

大結局來了?日本拋棄美元,中國反手加倉黃金,美聯儲被逼到墻角

嫹筆牂牂
2026-05-31 14:32:52
足球報:深圳新鵬城將聘請外籍教練,新帥人選將在一周內公布

足球報:深圳新鵬城將聘請外籍教練,新帥人選將在一周內公布

懂球帝
2026-05-31 13:20:12
世體:卡薩多需決定未來,摩納哥是備選

世體:卡薩多需決定未來,摩納哥是備選

懂球帝
2026-05-31 14:13:35
八旬熔銅藝術家朱炳仁上海展出“銅水果”

八旬熔銅藝術家朱炳仁上海展出“銅水果”

澎湃新聞
2026-05-31 12:26:09
廈門女教師撐傘后續,校方稱父女被教育局當場打臉,真相反轉三次

廈門女教師撐傘后續,校方稱父女被教育局當場打臉,真相反轉三次

奇思妙想草葉君
2026-05-29 00:55:18
穿白裙的美女,身材真好

穿白裙的美女,身材真好

藍色海洋009
2026-05-31 14:09:58
海昏侯墓只是冰山一角:西漢真正的天價黃金,大多還埋在地下

海昏侯墓只是冰山一角:西漢真正的天價黃金,大多還埋在地下

芊芊子吟
2026-05-30 23:35:03
謝苗感謝周潤發,當年勸自己回去上學,網友:不聽他的你現在更紅

謝苗感謝周潤發,當年勸自己回去上學,網友:不聽他的你現在更紅

長寧區追夢影視文化傳播中心
2026-05-31 14:34:10
官方發布歐冠歷史射手榜!炸出一堆牛鬼蛇神,C羅140球穩居第一

官方發布歐冠歷史射手榜!炸出一堆牛鬼蛇神,C羅140球穩居第一

寒士之言本尊
2026-05-30 16:36:06
2026-05-31 15:48:49
車東西
車東西
未來汽車看這里。
6195文章數 6418關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

親子
藝術
家居
手機
軍事航空

親子要聞

老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

家居要聞

云棲 舒展如流云

手機要聞

國產旗艦單品過百萬盤點,這個結果意外嗎?

軍事要聞

解放軍代表質問日防衛大臣:日本何時道歉

無障礙瀏覽 進入關懷版