![]()
車東西(公眾號:chedongxi)
作者 | Janson
編輯 | 志豪
理想汽車12篇論文入選計算機視覺頂會CVPR!
車東西6月8日消息,日前,計算機視覺與模式識別領域的頂級會議CVPR 2026召開,理想汽車12篇論文入選,同時還有多篇論文參與了現場討論和發表。
作為與ICCV、ECCV并稱為計算機視覺三大頂會,一次入選12篇論文的含金量不言而喻。
此次理想汽車入選的12篇論文,覆蓋世界模型、端到端規劃、多模態感知、強化學習、認知模型、語言與視覺智能等關鍵方向。
可以說,理想汽車的智能化競爭正在從產品功能,進一步深入到底層模型、仿真、安全和推理能力。
而這背后,也是理想汽車近幾年持續加碼研發的結果。
據理想汽車方面透露,截至2026年一季度末,理想汽車已連續5個季度保持30億元左右的研發投入,相當于理想汽車五個季度就投入了約150億的研發費用,2025年全年研發費用也是達到113億元。
近5年來,理想汽車已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA等頂級會議和期刊上發表近百篇論文。
不過,相比單純看“發了多少篇”,更值得關注的是,這12篇論文分別解決了什么問題。
對此,車東西拆解了這12篇論文,幫你總結理想汽車在自動駕駛底層技術上的四條主線。
一、拿下世界模型四項突破 仿真與安全基座升級
在自動駕駛領域,世界模型要解決的,是車輛能否在行動前先理解和推演這個世界。
此次理想汽車共有四篇世界模型方向論文入選CVPR 2026,分別從深度估計、三維重建、交通規則認知評估和安全風險預判四個層面展開,形成了從“還原真實世界”到“理解交通規則”,再到“預判危險后果”的技術鏈路。
道路結構會如何變化,其他交通參與體可能怎樣運動,一條軌跡會不會帶來風險,復雜交通規則之間又該如何取舍。
對面向真實道路的自動駕駛來說,世界模型不僅是仿真的基礎,也是提升安全性和長尾場景處理能力的重要底座。
![]()
▲InfiniDepth高精度連續深度估計方法示意
在幾何理解層面,InfiniDepth(一種高精度連續深度估計方法)關注的是車輛理解三維世界時最基礎也最關鍵的問題——深度。
傳統深度估計方法通常在固定分辨率的圖像網格上預測結果,容易受分辨率限制,細小結構和幾何邊界不夠精細。
InfiniDepth將深度表示為連續的神經隱式場,使模型可以在任意二維坐標上查詢深度,從而支持更高分辨率、更細粒度的深度估計,并在精細區域和新視角合成任務中表現出優勢。
對于車輛場景而言,這類能力有助于更準確地恢復道路、車輛、障礙物等三維結構,為后續仿真和環境建模提供更可靠的幾何基礎。
如此一來,車輛能更精細地判斷畫面中每個物體離自己有多遠,為三維環境還原和仿真建模打基礎。
![]()
▲Unposed-to-3D真實駕駛圖像生成三維車輛能力
在仿真資產構建層面,Unposed-to-3D(一種真實駕駛圖像生成三維車輛能力)解決的是另一個現實問題,高質量三維車輛資產從哪里來。
論文指出,現有三維車輛生成方法往往依賴合成數據訓練,和真實道路圖像存在域差距,生成結果還可能存在姿態不統一、尺度不準確等問題,難以直接放入駕駛仿真環境。
Unposed-to-3D通過兩階段框架,從真實駕駛圖像中學習三維車輛重建,并引入尺度感知和外觀協調模塊,使生成車輛在尺寸、姿態和光照外觀上更適合真實駕駛場景仿真。
這意味著,未來構建大規模、多樣化的仿真交通環境,可以更少依賴人工建模,更高效地從真實世界中獲取可用資產。
![]()
▲DriveCombo復雜交通規則推理評測框架
世界模型不僅要“看得準”“建得真”,還要能理解交通世界里的規則,對此,理想發布的DriveCombo正是面向復雜交通規則推理提出的評測基準。
論文指出,已有交通規則評測往往停留在單一規則場景,例如識別交通標志或簡單路權判斷,但真實駕駛中更常見的是多條規則同時出現,甚至發生沖突。
DriveCombo構建了文本與視覺結合的組合式交通規則推理基準,并提出五級認知階梯,從單規則理解逐步提升到多規則整合和沖突消解。
對14個主流多模態大模型的評估顯示,隨著任務復雜度提升,模型性能會系統性下降,尤其在規則沖突場景中更明顯。
簡單說,DriveCombo不是一個駕駛模型,而是一套“考試題”,用來測試多模態大模型能不能理解復雜交通規則,尤其是多條規則沖突時該怎么判斷。
![]()
▲AD-R1面向安全預判的公正世界模型整體框架
除此之外,安全預判則是世界模型走向閉環訓練的關鍵一步。AD-R1聚焦端到端駕駛強化學習中的一個核心難題:如果世界模型只在安全專家數據上訓練,它可能會形成“樂觀偏差”——面對危險軌跡時,仍然傾向于預測一個看似安全的未來,例如忽略碰撞或道路邊界風險。
AD-R1提出“公正世界模型”的概念,通過反事實合成生成碰撞、駛離道路等風險場景,讓模型學會真實預測危險后果,并將其作為閉環強化學習中的內部評論器,為候選動作提供安全反饋。
換句話說,模型不只是學習“好司機怎么開”,也要學會“錯誤動作會導致什么后果”。這對于提升系統在長尾風險場景下的可靠性,具有直接意義。
如此一來,世界模型不再只是生成逼真的畫面或場景,而是在向更完整的“可推演、可評估、可用于訓練”的智能系統演進。
這四項研究共同構成了理想汽車在世界模型方向的系統性布局,也為智駕從“看見世界”走向“理解世界、推演世界并規避風險”提供了更堅實的技術支撐。
二、認知對齊與語言、視覺智能 讓模型推理更準更快
在訓練側世界模型是關鍵,而在推理側,認知對齊、語言、視覺智能也是十分重要的一環。
要讓車輛從“看見道路”進一步走向“理解道路”,模型需要具備的不只是識別能力,還包括連續認知、語言理解、動作生成以及高效部署能力。
如何讓模型不只是“識別得準”,而是能夠連續地理解、準確地對齊、高效地推理,并最終可靠地執行是關鍵。
針對上述問題,理想拿出了5篇關鍵研究。CogDriver提升駕駛決策的時序穩定性,LinkVLA打通語言理解與動作生成,FastMMoE降低多模態大模型推理成本,CoV-Align提升視覺與語言的細粒度對齊效率,Switch-KD則讓大模型能力更容易遷移到輕量模型。
它們共同構成了理想汽車在認知模型、語言智能和視覺智能方向的技術積累,也讓車輛從“看見和判斷”進一步走向“理解、推理和行動”。
![]()
▲CogDriver提升駕駛決策時序穩定性的方法示意
在駕駛認知層面,CogDriver關注的是當前視覺語言模型在時序理解上的短板,有助于讓系統更好的理解駕駛場景。很多模型處理駕駛場景時,更像是在逐幀“看圖說話”,缺乏對歷史狀態和持續意圖的記憶,容易造成決策抖動,難以完成復雜連續動作。
CogDriver引入“認知慣性”機制,通過大規模視覺—語言—動作數據集提供時序監督,并在智能體中加入稀疏時序記憶模塊,讓模型能夠形成更穩定的內部狀態。
實驗顯示,CogDriver在Bench2Drive閉環駕駛得分上提升22%,在nuScenes上將平均軌跡誤差降低21%,說明時序一致性對于提升規劃穩定性具有直接價值。
不難看出,CogDriver就是給駕駛模型加入“記憶”和“慣性”,讓它做決策時不再只看當前一幀,而是結合前后狀態保持判斷穩定。
如果說CogDriver解決的是“連續理解”的問題,那么LinkVLA更進一步面向“理解之后如何行動”。
視覺語言動作模型被認為是端到端駕駛的重要方向,但現有方法常常存在兩個問題:一是語言指令和動作輸出之間對不齊,二是逐步生成動作序列導致推理效率較低。
![]()
▲LinkVLA打通語言理解與動作生成的整體框架
LinkVLA通過把語言和動作統一到共享離散碼本中,從結構上強化跨模態一致性;同時引入動作理解輔助任務,讓模型既能從語言到動作,也能從軌跡反推語義描述。
它還采用由粗到細的兩步生成方式替代傳統逐步解碼,在閉環駕駛基準中提升指令遵循和駕駛表現的同時,節省了86%的推理時間。
如此一來,通過LinkVLA就可以讓系統延遲更低,更聰明。
模型變得更聰明之后,另一個現實問題是:能不能跑得更快、更輕。
![]()
▲FastMMoE多模態大模型免訓練加速方法示意
FastMMoE面向MoE架構多模態大模型提出免訓練加速框架,從路由行為入手,一方面減少視覺Token不必要的專家激活,另一方面根據路由概率分布識別并裁剪冗余視覺Token。
相比單純從注意力權重判斷哪些Token可以刪除,FastMMoE更貼近MoE模型本身的計算機制。
實驗表明,在DeepSeek-VL2、InternVL3.5等模型上,FastMMoE最高可減少55%的FLOPs,同時保留約95.5%的原始性能。
這類方法對于車端、座艙等對延遲和算力敏感的場景很有幫助,讓多模態大模型“減負”,在盡量不損失能力的前提下減少計算量,讓模型跑得更快。
與此同時,在多模態理解中,語言和視覺之間能否精準對齊,同樣決定了模型是否真正“看懂了”。
![]()
▲CoV-Align圖像區域與語言描述細粒度對齊方法示意
CoV-Align聚焦圖像區域與文字描述之間的細粒度對齊。傳統方法往往依賴文本引導去聚合圖像區域,容易產生冗余的patch-word匹配,計算成本也較高。
CoV-Align提出“內聚視覺語義優先”的思路,先在不依賴文本的情況下,把語義一致的視覺區域聚合起來,再進行跨模態對齊。這樣既減少了噪聲,也提升了效率。
論文顯示,CoV-Align在Flickr30K和MS-COCO等圖文評測基準上達到領先表現,并帶來3至5倍計算加速,為大規模多模態任務提供了更高效的對齊路徑。
最后,Switch-KD關注的是大模型能力如何遷移到小模型。
![]()
▲Switch-KD面向視覺語言小模型的知識蒸餾框架
視覺語言模型能力強,但參數規模大、部署成本高;傳統知識蒸餾又常常把視覺和語言分開監督,容易造成跨模態知識傳遞不充分。
Switch-KD提出視覺切換蒸餾框架,將視覺—語言知識統一到共享的文本概率空間中,讓小模型能夠更有效地學習大模型的多模態理解能力。
論文顯示,0.5B TinyLLaVA在3B教師模型指導下,在10個多模態基準上平均提升3.6分,且無需改變模型結構。
對于需要在有限算力下運行的車端邊緣計算和智能座艙場景,這類輕量化能力同樣關鍵,可以讓小模型也能具備更強的視覺語言理解能力。
三、端到端規劃升級 讓模型從“看懂場景”走向“形成目標”
相比把感知、預測、規劃拆成多個獨立模塊,端到端方法希望模型能夠直接從傳感器輸入中理解道路環境,并生成可執行的駕駛軌跡。
但現實駕駛場景并不只是簡單的圖像識別問題:車輛需要理解三維空間關系、交通參與體行為、道路結構變化,以及自身下一步應該達到的短期目標。
理想汽車提出的SGDrive,正是圍繞這一問題展開。
![]()
▲SGDrive場景、交通參與體、目標層級規劃框架
論文指出,SGDrive可以將駕駛理解拆解為更接近人類駕駛認知的層級結構:先理解整體場景,再關注關鍵交通參與體及其行為,最后形成短期目標并執行動作。
論文將這一結構概括為Scene-Agent-Goal,也就是“場景—交通參與體—目標”的層級認知框架。
這種設計的價值在于,它不是簡單地讓模型“看圖后直接輸出軌跡”,而是給模型補上了駕駛任務所需的中間認知過程。
![]()
▲SGDrive的構成
人類駕駛員在復雜路口或擁堵道路中,也不會只根據單幀畫面做判斷,而是會先把握道路整體格局,再判斷哪些車輛、行人或障礙物會影響自身行駛,最后形成一個可執行的短期目標。
SGDrive將這種過程結構化地注入模型,使通用視覺語言模型能夠圍繞駕駛知識進行表示學習,從而更好地服務軌跡規劃。
從實驗結果看,SGDrive在NAVSIM基準上取得了純視覺方法中的領先表現,驗證了層級化駕駛知識結構對于端到端規劃的有效性。
簡單來說,SGDrive就是讓模型像人類駕駛員一樣,先看整體道路環境,再判斷關鍵車輛和行人,最后形成下一步駕駛目標。
四、多模態感知與強化學習 提升環境預判與規劃優化能力
在端到端規劃中,模型需要從復雜道路環境中形成合理駕駛目標,而要讓這一目標真正可靠,前提是系統既要能提前預判環境變化,也要能在不斷試錯和反饋中優化規劃策略。
此次理想汽車入選CVPR的SparseWorld-TC和PlannerRFT,分別從多模態感知和強化學習兩個方向切入。
前者關注車輛如何更準確地理解未來場景,后者關注規劃器如何在閉環訓練中生成更優軌跡。
![]()
▲SparseWorld-TC未來三維場景占據預測方法示意
SparseWorld-TC解決的是未來三維場景預測問題。對于車輛而言,僅僅識別當前一刻的道路、車輛和障礙物并不夠,更關鍵的是判斷接下來幾秒鐘內環境會如何演化。
傳統方法通常依賴鳥瞰圖投影或離散化占據token,這類中間表示雖然便于建模,但也可能帶來信息壓縮和表達能力限制。
SparseWorld-TC則采用稀疏占據表示,直接從原始圖像特征出發,端到端預測未來多幀三維場景占據情況,從而繞開BEV投影和離散token表示的雙重瓶頸。
畢竟,真實道路上的風險往往不是靜態出現的,而是在車輛、行人、道路結構和自身軌跡共同變化中逐步形成的。
SparseWorld-TC通過軌跡條件化的方式,讓車輛提前預測未來幾秒周圍三維空間會發生什么變化,從而為后續規劃提供更可靠的環境預判。
如果說SparseWorld-TC讓系統更好地“預判世界”,那么PlannerRFT則進一步關注如何讓規劃器在反饋中變得更強。
近年來,擴散模型被用于生成更接近人類駕駛習慣的軌跡,但在強化微調過程中,如何生成多樣化、場景自適應的軌跡,仍然是一個難點。
![]()
▲PlannerRFT擴散規劃器強化微調整體框架
PlannerRFT提出面向擴散規劃器的樣本高效強化微調框架,通過雙分支優化同時調整軌跡分布,并自適應引導去噪過程,在不改變原始推理流程的前提下,讓規劃器更有效地探索高價值軌跡。
更重要的是,PlannerRFT還同步開發了nuMax仿真器,用于支撐大規模并行學習。
論文顯示,nuMax的軌跡推演速度相比原生nuPlan提升10倍,為強化學習訓練提供了更高效的閉環環境。
如此一來,通過強化學習不斷優化軌跡規劃器,可以讓PlannerRFT在仿真反饋中學會生成更合理、更適應場景的駕駛軌跡。
結語:理想全方位布局自動駕駛
從這12篇入選論文可以看到,理想汽車的技術布局并非停留在單點能力突破,而是圍繞智駕構建一套更完整的能力鏈條。
世界模型負責還原、推演與評估真實道路環境,認知對齊與語言、視覺智能提升理解和推理效率。
端到端規劃讓模型形成駕駛目標,多模態感知與強化學習則進一步強化環境預判和閉環優化能力。
對于理想汽車而言,這些研究共同指向同一個方向:讓車輛不僅能看見世界,更能理解世界、推演未來,并在復雜場景中做出更可靠的行動選擇。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.