網易首頁 > 網易號 > 正文申請入駐

理想狂砸150億研發！連甩12篇頂會論文，把自動駕駛的“家底”都亮出來了

2026-06-08 20:17:03　來源: 車東西

北京舉報

分享至

車東西（公眾號：chedongxi）
作者｜ Janson
編輯｜志豪

理想汽車12篇論文入選計算機視覺頂會CVPR！

車東西6月8日消息，日前，計算機視覺與模式識別領域的頂級會議CVPR 2026召開，理想汽車12篇論文入選，同時還有多篇論文參與了現場討論和發表。

作為與ICCV、ECCV并稱為計算機視覺三大頂會，一次入選12篇論文的含金量不言而喻。

此次理想汽車入選的12篇論文，覆蓋世界模型、端到端規劃、多模態感知、強化學習、認知模型、語言與視覺智能等關鍵方向。

可以說，理想汽車的智能化競爭正在從產品功能，進一步深入到底層模型、仿真、安全和推理能力。

而這背后，也是理想汽車近幾年持續加碼研發的結果。

據理想汽車方面透露，截至2026年一季度末，理想汽車已連續5個季度保持30億元左右的研發投入，相當于理想汽車五個季度就投入了約150億的研發費用，2025年全年研發費用也是達到113億元。

近5年來，理想汽車已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA等頂級會議和期刊上發表近百篇論文。

不過，相比單純看“發了多少篇”，更值得關注的是，這12篇論文分別解決了什么問題。

對此，車東西拆解了這12篇論文，幫你總結理想汽車在自動駕駛底層技術上的四條主線。

一、拿下世界模型四項突破仿真與安全基座升級

在自動駕駛領域，世界模型要解決的，是車輛能否在行動前先理解和推演這個世界。

此次理想汽車共有四篇世界模型方向論文入選CVPR 2026，分別從深度估計、三維重建、交通規則認知評估和安全風險預判四個層面展開，形成了從“還原真實世界”到“理解交通規則”，再到“預判危險后果”的技術鏈路。

道路結構會如何變化，其他交通參與體可能怎樣運動，一條軌跡會不會帶來風險，復雜交通規則之間又該如何取舍。

對面向真實道路的自動駕駛來說，世界模型不僅是仿真的基礎，也是提升安全性和長尾場景處理能力的重要底座。

▲InfiniDepth高精度連續深度估計方法示意

在幾何理解層面，InfiniDepth（一種高精度連續深度估計方法）關注的是車輛理解三維世界時最基礎也最關鍵的問題——深度。

傳統深度估計方法通常在固定分辨率的圖像網格上預測結果，容易受分辨率限制，細小結構和幾何邊界不夠精細。

InfiniDepth將深度表示為連續的神經隱式場，使模型可以在任意二維坐標上查詢深度，從而支持更高分辨率、更細粒度的深度估計，并在精細區域和新視角合成任務中表現出優勢。

對于車輛場景而言，這類能力有助于更準確地恢復道路、車輛、障礙物等三維結構，為后續仿真和環境建模提供更可靠的幾何基礎。

如此一來，車輛能更精細地判斷畫面中每個物體離自己有多遠，為三維環境還原和仿真建模打基礎。

▲Unposed-to-3D真實駕駛圖像生成三維車輛能力

在仿真資產構建層面，Unposed-to-3D（一種真實駕駛圖像生成三維車輛能力）解決的是另一個現實問題，高質量三維車輛資產從哪里來。

論文指出，現有三維車輛生成方法往往依賴合成數據訓練，和真實道路圖像存在域差距，生成結果還可能存在姿態不統一、尺度不準確等問題，難以直接放入駕駛仿真環境。

Unposed-to-3D通過兩階段框架，從真實駕駛圖像中學習三維車輛重建，并引入尺度感知和外觀協調模塊，使生成車輛在尺寸、姿態和光照外觀上更適合真實駕駛場景仿真。

這意味著，未來構建大規模、多樣化的仿真交通環境，可以更少依賴人工建模，更高效地從真實世界中獲取可用資產。

▲DriveCombo復雜交通規則推理評測框架

世界模型不僅要“看得準”“建得真”，還要能理解交通世界里的規則，對此，理想發布的DriveCombo正是面向復雜交通規則推理提出的評測基準。

論文指出，已有交通規則評測往往停留在單一規則場景，例如識別交通標志或簡單路權判斷，但真實駕駛中更常見的是多條規則同時出現，甚至發生沖突。

DriveCombo構建了文本與視覺結合的組合式交通規則推理基準，并提出五級認知階梯，從單規則理解逐步提升到多規則整合和沖突消解。

對14個主流多模態大模型的評估顯示，隨著任務復雜度提升，模型性能會系統性下降，尤其在規則沖突場景中更明顯。

簡單說，DriveCombo不是一個駕駛模型，而是一套“考試題”，用來測試多模態大模型能不能理解復雜交通規則，尤其是多條規則沖突時該怎么判斷。

▲AD-R1面向安全預判的公正世界模型整體框架

除此之外，安全預判則是世界模型走向閉環訓練的關鍵一步。AD-R1聚焦端到端駕駛強化學習中的一個核心難題：如果世界模型只在安全專家數據上訓練，它可能會形成“樂觀偏差”——面對危險軌跡時，仍然傾向于預測一個看似安全的未來，例如忽略碰撞或道路邊界風險。

AD-R1提出“公正世界模型”的概念，通過反事實合成生成碰撞、駛離道路等風險場景，讓模型學會真實預測危險后果，并將其作為閉環強化學習中的內部評論器，為候選動作提供安全反饋。

換句話說，模型不只是學習“好司機怎么開”，也要學會“錯誤動作會導致什么后果”。這對于提升系統在長尾風險場景下的可靠性，具有直接意義。

如此一來，世界模型不再只是生成逼真的畫面或場景，而是在向更完整的“可推演、可評估、可用于訓練”的智能系統演進。

這四項研究共同構成了理想汽車在世界模型方向的系統性布局，也為智駕從“看見世界”走向“理解世界、推演世界并規避風險”提供了更堅實的技術支撐。

二、認知對齊與語言、視覺智能讓模型推理更準更快

在訓練側世界模型是關鍵，而在推理側，認知對齊、語言、視覺智能也是十分重要的一環。

要讓車輛從“看見道路”進一步走向“理解道路”，模型需要具備的不只是識別能力，還包括連續認知、語言理解、動作生成以及高效部署能力。

如何讓模型不只是“識別得準”，而是能夠連續地理解、準確地對齊、高效地推理，并最終可靠地執行是關鍵。

針對上述問題，理想拿出了5篇關鍵研究。CogDriver提升駕駛決策的時序穩定性，LinkVLA打通語言理解與動作生成，FastMMoE降低多模態大模型推理成本，CoV-Align提升視覺與語言的細粒度對齊效率，Switch-KD則讓大模型能力更容易遷移到輕量模型。

它們共同構成了理想汽車在認知模型、語言智能和視覺智能方向的技術積累，也讓車輛從“看見和判斷”進一步走向“理解、推理和行動”。

▲CogDriver提升駕駛決策時序穩定性的方法示意

在駕駛認知層面，CogDriver關注的是當前視覺語言模型在時序理解上的短板，有助于讓系統更好的理解駕駛場景。很多模型處理駕駛場景時，更像是在逐幀“看圖說話”，缺乏對歷史狀態和持續意圖的記憶，容易造成決策抖動，難以完成復雜連續動作。

CogDriver引入“認知慣性”機制，通過大規模視覺—語言—動作數據集提供時序監督，并在智能體中加入稀疏時序記憶模塊，讓模型能夠形成更穩定的內部狀態。

實驗顯示，CogDriver在Bench2Drive閉環駕駛得分上提升22%，在nuScenes上將平均軌跡誤差降低21%，說明時序一致性對于提升規劃穩定性具有直接價值。

不難看出，CogDriver就是給駕駛模型加入“記憶”和“慣性”，讓它做決策時不再只看當前一幀，而是結合前后狀態保持判斷穩定。

如果說CogDriver解決的是“連續理解”的問題，那么LinkVLA更進一步面向“理解之后如何行動”。

視覺語言動作模型被認為是端到端駕駛的重要方向，但現有方法常常存在兩個問題：一是語言指令和動作輸出之間對不齊，二是逐步生成動作序列導致推理效率較低。

▲LinkVLA打通語言理解與動作生成的整體框架

LinkVLA通過把語言和動作統一到共享離散碼本中，從結構上強化跨模態一致性；同時引入動作理解輔助任務，讓模型既能從語言到動作，也能從軌跡反推語義描述。

它還采用由粗到細的兩步生成方式替代傳統逐步解碼，在閉環駕駛基準中提升指令遵循和駕駛表現的同時，節省了86%的推理時間。

如此一來，通過LinkVLA就可以讓系統延遲更低，更聰明。

模型變得更聰明之后，另一個現實問題是：能不能跑得更快、更輕。

▲FastMMoE多模態大模型免訓練加速方法示意

FastMMoE面向MoE架構多模態大模型提出免訓練加速框架，從路由行為入手，一方面減少視覺Token不必要的專家激活，另一方面根據路由概率分布識別并裁剪冗余視覺Token。

相比單純從注意力權重判斷哪些Token可以刪除，FastMMoE更貼近MoE模型本身的計算機制。

實驗表明，在DeepSeek-VL2、InternVL3.5等模型上，FastMMoE最高可減少55%的FLOPs，同時保留約95.5%的原始性能。

這類方法對于車端、座艙等對延遲和算力敏感的場景很有幫助，讓多模態大模型“減負”，在盡量不損失能力的前提下減少計算量，讓模型跑得更快。

與此同時，在多模態理解中，語言和視覺之間能否精準對齊，同樣決定了模型是否真正“看懂了”。

▲CoV-Align圖像區域與語言描述細粒度對齊方法示意

CoV-Align聚焦圖像區域與文字描述之間的細粒度對齊。傳統方法往往依賴文本引導去聚合圖像區域，容易產生冗余的patch-word匹配，計算成本也較高。

CoV-Align提出“內聚視覺語義優先”的思路，先在不依賴文本的情況下，把語義一致的視覺區域聚合起來，再進行跨模態對齊。這樣既減少了噪聲，也提升了效率。

論文顯示，CoV-Align在Flickr30K和MS-COCO等圖文評測基準上達到領先表現，并帶來3至5倍計算加速，為大規模多模態任務提供了更高效的對齊路徑。

最后，Switch-KD關注的是大模型能力如何遷移到小模型。

▲Switch-KD面向視覺語言小模型的知識蒸餾框架

視覺語言模型能力強，但參數規模大、部署成本高；傳統知識蒸餾又常常把視覺和語言分開監督，容易造成跨模態知識傳遞不充分。

Switch-KD提出視覺切換蒸餾框架，將視覺—語言知識統一到共享的文本概率空間中，讓小模型能夠更有效地學習大模型的多模態理解能力。

論文顯示，0.5B TinyLLaVA在3B教師模型指導下，在10個多模態基準上平均提升3.6分，且無需改變模型結構。

對于需要在有限算力下運行的車端邊緣計算和智能座艙場景，這類輕量化能力同樣關鍵，可以讓小模型也能具備更強的視覺語言理解能力。

三、端到端規劃升級讓模型從“看懂場景”走向“形成目標”

相比把感知、預測、規劃拆成多個獨立模塊，端到端方法希望模型能夠直接從傳感器輸入中理解道路環境，并生成可執行的駕駛軌跡。

但現實駕駛場景并不只是簡單的圖像識別問題：車輛需要理解三維空間關系、交通參與體行為、道路結構變化，以及自身下一步應該達到的短期目標。

理想汽車提出的SGDrive，正是圍繞這一問題展開。

▲SGDrive場景、交通參與體、目標層級規劃框架

論文指出，SGDrive可以將駕駛理解拆解為更接近人類駕駛認知的層級結構：先理解整體場景，再關注關鍵交通參與體及其行為，最后形成短期目標并執行動作。

論文將這一結構概括為Scene-Agent-Goal，也就是“場景—交通參與體—目標”的層級認知框架。

這種設計的價值在于，它不是簡單地讓模型“看圖后直接輸出軌跡”，而是給模型補上了駕駛任務所需的中間認知過程。

▲SGDrive的構成

人類駕駛員在復雜路口或擁堵道路中，也不會只根據單幀畫面做判斷，而是會先把握道路整體格局，再判斷哪些車輛、行人或障礙物會影響自身行駛，最后形成一個可執行的短期目標。

SGDrive將這種過程結構化地注入模型，使通用視覺語言模型能夠圍繞駕駛知識進行表示學習，從而更好地服務軌跡規劃。

從實驗結果看，SGDrive在NAVSIM基準上取得了純視覺方法中的領先表現，驗證了層級化駕駛知識結構對于端到端規劃的有效性。

簡單來說，SGDrive就是讓模型像人類駕駛員一樣，先看整體道路環境，再判斷關鍵車輛和行人，最后形成下一步駕駛目標。

四、多模態感知與強化學習提升環境預判與規劃優化能力

在端到端規劃中，模型需要從復雜道路環境中形成合理駕駛目標，而要讓這一目標真正可靠，前提是系統既要能提前預判環境變化，也要能在不斷試錯和反饋中優化規劃策略。

此次理想汽車入選CVPR的SparseWorld-TC和PlannerRFT，分別從多模態感知和強化學習兩個方向切入。

前者關注車輛如何更準確地理解未來場景，后者關注規劃器如何在閉環訓練中生成更優軌跡。

▲SparseWorld-TC未來三維場景占據預測方法示意

SparseWorld-TC解決的是未來三維場景預測問題。對于車輛而言，僅僅識別當前一刻的道路、車輛和障礙物并不夠，更關鍵的是判斷接下來幾秒鐘內環境會如何演化。

傳統方法通常依賴鳥瞰圖投影或離散化占據token，這類中間表示雖然便于建模，但也可能帶來信息壓縮和表達能力限制。

SparseWorld-TC則采用稀疏占據表示，直接從原始圖像特征出發，端到端預測未來多幀三維場景占據情況，從而繞開BEV投影和離散token表示的雙重瓶頸。

畢竟，真實道路上的風險往往不是靜態出現的，而是在車輛、行人、道路結構和自身軌跡共同變化中逐步形成的。

SparseWorld-TC通過軌跡條件化的方式，讓車輛提前預測未來幾秒周圍三維空間會發生什么變化，從而為后續規劃提供更可靠的環境預判。

如果說SparseWorld-TC讓系統更好地“預判世界”，那么PlannerRFT則進一步關注如何讓規劃器在反饋中變得更強。

近年來，擴散模型被用于生成更接近人類駕駛習慣的軌跡，但在強化微調過程中，如何生成多樣化、場景自適應的軌跡，仍然是一個難點。

▲PlannerRFT擴散規劃器強化微調整體框架

PlannerRFT提出面向擴散規劃器的樣本高效強化微調框架，通過雙分支優化同時調整軌跡分布，并自適應引導去噪過程，在不改變原始推理流程的前提下，讓規劃器更有效地探索高價值軌跡。

更重要的是，PlannerRFT還同步開發了nuMax仿真器，用于支撐大規模并行學習。

論文顯示，nuMax的軌跡推演速度相比原生nuPlan提升10倍，為強化學習訓練提供了更高效的閉環環境。

如此一來，通過強化學習不斷優化軌跡規劃器，可以讓PlannerRFT在仿真反饋中學會生成更合理、更適應場景的駕駛軌跡。

結語：理想全方位布局自動駕駛

從這12篇入選論文可以看到，理想汽車的技術布局并非停留在單點能力突破，而是圍繞智駕構建一套更完整的能力鏈條。

世界模型負責還原、推演與評估真實道路環境，認知對齊與語言、視覺智能提升理解和推理效率。

端到端規劃讓模型形成駕駛目標，多模態感知與強化學習則進一步強化環境預判和閉環優化能力。

對于理想汽車而言，這些研究共同指向同一個方向：讓車輛不僅能看見世界，更能理解世界、推演未來，并在復雜場景中做出更可靠的行動選擇。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

車東西

未來汽車看這里。

6226文章數 6419關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

游戲

親子

家居

手機 / 數碼

房產 / 家居

理想狂砸150億研發！連甩12篇頂會論文，把自動駕駛的“家底”都亮出來了

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

內塔尼亞胡：特朗普不打伊朗了 沒提前告訴我

內塔尼亞胡：特朗普不打伊朗了 沒提前告訴我

歐洲恐韓？肉德維德？

一天4個瓜，肖戰熱巴最意外

萬億美元順差背后，透露這些信號

鴻蒙7發布，余承東：首個完成AI化改造系統

態度原創

老人、小孩、孕婦，吃粽子有啥風險

綿陽中考作文題公布！直擊綿陽中考首日

《羊蹄山之魂》PS5銷量近500萬 《馬拉松》不到35萬

給孩子報個幼兒園還要工資流水？難道這就是傳說中的“因財施教”

空間微調 移形換境

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起

內塔尼亞胡：特朗普不打伊朗了沒提前告訴我

內塔尼亞胡：特朗普不打伊朗了沒提前告訴我

《羊蹄山之魂》PS5銷量近500萬《馬拉松》不到35萬

空間微調移形換境