網易首頁 > 網易號 > 正文 申請入駐

理想汽車發布下一代自動駕駛基礎模型MindVLA-o1

0
分享至

2026年3月17日,理想汽車基座模型負責人詹錕出席NVIDIA GTC 2026,發表主題演講《MindVLA-o1:開啟全能范式——下一代統一視覺-語言-動作自動駕駛大模型探索》,發布下一代自動駕駛基礎模型MindVLA-o1。MindVLA-o1通過五大技術創新,構建了面向物理世界智能的自動駕駛基礎模型,讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。

詹錕表示:“當我們把視覺、語言和行動統一到一個模型中時,它已不再只是自動駕駛模型,而是在逐漸演化為面向物理世界的通用智能體。基于同一套VLA模型,不僅可以控制車輛,也能夠擴展到機器人。因此,自動駕駛只是物理AI的起點,未來這類基礎模型將驅動新的具身智能范式。”

從規則時代到AI時代 理想輔助駕駛持續演進

自2021年啟動輔助駕駛自研以來,理想輔助駕駛技術架構經歷了多輪關鍵迭代,持續的技術探索與工程實踐,為理想汽車在軟硬件一體化研發領域積累了深厚的基礎研究能力與研發實力。2024年是理想輔助駕駛的重要分水嶺,隨著端到端+VLM(視覺語言模型)雙系統架構量產交付,輔助駕駛首次真正具備了跨場景、跨任務的統一理解能力。2025年,理想汽車進一步將空間理解、語言理解與行動決策統一到同一模型框架,構建了基于VLA、世界模型與強化學習三大技術棧的VLA司機大模型,并于8月隨理想i8交付正式推送,9月向AD Max用戶全量推送。

截至2025年底,VLA司機大模型月使用率達到80%,VLA指令累計使用1225.4萬次;春節期間理想輔助駕駛總里程達2.5億公里,VLA指令使用次數達130.3萬次。規模化的用戶驗證與持續積累的真實場景數據,為理想汽車推進下一代自動駕駛技術演進提供了堅實基礎。

MindVLA-o1五大技術創新:看得更遠、想得更深、行得更穩、進化更快、部署更高效

理想汽車提出下一代統一架構——MindVLA-o1。該架構以原生多模態MoE Transformer為核心,通過五大技術創新——3D空間理解、多模態思考、統一行為生成、閉環強化學習(Closed-loop RL)和軟硬件協同設計(Hardware–Software Co-Design),構建了面向物理世界智能的自動駕駛基礎模型。


在感知層面,理想汽車采用以視覺為核心的 3D ViT Encoder(3D視覺模型編碼器),并利用激光雷達點云作為三維幾何提示,引導模型理解真實空間結構,使其在單一表示中同時具備語義理解與三維感知能力。同時引入前饋式3DGS表示(Feedforward 3D Representation),將場景拆分為靜態環境與動態物體分別建模,并通過下一幀預測(Next-state prediction)作為自監督信號,使模型同時學習深度信息、語義結構與物體運動,最終形成融合空間結構與時間上下文的高質量3D表示。具備3D空間理解能力,使模型看得更遠。


在思考層面,自動駕駛既要理解當前環境,也要預測未來幾秒的場景演化。在語言模型承擔語義理解、常識知識和交互能力的基礎上,理想汽車還引入了預測式隱世界模型,在隱空間中高效模擬未來。訓練分三階段:第一,用海量視頻數據預訓練Latent World Token(隱世界詞元),構建未來表征;第二,在MindVLA-o1中持續世界模型的推演,形成隱空間的未來推理能力;第三,將世界模型、多模態推理能力及駕駛行為進行聯合訓練與對齊。由此,模型不僅能理解當前場景并進行邏輯判斷,還能在隱空間中提前“想象”未來畫面,將駕駛決策具象化。理想汽車將這種能力定義為多模態思考(Generative Multimodal Thinking)。擁有多模態思考能力,讓模型想得更深。


在行為層面,理想汽車構建了統一行為生成(Unified Action Generation)機制。首先,MindVLA-o1使用VLA-MoE(混合專家模型)架構,并引入專門的Action Expert(動作專家),從3D場景特征、導航目標、駕駛指令等多維輸入中提取信息,并結合多模態思考生成高精度駕駛軌跡。其次,為滿足實時性要求,系統采用并行解碼(Parallel Decoding),同時生成所有軌跡點,大幅提升效率。最后,引入Discrete Diffusion(離散擴散)進行多輪迭代優化,類似逐步去噪,確保軌跡空間連續、時間穩定,并符合車輛動力學約束。形成統一行為生成機制,使模型行得更穩。


在模型迭代層面,理想汽車構建了閉環強化學習框架,讓模型不僅能從真實數據學習,還能在世界模擬器(World Simulator)中持續探索和優化策略。為此,理想汽車將傳統逐步優化式重建升級為Feed-forward(前饋)場景重建,使系統能夠瞬時生成大規模、高保真駕駛場景,支持大規模并行訓練。同時,結合生成式模型(Generative Models),模擬環境可擴展、編輯并生成全新場景。為支持大規模模擬與訓練,理想汽車開發了統一的3D Gaussian Splatting(3D高斯潑濺)渲染引擎和分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%,實現低成本、高效率的強化學習閉環。在閉環強化學習框架下,模型實現更快進化。


為解決傳統端側大模型部署耗時長、調試頻繁的問題,理想汽車提出面向端側大模型的軟硬件協同設計定律,將模型結構與驗證損失建模,并結合Roofline模型刻畫硬件計算能力與內存帶寬限制,在模型性能與硬件約束之間建立統一的分析框架。理想汽車基座模型團隊評估了近2000種模型架構配置,在英偉達Orin與Thor平臺上完成驗證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),將架構探索時間從數月縮短至數天,大幅提升端側VLA模型的設計與部署效率。在軟硬件協同設計定律下,模型部署更高效。


自動駕駛只是起點,為具身智能構建“數字大腦”

MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分。這套AI框架由四大核心模塊組成:MindData,統一的VLA數據引擎,負責大規模數據的采集、清洗和自動標注;MindVLA-o1,統一的原生多模態VLA模型,可以理解環境、進行推理,并生成駕駛行為;MindSim,可控的多模態世界模型,用于生成復雜駕駛場景并支持大規模閉環訓練;RL Infra(強化學習基礎設施),通過獎勵模型和策略學習,使系統在仿真與真實環境中自我進化。

四部分協同形成完整閉環,使AI能夠感知、理解并在物理世界中自主行動,并持續學習。從結構上看,這套系統如同一個“數字大腦”:感知層對應視覺皮層,推理與規劃如前額葉,場景生成似運動皮層,強化學習則類似多巴胺反饋,實現了感知、理解、行動和持續優化的完整閉環。

該框架不僅服務于汽車,也可擴展至機器人及各種物理系統。對理想汽車而言,車是最大號的機器人,其本質是在構建硅基生命體的軀干與大腦。


理想汽車在持續推進技術創新的同時,在人工智能領域頂級學術會議和期刊發表了大量研究成果,其中MindVLA-o1相關的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發表。未來,理想汽車將繼續以用戶價值為導向,投入前沿研究以及核心技術自研,持續構建面向物理世界智能的完整AI系統,堅定邁向全球領先的具身智能企業。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1959年黃克誠提議:炮擊金門的炮彈太費錢,省點用,主席笑罵摳門

1959年黃克誠提議:炮擊金門的炮彈太費錢,省點用,主席笑罵摳門

春秋硯
2026-04-24 10:55:11
王近山不經請示干掉日本戰地觀戰團,毛主席:早就聽說有個王瘋子

王近山不經請示干掉日本戰地觀戰團,毛主席:早就聽說有個王瘋子

鶴羽說個事
2026-04-20 22:56:36
90年代下崗潮楊成武將軍直言:讓下崗工人自生自滅,我心里不同意

90年代下崗潮楊成武將軍直言:讓下崗工人自生自滅,我心里不同意

明月清風閣
2026-04-23 11:40:14
玄彬嚴重發腮認不出,發型油膩土氣,網友辣評:孩子是他生的?

玄彬嚴重發腮認不出,發型油膩土氣,網友辣評:孩子是他生的?

手工制作阿殲
2026-04-24 15:43:58
別盲目買電車!比亞迪海鷗車主實測2萬公里,賬算完反而多花幾千

別盲目買電車!比亞迪海鷗車主實測2萬公里,賬算完反而多花幾千

復轉這些年
2026-04-23 23:36:08
58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

墨印齋
2026-04-24 16:43:38
俄羅斯為什么刪除20年法院數據:審判記錄一夜清空

俄羅斯為什么刪除20年法院數據:審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
日本89歲老將復出,中方四箭齊發抗議無效

日本89歲老將復出,中方四箭齊發抗議無效

像夢一場a
2026-04-24 16:51:45
3-10慘敗出局!斯諾克排名大洗牌 丁俊暉第15 一人或將登頂世界第

3-10慘敗出局!斯諾克排名大洗牌 丁俊暉第15 一人或將登頂世界第

鳥語花香的季節
2026-04-24 09:52:28
南海集結14艘主力艦艇,比隔壁美日菲“肩并肩”演習規模還要大

南海集結14艘主力艦艇,比隔壁美日菲“肩并肩”演習規模還要大

三叔的裝備空間
2026-04-24 13:35:41
重慶洪崖洞有人將狗染成黑白色偽裝成熊貓,20元一次可抱著拍照,狗已睜不開眼;景區回應:不是景區商戶,以后會重點關注此類情況

重慶洪崖洞有人將狗染成黑白色偽裝成熊貓,20元一次可抱著拍照,狗已睜不開眼;景區回應:不是景區商戶,以后會重點關注此類情況

大象新聞
2026-04-23 21:49:02
黃仁勛警告:若DeepSeek率先適配華為,對美國是"極其愚蠢"的結果

黃仁勛警告:若DeepSeek率先適配華為,對美國是"極其愚蠢"的結果

新浪財經
2026-04-23 20:52:12
廣東3消息!薩姆納官宣賽季報銷,薩林杰新下家出爐,深圳簽新外

廣東3消息!薩姆納官宣賽季報銷,薩林杰新下家出爐,深圳簽新外

郝小小看體育
2026-04-24 10:52:44
美海軍上將:美國正進行二戰結束以來最大規模潛艇建造,“馬薩諸塞”號新型攻擊核潛艇上月已正式入列

美海軍上將:美國正進行二戰結束以來最大規模潛艇建造,“馬薩諸塞”號新型攻擊核潛艇上月已正式入列

極目新聞
2026-04-23 10:57:06
海南今天降雨增多氣溫下降 局地有大到暴雨并伴強對流

海南今天降雨增多氣溫下降 局地有大到暴雨并伴強對流

北青網-北京青年報
2026-04-24 10:36:12
廣東3消息!薩姆納官宣賽季報銷,薩林杰新下家出爐,深圳簽新外

廣東3消息!薩姆納官宣賽季報銷,薩林杰新下家出爐,深圳簽新外

多特體育說
2026-04-24 10:21:03
為什么反腐永遠停不下來?答案可能和你想的不一樣

為什么反腐永遠停不下來?答案可能和你想的不一樣

細說職場
2026-04-24 16:33:34
賴清德無法竄訪,鄭麗文表態后,藍營改口,柯文哲做出驚人預言

賴清德無法竄訪,鄭麗文表態后,藍營改口,柯文哲做出驚人預言

DS北風
2026-04-23 11:52:05
AI竟能生成《金瓶梅》"3A大作"!尺度很大細節夸張

AI竟能生成《金瓶梅》"3A大作"!尺度很大細節夸張

游民星空
2026-04-22 11:55:38
39歲前國腳現狀:定居美國踢野球,早已財富自由,有2個可愛女兒

39歲前國腳現狀:定居美國踢野球,早已財富自由,有2個可愛女兒

攬星河的筆記
2026-04-14 15:18:30
2026-04-24 17:40:49
旭車評 incentive-icons
旭車評
網絡飛速 放慢腳步做車評
795文章數 63關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

媒體:伊朗將恢復往返中國航班 霍爾木茲決戰或收兵了

頭條要聞

媒體:伊朗將恢復往返中國航班 霍爾木茲決戰或收兵了

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

教育
親子
游戲
健康
時尚

教育要聞

山東省“書香校園”聯盟成立

親子要聞

4歲小孩當老師,來上一堂情緒管理課

數毛社銳評PS獨占第一方新作!虛幻5粒子特效天花板

干細胞如何讓燒燙傷皮膚"再生"?

水晶專場 || 一眼就淪陷的絕美水晶,百元級的快樂

無障礙瀏覽 進入關懷版