亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

理想汽車(chē)發(fā)布下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1 向具身智能通用模型進(jìn)化

0
分享至

3月17日,理想汽車(chē)基座模型負(fù)責(zé)人詹錕出席NVIDIA GTC 2026,發(fā)表主題演講《MindVLA-o1:開(kāi)啟全能范式——下一代統(tǒng)一視覺(jué)-語(yǔ)言-動(dòng)作自動(dòng)駕駛大模型探索》,發(fā)布下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1。MindVLA-o1通過(guò)五大技術(shù)創(chuàng)新,構(gòu)建了面向物理世界智能的自動(dòng)駕駛基礎(chǔ)模型,讓自動(dòng)駕駛看得更遠(yuǎn)、想得更深、行得更穩(wěn)、進(jìn)化更快、部署更高效。

詹錕表示:“當(dāng)我們把視覺(jué)、語(yǔ)言和行動(dòng)統(tǒng)一到一個(gè)模型中時(shí),它已不再只是自動(dòng)駕駛模型,而是在逐漸演化為面向物理世界的通用智能體。基于同一套VLA模型,不僅可以控制車(chē)輛,也能夠擴(kuò)展到機(jī)器人。因此,自動(dòng)駕駛只是物理AI的起點(diǎn),未來(lái)這類(lèi)基礎(chǔ)模型將驅(qū)動(dòng)新的具身智能范式?!?/p>

從規(guī)則時(shí)代到AI時(shí)代 理想輔助駕駛持續(xù)演進(jìn)

自2021年啟動(dòng)輔助駕駛自研以來(lái),理想輔助駕駛技術(shù)架構(gòu)經(jīng)歷了多輪關(guān)鍵迭代,持續(xù)的技術(shù)探索與工程實(shí)踐,為理想汽車(chē)在軟硬件一體化研發(fā)領(lǐng)域積累了深厚的基礎(chǔ)研究能力與研發(fā)實(shí)力。2024年是理想輔助駕駛的重要分水嶺,隨著端到端+VLM(視覺(jué)語(yǔ)言模型)雙系統(tǒng)架構(gòu)量產(chǎn)交付,輔助駕駛首次真正具備了跨場(chǎng)景、跨任務(wù)的統(tǒng)一理解能力。2025年,理想汽車(chē)進(jìn)一步將空間理解、語(yǔ)言理解與行動(dòng)決策統(tǒng)一到同一模型框架,構(gòu)建了基于VLA、世界模型與強(qiáng)化學(xué)習(xí)三大技術(shù)棧的VLA司機(jī)大模型,并于8月隨理想i8交付正式推送,9月向AD Max用戶(hù)全量推送。

截至2025年底,VLA司機(jī)大模型月使用率達(dá)到80%,VLA指令累計(jì)使用1225.4萬(wàn)次;春節(jié)期間理想輔助駕駛總里程達(dá)2.5億公里,VLA指令使用次數(shù)達(dá)130.3萬(wàn)次。規(guī)?;挠脩?hù)驗(yàn)證與持續(xù)積累的真實(shí)場(chǎng)景數(shù)據(jù),為理想汽車(chē)推進(jìn)下一代自動(dòng)駕駛技術(shù)演進(jìn)提供了堅(jiān)實(shí)基礎(chǔ)。

MindVLA-o1五大技術(shù)創(chuàng)新:看得更遠(yuǎn)、想得更深、行得更穩(wěn)、進(jìn)化更快、部署更高效

理想汽車(chē)提出下一代統(tǒng)一架構(gòu)——MindVLA-o1。該架構(gòu)以原生多模態(tài)MoE Transformer為核心,通過(guò)五大技術(shù)創(chuàng)新——3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強(qiáng)化學(xué)習(xí)(Closed-loop RL)和軟硬件協(xié)同設(shè)計(jì)(Hardware–Software Co-Design),構(gòu)建了面向物理世界智能的自動(dòng)駕駛基礎(chǔ)模型。


在感知層面,理想汽車(chē)采用以視覺(jué)為核心的 3D ViT Encoder(3D視覺(jué)模型編碼器),并利用激光雷達(dá)點(diǎn)云作為三維幾何提示,引導(dǎo)模型理解真實(shí)空間結(jié)構(gòu),使其在單一表示中同時(shí)具備語(yǔ)義理解與三維感知能力。同時(shí)引入前饋式3DGS表示(Feedforward 3D Representation),將場(chǎng)景拆分為靜態(tài)環(huán)境與動(dòng)態(tài)物體分別建模,并通過(guò)下一幀預(yù)測(cè)(Next-state prediction)作為自監(jiān)督信號(hào),使模型同時(shí)學(xué)習(xí)深度信息、語(yǔ)義結(jié)構(gòu)與物體運(yùn)動(dòng),最終形成融合空間結(jié)構(gòu)與時(shí)間上下文的高質(zhì)量3D表示。具備3D空間理解能力,使模型看得更遠(yuǎn)。


在思考層面,自動(dòng)駕駛既要理解當(dāng)前環(huán)境,也要預(yù)測(cè)未來(lái)幾秒的場(chǎng)景演化。在語(yǔ)言模型承擔(dān)語(yǔ)義理解、常識(shí)知識(shí)和交互能力的基礎(chǔ)上,理想汽車(chē)還引入了預(yù)測(cè)式隱世界模型,在隱空間中高效模擬未來(lái)。訓(xùn)練分三階段:第一,用海量視頻數(shù)據(jù)預(yù)訓(xùn)練Latent World Token(隱世界詞元),構(gòu)建未來(lái)表征;第二,在MindVLA-o1中持續(xù)世界模型的推演,形成隱空間的未來(lái)推理能力;第三,將世界模型、多模態(tài)推理能力及駕駛行為進(jìn)行聯(lián)合訓(xùn)練與對(duì)齊。由此,模型不僅能理解當(dāng)前場(chǎng)景并進(jìn)行邏輯判斷,還能在隱空間中提前“想象”未來(lái)畫(huà)面,將駕駛決策具象化。理想汽車(chē)將這種能力定義為多模態(tài)思考(Generative Multimodal Thinking)。擁有多模態(tài)思考能力,讓模型想得更深。


在行為層面,理想汽車(chē)構(gòu)建了統(tǒng)一行為生成(Unified Action Generation)機(jī)制。首先,MindVLA-o1使用VLA-MoE(混合專(zhuān)家模型)架構(gòu),并引入專(zhuān)門(mén)的Action Expert(動(dòng)作專(zhuān)家),從3D場(chǎng)景特征、導(dǎo)航目標(biāo)、駕駛指令等多維輸入中提取信息,并結(jié)合多模態(tài)思考生成高精度駕駛軌跡。其次,為滿(mǎn)足實(shí)時(shí)性要求,系統(tǒng)采用并行解碼(Parallel Decoding),同時(shí)生成所有軌跡點(diǎn),大幅提升效率。最后,引入Discrete Diffusion(離散擴(kuò)散)進(jìn)行多輪迭代優(yōu)化,類(lèi)似逐步去噪,確保軌跡空間連續(xù)、時(shí)間穩(wěn)定,并符合車(chē)輛動(dòng)力學(xué)約束。形成統(tǒng)一行為生成機(jī)制,使模型行得更穩(wěn)。


在模型迭代層面,理想汽車(chē)構(gòu)建了閉環(huán)強(qiáng)化學(xué)習(xí)框架,讓模型不僅能從真實(shí)數(shù)據(jù)學(xué)習(xí),還能在世界模擬器(World Simulator)中持續(xù)探索和優(yōu)化策略。為此,理想汽車(chē)將傳統(tǒng)逐步優(yōu)化式重建升級(jí)為Feed-forward(前饋)場(chǎng)景重建,使系統(tǒng)能夠瞬時(shí)生成大規(guī)模、高保真駕駛場(chǎng)景,支持大規(guī)模并行訓(xùn)練。同時(shí),結(jié)合生成式模型(Generative Models),模擬環(huán)境可擴(kuò)展、編輯并生成全新場(chǎng)景。為支持大規(guī)模模擬與訓(xùn)練,理想汽車(chē)開(kāi)發(fā)了統(tǒng)一的3D Gaussian Splatting(3D高斯?jié)姙R)渲染引擎和分布式訓(xùn)練框架,渲染速度提升近2倍,整體訓(xùn)練成本降低約75%,實(shí)現(xiàn)低成本、高效率的強(qiáng)化學(xué)習(xí)閉環(huán)。在閉環(huán)強(qiáng)化學(xué)習(xí)框架下,模型實(shí)現(xiàn)更快進(jìn)化。


為解決傳統(tǒng)端側(cè)大模型部署耗時(shí)長(zhǎng)、調(diào)試頻繁的問(wèn)題,理想汽車(chē)提出面向端側(cè)大模型的軟硬件協(xié)同設(shè)計(jì)定律,將模型結(jié)構(gòu)與驗(yàn)證損失建模,并結(jié)合Roofline模型刻畫(huà)硬件計(jì)算能力與內(nèi)存帶寬限制,在模型性能與硬件約束之間建立統(tǒng)一的分析框架。理想汽車(chē)基座模型團(tuán)隊(duì)評(píng)估了近2000種模型架構(gòu)配置,在英偉達(dá)Orin與Thor平臺(tái)上完成驗(yàn)證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),將架構(gòu)探索時(shí)間從數(shù)月縮短至數(shù)天,大幅提升端側(cè)VLA模型的設(shè)計(jì)與部署效率。在軟硬件協(xié)同設(shè)計(jì)定律下,模型部署更高效。


自動(dòng)駕駛只是起點(diǎn),為具身智能構(gòu)建“數(shù)字大腦”

MindVLA-o1是理想汽車(chē)面向物理世界智能核心AI框架的重要組成部分。這套AI框架由四大核心模塊組成:MindData,統(tǒng)一的VLA數(shù)據(jù)引擎,負(fù)責(zé)大規(guī)模數(shù)據(jù)的采集、清洗和自動(dòng)標(biāo)注;MindVLA-o1,統(tǒng)一的原生多模態(tài)VLA模型,可以理解環(huán)境、進(jìn)行推理,并生成駕駛行為;MindSim,可控的多模態(tài)世界模型,用于生成復(fù)雜駕駛場(chǎng)景并支持大規(guī)模閉環(huán)訓(xùn)練;RL Infra(強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施),通過(guò)獎(jiǎng)勵(lì)模型和策略學(xué)習(xí),使系統(tǒng)在仿真與真實(shí)環(huán)境中自我進(jìn)化。

四部分協(xié)同形成完整閉環(huán),使AI能夠感知、理解并在物理世界中自主行動(dòng),并持續(xù)學(xué)習(xí)。從結(jié)構(gòu)上看,這套系統(tǒng)如同一個(gè)“數(shù)字大腦”:感知層對(duì)應(yīng)視覺(jué)皮層,推理與規(guī)劃如前額葉,場(chǎng)景生成似運(yùn)動(dòng)皮層,強(qiáng)化學(xué)習(xí)則類(lèi)似多巴胺反饋,實(shí)現(xiàn)了感知、理解、行動(dòng)和持續(xù)優(yōu)化的完整閉環(huán)。

該框架不僅服務(wù)于汽車(chē),也可擴(kuò)展至機(jī)器人及各種物理系統(tǒng)。對(duì)理想汽車(chē)而言,車(chē)是最大號(hào)的機(jī)器人,其本質(zhì)是在構(gòu)建硅基生命體的軀干與大腦。


理想汽車(chē)在持續(xù)推進(jìn)技術(shù)創(chuàng)新的同時(shí),在人工智能領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表了大量研究成果,其中MindVLA-o1相關(guān)的多篇論文已在CVPR、ICLR、ICRA、AAAI等國(guó)際頂會(huì)上發(fā)表。未來(lái),理想汽車(chē)將繼續(xù)以用戶(hù)價(jià)值為導(dǎo)向,投入前沿研究以及核心技術(shù)自研,持續(xù)構(gòu)建面向物理世界智能的完整AI系統(tǒng),堅(jiān)定邁向全球領(lǐng)先的具身智能企業(yè)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
55年大授銜,國(guó)軍班長(zhǎng)出身的他自報(bào)大校,羅榮桓:你想多了

55年大授銜,國(guó)軍班長(zhǎng)出身的他自報(bào)大校,羅榮桓:你想多了

云霄紀(jì)史觀
2026-04-16 02:02:19
鄭麗文火了!她的簽名竟然讓人驚呆了!

鄭麗文火了!她的簽名竟然讓人驚呆了!

書(shū)畫(huà)相約
2026-04-15 07:39:14
山西男女騎車(chē)遭開(kāi)門(mén)殺1人被碾壓身亡,警方回應(yīng):涉案兩車(chē)駕駛?cè)司粋鲉荆讣谡{(diào)查中

山西男女騎車(chē)遭開(kāi)門(mén)殺1人被碾壓身亡,警方回應(yīng):涉案兩車(chē)駕駛?cè)司粋鲉荆讣谡{(diào)查中

大象新聞
2026-04-15 21:49:03
日媒:中國(guó)在猛攻日本經(jīng)濟(jì)最后的支柱—汽車(chē)工業(yè)

日媒:中國(guó)在猛攻日本經(jīng)濟(jì)最后的支柱—汽車(chē)工業(yè)

隨波蕩漾的漂流瓶
2026-04-14 17:00:09
心酸!兩屆世錦賽亞軍坦言不可能奪冠:要贏趙心童這樣的球員 沒(méi)機(jī)會(huì)

心酸!兩屆世錦賽亞軍坦言不可能奪冠:要贏趙心童這樣的球員 沒(méi)機(jī)會(huì)

晚霧空青
2026-04-15 19:02:34
這3個(gè)國(guó)家最不歡迎中國(guó)人,滿(mǎn)臉都是嫌棄,卻總有國(guó)人上趕著去

這3個(gè)國(guó)家最不歡迎中國(guó)人,滿(mǎn)臉都是嫌棄,卻總有國(guó)人上趕著去

小蘭聊歷史
2026-04-01 07:00:02
哈蘭德解下發(fā)帶那一刻:曼城4-1阿森納的戰(zhàn)術(shù)密碼

哈蘭德解下發(fā)帶那一刻:曼城4-1阿森納的戰(zhàn)術(shù)密碼

碼上閑敘
2026-04-15 08:09:05
別再傳“蒙古國(guó)防中國(guó)”了!南邊連草都不長(zhǎng),讓人怎么???

別再傳“蒙古國(guó)防中國(guó)”了!南邊連草都不長(zhǎng),讓人怎么住?

起喜電影
2026-04-15 18:57:22
恒大歌舞圖再曝光:許家印親自面試 貴賓房比外界說(shuō)的夸張 刷三觀

恒大歌舞圖再曝光:許家印親自面試 貴賓房比外界說(shuō)的夸張 刷三觀

念洲
2026-04-15 15:32:14
現(xiàn)場(chǎng)開(kāi)炮!波蘭議員當(dāng)眾嘲諷以色列:看好了,你們國(guó)旗長(zhǎng)這樣才對(duì)

現(xiàn)場(chǎng)開(kāi)炮!波蘭議員當(dāng)眾嘲諷以色列:看好了,你們國(guó)旗長(zhǎng)這樣才對(duì)

起喜電影
2026-04-16 01:41:29
0-4出局 斯洛特宣布今夏大清洗:2.4億歐雙星被擺上貨架 繼續(xù)砸錢(qián)

0-4出局 斯洛特宣布今夏大清洗:2.4億歐雙星被擺上貨架 繼續(xù)砸錢(qián)

風(fēng)過(guò)鄉(xiāng)
2026-04-15 06:51:33
上海90-89廣州 球員評(píng)價(jià):4人優(yōu)秀,4人及格,2人低迷

上海90-89廣州 球員評(píng)價(jià):4人優(yōu)秀,4人及格,2人低迷

籃球資訊達(dá)人
2026-04-16 02:04:00
賴(lài)清德宣布過(guò)境非洲小國(guó),不到24小時(shí),就被狠狠打臉,不簡(jiǎn)單

賴(lài)清德宣布過(guò)境非洲小國(guó),不到24小時(shí),就被狠狠打臉,不簡(jiǎn)單

瓦倫西亞月亮
2026-04-15 23:40:35
女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

帶你感受人間冷暖
2026-01-27 00:20:06
普京最擔(dān)心的事發(fā)生了:烏克蘭無(wú)人機(jī)不僅量大,還學(xué)會(huì)了無(wú)視所有電子干擾?

普京最擔(dān)心的事發(fā)生了:烏克蘭無(wú)人機(jī)不僅量大,還學(xué)會(huì)了無(wú)視所有電子干擾?

Ck的蜜糖
2026-04-12 16:50:38
張雪峰去世不到一個(gè)月,員工宣布離職,低價(jià)挖客戶(hù),賬號(hào)已私密

張雪峰去世不到一個(gè)月,員工宣布離職,低價(jià)挖客戶(hù),賬號(hào)已私密

180視角
2026-04-15 17:52:51
邱毅談馬英九:一場(chǎng)精心策劃的政治羅織,令人極度失望

邱毅談馬英九:一場(chǎng)精心策劃的政治羅織,令人極度失望

讓心靈得以棲息
2026-04-15 16:31:46
正在熱播的三部“爛劇”,沒(méi)有最爛只有更爛,一部沒(méi)看過(guò)算你走運(yùn)

正在熱播的三部“爛劇”,沒(méi)有最爛只有更爛,一部沒(méi)看過(guò)算你走運(yùn)

秋姐居
2026-04-15 22:06:55
歐爾班的敗選揭示了特朗普反對(duì)者所持續(xù)犯下的錯(cuò)誤

歐爾班的敗選揭示了特朗普反對(duì)者所持續(xù)犯下的錯(cuò)誤

陶短房之短話(huà)短說(shuō)
2026-04-14 22:25:18
廣東一女子從窗戶(hù)拋撒大量港幣引爭(zhēng)搶?zhuān)∫巡槊鳎阂蛴H屬病重情緒波動(dòng),錢(qián)幣已歸還

廣東一女子從窗戶(hù)拋撒大量港幣引爭(zhēng)搶?zhuān)∫巡槊鳎阂蛴H屬病重情緒波動(dòng),錢(qián)幣已歸還

都市快報(bào)橙柿互動(dòng)
2026-04-14 23:04:50
2026-04-16 04:08:49
EV世紀(jì) incentive-icons
EV世紀(jì)
專(zhuān)業(yè)的新能源汽車(chē)垂直媒體
20702文章數(shù) 16995關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶(hù)又怎樣?Anthropic直接貼臉

頭條要聞

法國(guó)全票通過(guò) “將不義之財(cái)歸還中國(guó)”

頭條要聞

法國(guó)全票通過(guò) “將不義之財(cái)歸還中國(guó)”

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車(chē)要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

旅游
數(shù)碼
游戲
房產(chǎn)
公開(kāi)課

旅游要聞

拉豬車(chē)?yán)@關(guān)闖禁區(qū):隱秘危險(xiǎn)游該踩剎車(chē)了

數(shù)碼要聞

明基新款顯示器首發(fā)12499元:4K專(zhuān)業(yè)級(jí)色彩校準(zhǔn) 根據(jù)環(huán)境光自動(dòng)調(diào)整

《GTA6》搶劫玩法泄露引熱議!NPC與警察全面升級(jí)

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版