无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拋去車主梗,理想汽車的智駕技術(shù)怎么樣?

0
分享至

[首發(fā)于智駕最前沿微信公眾號]現(xiàn)在在網(wǎng)上搜索理想汽車,鋪天蓋地地會出現(xiàn)很多車主梗的視頻,很多人看到只是圖一樂,但拋開這些段子回歸到技術(shù)本身,可以看到,2026年3月,理想汽車在英偉達GTC大會上發(fā)布了下一代自動駕駛基礎(chǔ)模型MindVLA-o1;不久后,全新旗艦車型L9 Livis亮相,帶來了自研的馬赫M100芯片、馬赫VLA 2.1系統(tǒng)以及全線控底盤。那理想的智駕到底怎么樣?

MindVLA-o1為什么不是傳統(tǒng)VLA?

想理解MindVLA-o1,需要先知道它能解決什么問題,2024年理想做了端到端加視覺語言模型的雙系統(tǒng)架構(gòu),2025年又推出了將空間理解、語言理解和動作決策合在一起的VLA司機大模型。但行業(yè)里的VLA方案有三個共同的痛點,一是3D空間理解與語義推理之間的對齊效率不理想,導(dǎo)致系統(tǒng)看懂了場景,但做出的駕駛動作卻不對;二是視覺、語言、動作之間的傳遞鏈路太長,決策延遲明顯;三是長尾場景的覆蓋不夠,單靠堆數(shù)據(jù)很難從根本上解決。

MindVLA-o1則針對這些問題提出了一個新的解法,它的核心是一個原生多模態(tài)MoE(混合專家)Transformer,在模型設(shè)計之初就把視覺、語言和行動統(tǒng)一到同一個表示空間中共同訓(xùn)練和對齊,而不是像傳統(tǒng)方案那樣分別訓(xùn)練三個模塊再拼到一起。這種原生的設(shè)計思路,使感知、思考和行為三個環(huán)節(jié)之間的信息傳遞效率更高,也減少了后期對齊造成的誤差。



圖片源自:網(wǎng)絡(luò)

在這個統(tǒng)一框架之上,理想圍繞3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強化學習、軟硬件協(xié)同設(shè)計等5個維度做了具體的設(shè)計,下面帶大家逐一拆解下。

讓模型住進三維世界,意味著什么?

過去自動駕駛的視覺模型多以2D圖像為處理單元,BEV(鳥瞰視角)雖然能將多個攝像頭的畫面拼接成一張俯視圖,但本質(zhì)上是把三維世界拍扁了,高度信息丟失嚴重。OCC(占用網(wǎng)絡(luò))能表達3D結(jié)構(gòu),卻缺少語義信息,其可以知道那里有個東西,但不清楚到底是一輛車、一棵樹還是一堵墻。

MindVLA-o1的做法是用一個原生3D ViT(視覺Transformer)編碼器替代傳統(tǒng)2D方案,這個編碼器以高分辨率多視角視覺為核心,在編碼階段就直接對3D空間的幾何結(jié)構(gòu)和語義信息做統(tǒng)一理解,其中包括空間結(jié)構(gòu)、位置關(guān)系、物體類別和行為狀態(tài)等。同時,激光雷達點云的角色也發(fā)生了變化,它不再是獨立的感知主力,而是作為三維幾何參照,用來校準模型對物理空間的感知精度。



圖片源自:網(wǎng)絡(luò)

這套方案還引入了前饋式3DGS表示,將場景拆分為靜態(tài)環(huán)境和動態(tài)物體分別建模,用預(yù)測下一幀-作為自監(jiān)督信號,讓模型同時學習深度、語義和物體運動,整個模型可以穩(wěn)定感知并推理到500米以上的空間范圍。

引入3D ViT之后,導(dǎo)航目標從2D地圖坐標變成了3D空間里的鳥瞰點,與模型的感知結(jié)果在同一個三維空間中交互。這讓系統(tǒng)在窄路通行、三點式掉頭這類需要精細空間理解的場景中表現(xiàn)更好,也從根本上解決了傳統(tǒng)方案2D感知向3D控制映射時信息丟失的問題。



系統(tǒng)如何預(yù)演幾秒后的場景?

智駕系統(tǒng)如果只是理解了當前的三維環(huán)境,是遠遠不夠的,自動駕駛真正困難的地方在于判斷接下來會發(fā)生什么(旁邊車的并線意圖、前方行人的動作傾向、綠燈還剩幾秒夠不夠通過),這些都需要對未來做推演。

MindVLA-o1在這一點上引入了預(yù)測式隱世界模型。通俗地說,它在模型內(nèi)部構(gòu)建了一個隱空間,先把當前場景轉(zhuǎn)化為隱空間中的表達,然后在這個空間中直接推演未來幾秒的場景演化。因為不需要生成真實的像素畫面,而是在隱空間中完成推演,所以計算效率比直接生成未來圖像高得多。模型可以在隱空間中提前想象未來畫面,并基于想象結(jié)果來做邏輯判斷和駕駛決策,理想把這種能力稱為多模態(tài)思考。



圖片源自:網(wǎng)絡(luò)

這套隱世界模型的訓(xùn)練分三個階段,先用海量視頻數(shù)據(jù)預(yù)訓(xùn)練隱世界詞元,構(gòu)建未來的表征能力;再在MindVLA-o1中持續(xù)進行世界模型的推演,形成隱空間的未來推理能力;最后將世界模型、多模態(tài)推理和駕駛行為進行聯(lián)合訓(xùn)練和對齊。通過這種階段式的訓(xùn)練策略,模型對動態(tài)場景的預(yù)判能力將逐步建立,而不只是一步到位地擬合數(shù)據(jù)。

駕駛軌跡怎樣從一個統(tǒng)一框架中生成?

當模型完成了空間理解和未來推演之后,下一步就是把決策轉(zhuǎn)化為具體的駕駛軌跡,MindVLA-o1在行為生成上做了三層設(shè)計。



圖片源自:網(wǎng)絡(luò)

第一層是VLA-MoE架構(gòu)中的Action Expert,即動作專家。它是一個專門負責軌跡生成的專家模塊,從3D場景特征、導(dǎo)航目標和駕駛指令等多維輸入中提取信息,結(jié)合前面的多模態(tài)思考結(jié)果,生成高精度駕駛軌跡。

第二層是并行解碼。傳統(tǒng)方案逐幀生成軌跡點,延遲較高,MindVLA-o1采用一次并行生成所有軌跡點的方式,大幅提升了長序列軌跡預(yù)測的效率,滿足實時駕駛的需求。

第三層是軌跡優(yōu)化。生成原始軌跡后,系統(tǒng)引入離散擴散機制進行多輪迭代優(yōu)化,類似去噪過程,確保最終的軌跡在空間上連續(xù)、在時間上穩(wěn)定,并且符合車輛的動力學約束(不能出現(xiàn)車輛實際無法執(zhí)行的急轉(zhuǎn)或急剎)。

這三層設(shè)計使得駕駛行為從一個統(tǒng)一的框架中平滑產(chǎn)出,而不是靠人工規(guī)則來修補。

芯片和底盤,讓模型跑起來的硬件基礎(chǔ)

模型再先進,最終還是要部署到車上,這里涉及計算芯片和執(zhí)行機構(gòu)這兩個方面的硬件支撐。

理想在2026年5月正式發(fā)布了自研的馬赫M100芯片,這是一款車規(guī)級AI推理芯片,采用5nm工藝,單顆算力1280 TOPS。它采用了一種不同于傳統(tǒng)GPU的架構(gòu),即動態(tài)數(shù)據(jù)流架構(gòu)。傳統(tǒng)GPU基于馮·諾依曼架構(gòu),計算和數(shù)據(jù)搬運是分離的,AI推理時大量功耗和延遲都浪費在數(shù)據(jù)搬運上。而動態(tài)數(shù)據(jù)流架構(gòu)可以按數(shù)據(jù)流動路徑直接組織計算,能夠繞開這個瓶頸。



圖片源自:網(wǎng)絡(luò)

在運行VLA大模型時,馬赫M100的有效算力據(jù)稱是英偉達Thor-U的3倍,同功耗下推理延遲降低35%,能耗減少40%,端到端延遲整體下降40%,車輛反應(yīng)速度比人類快一倍。這組數(shù)據(jù)背后其實還涉及到軟硬件協(xié)同設(shè)計的策略,理想不是先做模型再找芯片適配,而是在研發(fā)階段就評估了近2000種模型架構(gòu)配置,讓模型結(jié)構(gòu)和芯片的計算、內(nèi)存特性聯(lián)合優(yōu)化,把原本需要數(shù)月的架構(gòu)篩選壓縮到幾天內(nèi)完成。L9 Livis就搭載了兩顆馬赫M100,總算力可以達到2560 TOPS。

硬件層的另一個重要部分是全線控底盤,它由線控轉(zhuǎn)向、線控機械制動和后輪轉(zhuǎn)向三套系統(tǒng)組成,全部通過電信號控制,替代了傳統(tǒng)的機械連接。對自動駕駛而言,線控底盤的電子信號傳遞遠快于機械結(jié)構(gòu),整車控制系統(tǒng)可以實現(xiàn)全鏈路毫秒級響應(yīng)。這種毫秒級的控制能力,是高級別自動駕駛對車輛執(zhí)行層的適配要求。理想也曾明確表示,線控底盤是面向L3和L4自動駕駛做的提前布局,如果沒有比人類駕駛員快50%以上的響應(yīng)速度,高級別自動駕駛的安全接管就無從談起。

配合L9 Livis,理想一同推出的還有馬赫VLA 2.1系統(tǒng),它是MindVLA-o1模型的車端落地版本。在雙馬赫M100芯片和3D ViT感知模型的加持下,馬赫VLA 2.1的多模態(tài)計算量提升了10倍,可視距離提升50%,在風險預(yù)判和意圖理解方面有顯著增強。

最后的話

從MindVLA-o1到馬赫M100芯片,再到線控底盤和馬赫VLA 2.1,理想搭建的是一套縱向打通的系統(tǒng),基礎(chǔ)模型負責理解世界和做決策,自研芯片負責讓大模型在車上高效運行,線控底盤負責把數(shù)字決策快速、精準地變成物理動作。三者缺一不可,少了任何一個環(huán)節(jié),整套系統(tǒng)的上限都會被拉低。這也解釋了理想為什么要在模型、芯片和底盤三條線上同時投入,它的目標不是只做一套輔助駕駛功能,而是構(gòu)建一個能在物理世界中完整閉環(huán)的AI系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
郭臺銘51歲太太生四胎,豪門生育信托謀分百億家產(chǎn)

郭臺銘51歲太太生四胎,豪門生育信托謀分百億家產(chǎn)

孤酒老巷QA
2026-05-21 22:32:46
61歲郭富城參觀方媛舅舅的飯店,和一幫親戚喝酒,獲外婆擁抱送別

61歲郭富城參觀方媛舅舅的飯店,和一幫親戚喝酒,獲外婆擁抱送別

一盅情懷
2026-05-21 16:23:41
45度高溫炙烤14億人,印度人向外瘋狂溢出,為何全球拉響了警報?

45度高溫炙烤14億人,印度人向外瘋狂溢出,為何全球拉響了警報?

千羽解讀
2026-05-22 10:09:33
A股:今天沖到4101反復(fù)回落,種種跡象表明,A股調(diào)整浪已大概率確立?

A股:今天沖到4101反復(fù)回落,種種跡象表明,A股調(diào)整浪已大概率確立?

趨勢清風俠
2026-05-22 12:35:49
這么突然?Shams:字母哥+老詹,湖人!

這么突然?Shams:字母哥+老詹,湖人!

左右為籃
2026-05-22 08:06:59
受不了國臺辦每周都批駁賴清德,民進黨發(fā)言人破防稱“快被煩死了”

受不了國臺辦每周都批駁賴清德,民進黨發(fā)言人破防稱“快被煩死了”

海峽導(dǎo)報社
2026-05-22 10:48:42
俄安全會議副主席:烏克蘭的滅亡從歷史角度來看不可避免

俄安全會議副主席:烏克蘭的滅亡從歷史角度來看不可避免

俄羅斯衛(wèi)星通訊社
2026-05-22 15:08:17
私吞獎金又有猛料!男生發(fā)帖曝光后,樊同學曾找人洗白,真過分了

私吞獎金又有猛料!男生發(fā)帖曝光后,樊同學曾找人洗白,真過分了

社會日日鮮
2026-05-21 07:59:04
“武大郎”再現(xiàn)?36歲妻子投喂鼠藥!丈夫沒死就再投一次

“武大郎”再現(xiàn)?36歲妻子投喂鼠藥!丈夫沒死就再投一次

墨策史
2026-05-22 07:54:35
2026年5月18日起,耕地建房全面作廢,農(nóng)村房產(chǎn)“迎來變化”

2026年5月18日起,耕地建房全面作廢,農(nóng)村房產(chǎn)“迎來變化”

三農(nóng)雷哥
2026-05-22 06:45:01
少年打球得罪富二代,被砍斷雙手身亡,家長:給我砍,老子不差錢

少年打球得罪富二代,被砍斷雙手身亡,家長:給我砍,老子不差錢

就一點
2026-05-18 00:00:54
Token成本難以承受,微軟取消Claude Code許可,AI補貼時代正式終結(jié)

Token成本難以承受,微軟取消Claude Code許可,AI補貼時代正式終結(jié)

西游日記
2026-05-22 09:30:40
41歲C羅首奪沙特聯(lián)冠軍,引發(fā)熱議,球迷:含金量十足的冠軍

41歲C羅首奪沙特聯(lián)冠軍,引發(fā)熱議,球迷:含金量十足的冠軍

側(cè)身凌空斬
2026-05-22 05:28:26
巨嬰!孫楊采訪中途突然打斷主持人說到飯點了,直接拿手機點起外賣

巨嬰!孫楊采訪中途突然打斷主持人說到飯點了,直接拿手機點起外賣

818體育
2026-05-19 17:52:24
厲害!7個榴蓮“嚇跑”相親男,女子做法,被網(wǎng)友認為是服從測試

厲害!7個榴蓮“嚇跑”相親男,女子做法,被網(wǎng)友認為是服從測試

火山詩話
2026-05-22 07:08:20
炸了!女籃世界杯賽程出爐,內(nèi)線3巨頭就位,李夢李月汝要聯(lián)手?

炸了!女籃世界杯賽程出爐,內(nèi)線3巨頭就位,李夢李月汝要聯(lián)手?

林子說事
2026-05-22 14:28:16
“四人幫”被捕后,被關(guān)在地下室,半年不見天日

“四人幫”被捕后,被關(guān)在地下室,半年不見天日

華人星光
2026-05-22 13:22:58
多國最高領(lǐng)導(dǎo)人排隊來華,德媒終于說出真相:中國正成為世界中心

多國最高領(lǐng)導(dǎo)人排隊來華,德媒終于說出真相:中國正成為世界中心

愛下廚的阿釃
2026-05-22 00:57:38
再度點名內(nèi)塔尼亞胡,韓國“開掛”了?

再度點名內(nèi)塔尼亞胡,韓國“開掛”了?

補壹刀
2026-05-22 15:19:06
當不成首相了!以色列110:0全票贊成解散議會,內(nèi)塔尼亞胡或下臺

當不成首相了!以色列110:0全票贊成解散議會,內(nèi)塔尼亞胡或下臺

聞識
2026-05-22 05:17:35
2026-05-22 16:31:00
智駕最前沿
智駕最前沿
自動駕駛領(lǐng)域?qū)I(yè)的技術(shù)、資訊分享平臺。我們的slogan是:聚焦智能駕駛 ,緊盯行業(yè)前沿。
455文章數(shù) 11關(guān)注度
往期回顧 全部

汽車要聞

配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

頭條要聞

媒體:特朗普對華"越頂外交"引危機感 高市纏上李在明

頭條要聞

媒體:特朗普對華"越頂外交"引危機感 高市纏上李在明

體育要聞

最糟糕裁判?他想要退役當市長

娛樂要聞

周也戀情曝光!對象身份不簡單

財經(jīng)要聞

又一存儲芯片類產(chǎn)品,價格暴漲300%

科技要聞

雷軍:輸給特斯拉不丟人

態(tài)度原創(chuàng)

本地
數(shù)碼
手機
藝術(shù)
旅游

本地新聞

用云錦的方式,打開江蘇南京

數(shù)碼要聞

行業(yè)首款曝光顯影工藝馬甲條!科摩思寒光月影DDR5發(fā)布:特挑海力士A-die

手機要聞

2億主攝+8000mAh電池 小米17 Max全面評測:最務(wù)實的大屏真香實旗艦

藝術(shù)要聞

海市蜃樓水中樹

旅游要聞

這個“六一”來長溇村!赴一場老小皆宜的田園之旅

無障礙瀏覽 進入關(guān)懷版