无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

拋去車主梗,理想汽車的智駕技術怎么樣?

0
分享至

[首發于智駕最前沿微信公眾號]現在在網上搜索理想汽車,鋪天蓋地地會出現很多車主梗的視頻,很多人看到只是圖一樂,但拋開這些段子回歸到技術本身,可以看到,2026年3月,理想汽車在英偉達GTC大會上發布了下一代自動駕駛基礎模型MindVLA-o1;不久后,全新旗艦車型L9 Livis亮相,帶來了自研的馬赫M100芯片、馬赫VLA 2.1系統以及全線控底盤。那理想的智駕到底怎么樣?

MindVLA-o1為什么不是傳統VLA?

想理解MindVLA-o1,需要先知道它能解決什么問題,2024年理想做了端到端加視覺語言模型的雙系統架構,2025年又推出了將空間理解、語言理解和動作決策合在一起的VLA司機大模型。但行業里的VLA方案有三個共同的痛點,一是3D空間理解與語義推理之間的對齊效率不理想,導致系統看懂了場景,但做出的駕駛動作卻不對;二是視覺、語言、動作之間的傳遞鏈路太長,決策延遲明顯;三是長尾場景的覆蓋不夠,單靠堆數據很難從根本上解決。

MindVLA-o1則針對這些問題提出了一個新的解法,它的核心是一個原生多模態MoE(混合專家)Transformer,在模型設計之初就把視覺、語言和行動統一到同一個表示空間中共同訓練和對齊,而不是像傳統方案那樣分別訓練三個模塊再拼到一起。這種原生的設計思路,使感知、思考和行為三個環節之間的信息傳遞效率更高,也減少了后期對齊造成的誤差。



圖片源自:網絡

在這個統一框架之上,理想圍繞3D空間理解、多模態思考、統一行為生成、閉環強化學習、軟硬件協同設計等5個維度做了具體的設計,下面帶大家逐一拆解下。

讓模型住進三維世界,意味著什么?

過去自動駕駛的視覺模型多以2D圖像為處理單元,BEV(鳥瞰視角)雖然能將多個攝像頭的畫面拼接成一張俯視圖,但本質上是把三維世界拍扁了,高度信息丟失嚴重。OCC(占用網絡)能表達3D結構,卻缺少語義信息,其可以知道那里有個東西,但不清楚到底是一輛車、一棵樹還是一堵墻。

MindVLA-o1的做法是用一個原生3D ViT(視覺Transformer)編碼器替代傳統2D方案,這個編碼器以高分辨率多視角視覺為核心,在編碼階段就直接對3D空間的幾何結構和語義信息做統一理解,其中包括空間結構、位置關系、物體類別和行為狀態等。同時,激光雷達點云的角色也發生了變化,它不再是獨立的感知主力,而是作為三維幾何參照,用來校準模型對物理空間的感知精度。



圖片源自:網絡

這套方案還引入了前饋式3DGS表示,將場景拆分為靜態環境和動態物體分別建模,用預測下一幀-作為自監督信號,讓模型同時學習深度、語義和物體運動,整個模型可以穩定感知并推理到500米以上的空間范圍。

引入3D ViT之后,導航目標從2D地圖坐標變成了3D空間里的鳥瞰點,與模型的感知結果在同一個三維空間中交互。這讓系統在窄路通行、三點式掉頭這類需要精細空間理解的場景中表現更好,也從根本上解決了傳統方案2D感知向3D控制映射時信息丟失的問題。



系統如何預演幾秒后的場景?

智駕系統如果只是理解了當前的三維環境,是遠遠不夠的,自動駕駛真正困難的地方在于判斷接下來會發生什么(旁邊車的并線意圖、前方行人的動作傾向、綠燈還剩幾秒夠不夠通過),這些都需要對未來做推演。

MindVLA-o1在這一點上引入了預測式隱世界模型。通俗地說,它在模型內部構建了一個隱空間,先把當前場景轉化為隱空間中的表達,然后在這個空間中直接推演未來幾秒的場景演化。因為不需要生成真實的像素畫面,而是在隱空間中完成推演,所以計算效率比直接生成未來圖像高得多。模型可以在隱空間中提前想象未來畫面,并基于想象結果來做邏輯判斷和駕駛決策,理想把這種能力稱為多模態思考。



圖片源自:網絡

這套隱世界模型的訓練分三個階段,先用海量視頻數據預訓練隱世界詞元,構建未來的表征能力;再在MindVLA-o1中持續進行世界模型的推演,形成隱空間的未來推理能力;最后將世界模型、多模態推理和駕駛行為進行聯合訓練和對齊。通過這種階段式的訓練策略,模型對動態場景的預判能力將逐步建立,而不只是一步到位地擬合數據。

駕駛軌跡怎樣從一個統一框架中生成?

當模型完成了空間理解和未來推演之后,下一步就是把決策轉化為具體的駕駛軌跡,MindVLA-o1在行為生成上做了三層設計。



圖片源自:網絡

第一層是VLA-MoE架構中的Action Expert,即動作專家。它是一個專門負責軌跡生成的專家模塊,從3D場景特征、導航目標和駕駛指令等多維輸入中提取信息,結合前面的多模態思考結果,生成高精度駕駛軌跡。

第二層是并行解碼。傳統方案逐幀生成軌跡點,延遲較高,MindVLA-o1采用一次并行生成所有軌跡點的方式,大幅提升了長序列軌跡預測的效率,滿足實時駕駛的需求。

第三層是軌跡優化。生成原始軌跡后,系統引入離散擴散機制進行多輪迭代優化,類似去噪過程,確保最終的軌跡在空間上連續、在時間上穩定,并且符合車輛的動力學約束(不能出現車輛實際無法執行的急轉或急剎)。

這三層設計使得駕駛行為從一個統一的框架中平滑產出,而不是靠人工規則來修補。

芯片和底盤,讓模型跑起來的硬件基礎

模型再先進,最終還是要部署到車上,這里涉及計算芯片和執行機構這兩個方面的硬件支撐。

理想在2026年5月正式發布了自研的馬赫M100芯片,這是一款車規級AI推理芯片,采用5nm工藝,單顆算力1280 TOPS。它采用了一種不同于傳統GPU的架構,即動態數據流架構。傳統GPU基于馮·諾依曼架構,計算和數據搬運是分離的,AI推理時大量功耗和延遲都浪費在數據搬運上。而動態數據流架構可以按數據流動路徑直接組織計算,能夠繞開這個瓶頸。



圖片源自:網絡

在運行VLA大模型時,馬赫M100的有效算力據稱是英偉達Thor-U的3倍,同功耗下推理延遲降低35%,能耗減少40%,端到端延遲整體下降40%,車輛反應速度比人類快一倍。這組數據背后其實還涉及到軟硬件協同設計的策略,理想不是先做模型再找芯片適配,而是在研發階段就評估了近2000種模型架構配置,讓模型結構和芯片的計算、內存特性聯合優化,把原本需要數月的架構篩選壓縮到幾天內完成。L9 Livis就搭載了兩顆馬赫M100,總算力可以達到2560 TOPS。

硬件層的另一個重要部分是全線控底盤,它由線控轉向、線控機械制動和后輪轉向三套系統組成,全部通過電信號控制,替代了傳統的機械連接。對自動駕駛而言,線控底盤的電子信號傳遞遠快于機械結構,整車控制系統可以實現全鏈路毫秒級響應。這種毫秒級的控制能力,是高級別自動駕駛對車輛執行層的適配要求。理想也曾明確表示,線控底盤是面向L3和L4自動駕駛做的提前布局,如果沒有比人類駕駛員快50%以上的響應速度,高級別自動駕駛的安全接管就無從談起。

配合L9 Livis,理想一同推出的還有馬赫VLA 2.1系統,它是MindVLA-o1模型的車端落地版本。在雙馬赫M100芯片和3D ViT感知模型的加持下,馬赫VLA 2.1的多模態計算量提升了10倍,可視距離提升50%,在風險預判和意圖理解方面有顯著增強。

最后的話

從MindVLA-o1到馬赫M100芯片,再到線控底盤和馬赫VLA 2.1,理想搭建的是一套縱向打通的系統,基礎模型負責理解世界和做決策,自研芯片負責讓大模型在車上高效運行,線控底盤負責把數字決策快速、精準地變成物理動作。三者缺一不可,少了任何一個環節,整套系統的上限都會被拉低。這也解釋了理想為什么要在模型、芯片和底盤三條線上同時投入,它的目標不是只做一套輔助駕駛功能,而是構建一個能在物理世界中完整閉環的AI系統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
希勒:阿諾德不首發也該進世界杯名單

希勒:阿諾德不首發也該進世界杯名單

懂球帝
2026-05-22 06:56:16
諾蘭爭議新片《奧德賽》片長曝光!剛公布就被撤除

諾蘭爭議新片《奧德賽》片長曝光!剛公布就被撤除

3DM游戲
2026-05-22 10:48:13
主角:看完原著才發現,大家痛恨的楚嘉禾,一輩子過得有多瀟灑

主角:看完原著才發現,大家痛恨的楚嘉禾,一輩子過得有多瀟灑

容妃
2026-05-21 13:42:48
西洋參的“好搭檔”找到了,堅持泡水喝,肝變干凈,睡眠也好

西洋參的“好搭檔”找到了,堅持泡水喝,肝變干凈,睡眠也好

芹姐說生活
2026-05-22 16:19:57
少年打球得罪富二代,被砍斷雙手身亡,家長:給我砍,老子不差錢

少年打球得罪富二代,被砍斷雙手身亡,家長:給我砍,老子不差錢

就一點
2026-05-18 00:00:54
忍無可忍,薩拉丈夫出手反擊,小馬科斯的彈劾算盤要落空了

忍無可忍,薩拉丈夫出手反擊,小馬科斯的彈劾算盤要落空了

娛樂小可愛蛙
2026-05-22 14:37:58
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

三農老歷
2026-04-13 17:10:06
看完馬刺113-122輸雷霆,1-1!我必須承認6個現實:東部要撿漏了

看完馬刺113-122輸雷霆,1-1!我必須承認6個現實:東部要撿漏了

籃球掃地僧
2026-05-21 20:13:31
孫浩最紅的時候,把在北京漂著的張嘉益接家里住,一住就是十年。

孫浩最紅的時候,把在北京漂著的張嘉益接家里住,一住就是十年。

草莓解說體育
2026-05-22 07:25:56
黃埔最邪門的一塊地要動了:四任股東全栽過,現任董事長是個"老賴"

黃埔最邪門的一塊地要動了:四任股東全栽過,現任董事長是個"老賴"

地產與星空
2026-05-21 18:11:45
美國沒想到,俄羅斯也沒料到,當今中國已經成為全世界的驕傲

美國沒想到,俄羅斯也沒料到,當今中國已經成為全世界的驕傲

共工之錨
2026-05-21 18:57:49
曝天津港網紅車商卷走千萬購車款跑路 攜女助手潛逃至塞爾維亞

曝天津港網紅車商卷走千萬購車款跑路 攜女助手潛逃至塞爾維亞

音樂時光的娛樂
2026-05-22 10:32:02
北京理工大學珠海學院擬轉設為廣東江門南粵學院

北京理工大學珠海學院擬轉設為廣東江門南粵學院

粵見世界
2026-05-21 23:30:36
人社部長最新撰文!2026年養老金調整方向已明確!低收入享福了?

人社部長最新撰文!2026年養老金調整方向已明確!低收入享福了?

巢客HOME
2026-05-22 04:45:03
汪寶兒的保姆曝光,比小楊阿姨有文化,看起來親和不張揚

汪寶兒的保姆曝光,比小楊阿姨有文化,看起來親和不張揚

鄉野小珥
2026-05-22 14:05:03
麥基:給我足夠長的上場時間我會作出貢獻,今晚會傾盡所有

麥基:給我足夠長的上場時間我會作出貢獻,今晚會傾盡所有

懂球帝
2026-05-22 14:47:08
多地520結婚登記數據爆了,網友說:出生人口穩了!

多地520結婚登記數據爆了,網友說:出生人口穩了!

黯泉
2026-05-22 14:47:24
艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
一盤紅燒肉撕開“宗教捆綁”的幕布,擁抱現代文明

一盤紅燒肉撕開“宗教捆綁”的幕布,擁抱現代文明

西域都護
2026-05-17 22:09:33
笑死了!記者暗訪貴陽各臺球城的女陪練,直接問有沒有特殊服務…

笑死了!記者暗訪貴陽各臺球城的女陪練,直接問有沒有特殊服務…

娛樂洞察點點
2026-05-22 13:20:46
2026-05-22 17:59:00
智駕最前沿
智駕最前沿
自動駕駛領域專業的技術、資訊分享平臺。我們的slogan是:聚焦智能駕駛 ,緊盯行業前沿。
455文章數 11關注度
往期回顧 全部

汽車要聞

舒適智能配置滿 昊鉑S600開著沒那么運動也挺好

頭條要聞

80后地產女王自殺倒在樓市黎明前 曾稱或面臨刑事責任

頭條要聞

80后地產女王自殺倒在樓市黎明前 曾稱或面臨刑事責任

體育要聞

最糟糕裁判?他想要退役當市長

娛樂要聞

周也戀情曝光!對象身份不簡單

財經要聞

證監會擬對老虎、富途、長橋依法嚴厲處罰

科技要聞

雷軍:輸給特斯拉不丟人

態度原創

教育
健康
房產
親子
藝術

教育要聞

全國示范校名單公示!北京這8所學校上榜

外泌體與干細胞竟是“快遞”與“工廠”的關系?

房產要聞

瘋搶511輪!今年海南最魔幻的地塊,被福建能源企業搶了!

親子要聞

多家國際奶粉召回事件頻發,國內奶粉市場影響幾何

藝術要聞

海市蜃樓水中樹

無障礙瀏覽 進入關懷版