網易首頁 > 網易號 > 正文申請入駐

52年前的理論上車：揭秘理想馬赫100與數據流架構

2026-04-30 10:08:37　來源: HiEV

北京舉報

分享至

作者 |肖恩

編輯 |德新

馬赫100真正重要的，不是1280TOPS，而是數據流架構。

這屆北京車展，全新一代理想L9 Livis終于亮相。這代L9對理想來說意義非凡：它承載的不只是銷量目標，更是新階段理想技術與品牌的集大成之作。

新一代L9 Livis技術亮點頗多，譬如800V全主動懸架、行業首個“完全體”全線控底盤，以及首次搭載的自研馬赫100芯片——兩顆芯片算力達到2560 TOPS。如果只看這個數字，你可能會把馬赫100當作“又一顆更強的自動駕駛芯片”。

但真正值得關注的是，李想反復提到的一個術語：數據流架構。

這個詞聽起來陌生，但它并不年輕——從第一篇論文算起，這個概念被提出足有五十二年了，而馬赫100正是把這條經典理念帶入車載實時計算的首次嘗試。

一、52年前的理論，為什么今天才上車？

要理解數據流架構的價值，得先回到半個世紀前的一個大膽設想：計算機究竟應該按指令順序執行，還是按照數據是否到位來執行？

1974年，MIT的Jack Dennis提出了一個顛覆性的想法。他在會議上描述的畫面很簡單：程序不再是一串線性的指令，而是一張復雜的依賴網絡。每一個操作都是一個節點，只有當它需要的所有數據都到位時，它才會“點火”執行。

數據像河流一樣在圖中流動，推動程序前行，而不是依賴傳統的程序計數器。

這個理念聽起來抽象，但優勢很明顯：它天然適合并行，計算單元不再因為等待數據或分支跳轉而閑置，控制開銷大幅降低。但是它也有局限性——復雜控制流對它不友好，令牌傳遞本身也消耗資源，而編譯器要把通用程序翻譯成這種圖形結構，更是難上加難。盡管如此，學術界沒有放棄。

1983年，Arvind和Robert Iannucci把這一理念整理成完整的理論體系，區分靜態和動態數據流模型。三年后，Arvind和David Culler提出Tagged Token模型，讓多條并行任務能動態創建，為MIT Monsoon項目奠定基礎。

學術界的探索一次次推進，把數據流從概念推向可實踐的藍圖。

然而，即便如此，數據流架構在工業界始終沒能扎根。MIT Monsoon、McGill的EARTH、MIT的RAW——這些項目嘗試把理論變成機器，卻無法在通用計算市場站穩腳跟。

原因很簡單：那時計算的主流仍是通用程序，而數據流架構最擅長的規則、可并行計算幾乎沒人需要。

直到深度學習出現，一切才開始改變。矩陣乘法和卷積——規則、密集、可并行——成了計算的主流，而數據流的理念與現代AI任務天然契合。

多年的理論積累終于找到了與工業實踐的連接點，為后來的TPU、Cerebras、Groq，乃至馬赫100的出現埋下伏筆。

二、當深度學習撞上存儲墻，數據流等到了自己的時代

時間快進到2012年。

AlexNet在ImageNet上奪冠，深度學習一夜之間成為熱點。矩陣乘法和卷積運算成為主流，而這些運算有一個共同特點：規則、密集、可并行。

這恰恰是數據流架構最擅長的領域。曾經被學術界冷落的理念，突然發現自己的技能正好符合新時代的需求。

這一轉折的橋梁，是卡耐基梅隆大學的H.T. Kung。他在1980年代提出的脈動陣列（Systolic Array）設計，雖然當時只在理論上討論，但原理非常清晰：一個二維計算單元陣列，數據像心跳一樣在陣列中流動，每個單元只和鄰居通信，不碰全局內存。

這樣的設計天然減少了數據搬運開銷，剛好解決了“存儲墻”問題——也就是馮·諾依曼架構下CPU算得快，但數據傳輸跟不上，能耗巨大。

2015年，Google推出了第一代TPU，將脈動陣列的理念落到芯片上。兩年后，他們在ISCA 2017上發布論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》，標志著數據流架構第一次在工業界獲得了大規模驗證。

數據流不再只是學術特產，它成為AI芯片設計中繞不開的核心思路。

隨后，工業界涌現出多個里程碑產品：Cerebras WSE把整塊晶圓做成一顆芯片，幾乎消滅了片間通信瓶頸；Groq LPU將調度嚴格提前到編譯期，實現了運行時零調度、低延遲確定性推理；Graphcore IPU和華為昇騰則分別在通用AI加速和數據中心計算中探索各自路徑。

這些產品共同回答一個問題：如何讓數據在計算單元間順暢流動，而不是在計算單元和內存間頻繁搬運。

從11974年到2015年，數據流架構經歷了41年的學術沉淀和工業試驗，才真正找到了可以大規模落地的方向。而從數據中心到汽車駕駛座，這一理念又經歷了大約十年的工業探索，最終在理想L9上首次落地。

三、馬赫100，理想怎么把大模型搬上車？

當理想在2022年啟動自研芯片計劃時，他們面臨一個核心選擇：繼續依賴通用GPU，還是打造一顆專門為大規模AI計算設計的芯片。

Orin曾是當時的頂尖選擇，但它更像一輛多用途轎車，通用而靈活，卻無法在高頻低延遲的大模型推理上發揮最大潛力。理想決定打造馬赫100——一顆為數據流架構量身設計的芯片，讓架構與硬件緊密協作，最大化大模型和自動駕駛場景的效率。

在芯片的硬件設計上，馬赫100采用了Chiplet模塊化設計。

簡單來說，芯片被拆分成多個功能模塊，每個模塊承擔計算、控制或緩存任務，通過高速互聯協同工作。

這種設計不是簡單堆疊多個SOC，而是像把一座復雜工廠分成若干車間，每個車間各司其職，同時通過高效調度保證整體順暢。Chiplet設計帶來的優勢有：

提高良率：每個模塊單獨測試，降低整片報廢風險；
靈活迭代：某些模塊升級或優化無需重做全芯片；
擴展性強：多模塊協作輕松增加算力。

AMD于2019?年發布的Ryzen?3000系列（Zen?2 架構）就是Chiplet設計的經典產品，將核心計算部分和I/O部分分成不同的芯片粒（Chiplet），再通過內部高速互聯組合成一顆完整處理器。與Intel當時主推的Core i9?9900K等傳統單片設計相比較，Ryzen?3000系列憑借模塊化設計在性能、能效比和制造良率上取得明顯優勢，也幫助AMD在桌面CPU市場迅速提升競爭力。

同樣的架構理念也體現在馬赫100身上。Chiplet讓馬赫100在車規工藝要求、高算力、高可靠性條件下保持模塊化協作，讓設計復雜度可控、制造風險降低。在此基礎上，馬赫100能夠在后續的數據流優化中發揮更高的資源利用效率。

相較于Thor?U，馬赫100的Chiplet模式為它提供了更好的擴展性和靈活性，并為后續的數據流架構優化打下了物理基礎。

在芯片架構之外，馬赫100最核心創新在于編排式數據流架構。

數據流架構的核心理念是：計算單元像自發行動的員工，只要數據到位，就立即處理，無需等待上級指令。

然而，復雜神經網絡中上億條數據依賴的流動，就會產生“令牌路由開銷”。可以把它想象成一個巨大的物流中心：如果每件包裹都要臨時找路徑、排隊、確認位置，整體效率就會被拖慢。

馬赫100的創新是把數據流路徑和處理時序提前規劃到編譯階段——就像提前為物流中心規劃好所有路線和調度表，每個計算單元都知道自己何時、處理哪條數據，運行時無需再查路線，也不會互相沖突。

這種“編排式數據流”設計帶來顯著優勢：

高利用率：計算單元幾乎連續工作，減少閑置；
低延遲：數據直接在計算單元間流動，不經過全局內存中轉，繞過存儲墻瓶頸；
靈活可編程：數據流路徑可隨AI模型迭代更新，既不是固定ASIC，也不是簡單GPU。

理想在ISCA 2026發表的論文詳細呈現了這套設計：如何將復雜模型展開成數據流圖，在芯片內部以精確節奏運作。

每個計算單元知道何時處理哪些數據，避免空閑或擁堵，實現了極高的利用率。

Chiplet的芯片硬件設計和編排式數據流架構，讓馬赫100在實際運行中顯示出巨大的優勢：單顆芯片的有效算力約是Thor U的三倍，而兩顆協同運行時，數據處理效率可達到Thor U的五到六倍。

這意味著在運行大模型時，更多計算單元始終保持滿負荷運轉，從而顯著降低延遲并提升推理吞吐量。

四、3D ViT：理解連續三維世界的視覺模型

除了硬件和數據流架構創新之外，和馬赫100芯片一同首發的還有全新的VLA大模型MindVLA?o1，其中重要的變化是引入了3D?ViT。

3D ViT也就是3D Vision Transformer。自動駕駛和大模型感知任務中，車輛面對的不只是單幀圖像，而是復雜的連續三維環境。傳統卷積神經網絡（CNN）擅長提取局部特征，但在跨幀動作或空間關系分析上存在局限。

3D ViT的核心思想是把空間和時間信息切分成連續的“tokens”，通過 Transformer架構在全局范圍內進行注意力計算。

換句話說，它不僅分析每一幀畫面，還能夠理解場景中物體的運動和三維位置關系。它讓車輛不只是“看到”一幀圖像，而是理解連續三維世界的動態變化，這是自動駕駛感知和決策的基礎。

相較于傳統CNN，3D ViT有兩個顯著優勢：

全局建模能力：可以同時捕捉局部細節和全局空間關系，不依賴固定卷積窗口，適合復雜場景分析。
時間信息整合：能夠把連續幀的運動信息編碼進注意力機制，實現跨幀動態理解，而不僅僅停留在單幀特征。

然而，3D ViT帶來的計算量巨大：每token都要與其他token交互，計算依賴復雜且密集，如果沒有硬件優化，即便算力足夠，也可能因為數據搬運和調度開銷而效率低下。

這正是馬赫100的數據流架構大顯身手的地方——數據流架構確保每個計算單元持續高效工作，流水線化傳遞token，使3D ViT模型在車載端能夠以低延遲和高吞吐量運行。

通過3D ViT，車輛不僅能捕獲視覺信息，更能理解空間結構和動態行為，VLA大模型提供堅實的感知基礎。這一創新模型與馬赫100的硬件優化緊密結合，實現了端到端高效、實時的視覺感知，為自動駕駛決策提供了可靠支撐。

五、數據流架構上車，改變不只是芯片

當馬赫100芯片首次搭載理想全新一代L9上車時，它不僅是算力的升級，更是一場整車計算架構的革新。

在過去，車載AI系統受限于GPU的指令驅動和存儲瓶頸，計算單元常常處于等待狀態，延遲和能耗難以進一步優化。而數據流架構的落地，使每個計算單元都能夠根據數據到位情況自主執行任務，車輛的大模型處理能力顯著提升。

這一效率提升不僅體現在芯片層面，更延伸到整車系統。根據理想官方公布的數據，新一代L9搭載馬赫100后，從攝像頭或傳感器采集數據，到 AI 模型生成輸出，再到車輛執行動作的端到端響應時間可縮短至約200 - 300毫秒。

相比上一代使用Thor?U芯片的車型，VLA大模型推理受到算力和數據流限制，端到端響應延遲相對較高，難以滿足高頻實時決策需求，而新一代L9的延遲降低，使車輛能夠更快速地識別突發狀況并采取行動。

這種架構優化對整車計算的影響具體表現在：

感知層：實時處理來自攝像頭、雷達和激光雷達的數據流，結合MindVLA?o1模型和3D ViT，車輛能夠更準確理解周圍環境和動態物體；
規劃與決策層：數據流架構降低了推理延遲，使高頻決策和路徑規劃更可靠，車輛可以快速響應突發狀況；
整車協同：不同計算模塊之間的數據交換更高效，計算負載分布合理，整車算力資源利用率大幅提升。

對于用戶而言，這意味著更平順、更智能的駕駛體驗：自動駕駛系統能夠更快識別環境變化，更精準預測行人、車輛和障礙物的運動，更及時做出安全決策。而在技術層面，這也是國內首款將編排式數據流架構從學術概念、工業驗證到車載落地的成功案例。

通過這次落地，馬赫100和數據流架構不僅驗證了理論，更證明了硬件、架構與模型協同優化的巨大潛力。它讓整車計算成為一個整體系統，而不再是孤立的芯片堆砌，真正實現了端到端高效智能駕駛。

結語

從最初的學術概念，到工業驗證，再到馬赫100在理想全新一代L9上的落地，數據流架構經歷了漫長而不斷優化的歷程。它不僅重新定義了芯片設計和計算資源的使用方式，也為大模型在車載端的實時運行提供了可行方案，端到端延遲大幅下降，整車算力利用率顯著提升。

理想汽車的創新不僅在于落地數據流架構，還在于將它與自研車載芯片設計和模型架構深度結合，實現整車端到端的高效智能計算。

以前的L9被形象地稱為“冰箱、彩電、大沙發”，憑借精準的產品定位和功能組合打破了市場格局。而全新一代L9在此基礎上升級為真正的科技旗艦：不僅延續了豪華與舒適，還融入了最前沿的芯片、架構與模型協同創新，體現了理想汽車在技術能力上的深厚積累。

可以預見，數據流架構、馬赫100芯片以及MindVLA?o1模型的協同落地，將繼續支撐理想在智能駕駛和車載AI領域的探索。

它不僅是芯片與模型的革新，更標志著國產智能汽車在技術路線和端到端智能化體驗上的新高度，為行業樹立了新的標桿。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.