(本文編譯自Semiconductor Engineering)
受AI相關工作負載變化的推動,新型處理器架構正快速演進,但沒有任何一款處理器能實現全場景處理。協同處理在理論層面實現起來輕而易舉,在實際應用中卻困難重重。
從未有過能勝任所有工作的處理器架構。不起眼的中央處理器(CPU)五十年來一直是核心運算主力,但即便在個人計算機發展初期,人們就已意識到,部分工作負載需要更具針對性的處理能力。8086處理器便配有專屬輔助芯片——8087浮點協處理器。
音頻處理技術的發展與手機的問世,讓數字信號處理器(DSP)迅速成為不可或缺的輔助處理器。這類處理器發現數據傳輸是性能瓶頸,因此分離了數據流與指令流,同時增設了專用乘累加邏輯,以滿足快速執行傅里葉變換的需求。后續其功能不斷拓展,開始支持編解碼、壓縮、調制、解調及差錯校正所需的各類操作。
計算機輔助設計(CAD)等應用對圖形處理速度提出了更高要求,這不僅推動了商用游戲市場的興起,也促使圖形處理器(GPU)架構迎來快速迭代。正是這類處理器,讓AI從基于規則的模式向基于模型的模式轉變,直至發展到如今的十年。
向新架構遷移并非易事。Quadric首席營銷官Steve Roddy表示:“三十年的片上系統(SoC)發展歷程呈現出一個固定規律—— 耗與性能表現推動新型處理器品類誕生,而全可編程性則決定了哪類處理器能最終勝出。如果某一工作負載能在 CPU 的功耗和性能限制范圍內運行,那它就會依托CPU實現。只有當CPU處理效率低下時,架構師才會推出專用化處理方案。”
AI的飛速發展也推動了硬件架構的革新,其演進速度甚至超過了硬件的設計、驗證、實現和部署速度。“協處理器的關鍵問題本質上在于工作負載,”ChipAgents首席執行官 William Wang表示,“隨著AI系統的演進,工作負載正從簡短的內核式推理任務,轉向需持續運行的智能體工作負載,后者涉及推理循環、工具調用、內存訪問以及多軟件組件間的交互。在這一背景下,挑戰不再在于構建速度更快的計算模塊,而在于如何在通用可編程性和ASIC級能效之間取得平衡。”
許多公司曾嘗試推出新的處理器架構,這些架構雖在理論層面表現亮眼,卻未能落地見效。“成功的協處理器通常能同時最大限度減少數據傳輸、軟件適配和驗證風險的,”南安普頓大學AI和EDA研究員Simon Davidmann表示,“在AI領域,最好的協處理器并非峰值TOPS最高的,而是數據傳輸能耗最低的。”
架構設計
在由多個異構處理單元組成、為同一目標協同工作的計算環境中,通常會有一款處理器承擔協調核心的角色。“在任何情況下,都會有一個高級主機,通常是CPU,”Synopsys首席產品經理Gordon Cooper表示,“其他所有組件都可以被視為協處理器。以大型語言模型的處理為例,主機可以完成部分工作,且主機通常也內置了一定的運算能力,但它們會將大部分工作卸載到NPU上,因為對于大型語言模型或視覺語言模型來說,在NPU中進行數學運算效率要高得多。而整個運算流程的控制,均由主處理器發起。”
NPU發展迅速。Cadence公司AI IP和軟件產品營銷總監Amol Borkar表示。“NPU的設計初衷是運行AI模型,早期這類處理器多為高度專用的固定功能硬件模塊。但如今的AI模型日趨復雜,運算過程遠不止乘累加計算。廠商會在芯片中集成小型硬件單元,為非乘累加運算或激活函數運算提供支持,這一設計的優勢在于能讓NPU的靈活性略有提升。但我們也發現,每當AI模型出現新的網絡層、新的算子,或是Llama、Claude等模型推出新版本時,行業都會面臨新的挑戰——如果這些新增硬件單元并非為適配這些新算子設計,最終會導致整個網絡模型無法運行。”
Arm的新型AGI CPU芯片采用了截然不同的方法,它大幅提升了CPU的每瓦性能。Arm首席執行官Rene Haas表示:“隨著智能體AI的普及,所有實現這一目標所需的工作都受CPU性能限制。數據中心不堪重負。這些用于生成Token、成本高昂的加速器,如今需要通過云網絡將生成的Token回傳,由此形成了巨大的算力瓶頸,這也意味著市場對CPU的需求將持續攀升。”
![]()
圖1:數據中心面臨的瓶頸。
(圖源:Arm)
這又為這場博弈增添了又一個變量。處理器和協處理器的定義變得越來越復雜。“如今的協處理架構涵蓋了緊耦合單元、松耦合加速器和基于Fabric的分布式系統,”Arteris產品管理和市場營銷副總裁Andy Nightingale表示,“緊耦合設計受益于低延遲、共享內存和更簡單的可編程性,使其能夠高效地處理小規模或對延遲敏感的工作負載。但其會因資源競爭和一致性開銷問題,難以實現算力擴展。松耦合方法通常以芯粒形式實現,且能針對訓練、推理、網絡等不同功能做專用化設計,卻會帶來更高的延遲,同時大幅增加硬件和軟件層面的協同復雜度。基于Fabric的架構則力求平衡,既支持算力的可擴展與資源的動態共享,卻對互連提出了極高要求,也帶來了顯著的系統級復雜度。”
RISC-V生態系統正嘗試創造一種新可能,即處理器和協處理器的融合。“對于加速器和高度專用的處理器架構而言,RISC-V指令集架構具有獨特的優勢,”Breker Verification Systems首席執行官Dave Kelf表示,“因此,我們看到基于RISC-V的加速器正在涌現,這類加速器將處理單元集成于自身架構中,從而消除了獨立單元之間控制和數據傳輸的開銷。對于低功耗應用,僅將所需的處理器單元與加速器結合使用即可顯著節省功耗。這對于AI設備應用而言似乎最為有效,因為標準化的軟件棧可以直接應用于加速器本身。這是RISC-V帶來的一種新范式,也可能成為這款開放指令集的未來發展方向。”
這一思路適用于向CPU添加功能,或向NPU添加更通用的處理能力。“處理器之間的切換會產生時間和傳輸損耗,”CadenceAIIP產品營銷總監Jason Lawley表示,“我們需要在明確無法實現CPU全部功能的前提下,權衡分配給矢量處理和標量處理的芯片面積。這也是為何我們能看到小型RISC-V核心被部署在離MAC陣列更近的位置。這些小型RISC-V核心無法完成大型CPU的所有運算工作,軟件開發人員必須找到合理的工作負載拆分方式,以實現運算效率的最大化。”
要了解全貌,還需將目光投向純電子領域之外。“還出現了其他類型的處理器,例如光子AI加速器,”是德科技高速數字產品組合經理Jan van Hese表示,“這類處理器具有巨大的優勢,盡管設計難度較高,但一旦實現商用,便能實現超高運算速度與超低功耗。”
各類處理器的整合架構也處于動態演變中。“談到協處理器,運算任務的執行載體始終在不斷變化,這會影響數據的傳輸方式和存儲位置,”Cadence的Lawley表示,“目前很多計算任務都由GPU和NPU完成,而隨著AI技術的日趨成熟,尤其是智能體的發展,人們會發現CPU需完成更多的運算工作。過去通常是一個CPU搭配一個大型MAC陣列,但現在,對于一定數量的MAC,就需要配置相應的CPU,因為需要額外的計算能力。以NPU設計師的身份來看,會將NPU看作核心,其他都是協處理器;而站在CPU設計者的角度,其他都是協處理器。始終會存在各類專用功能模塊,無法全部集成在單一處理器中,而這正是協處理器誕生的契機。”
回顧歷史,或許能預見未來的融合趨勢。“專用處理器通過將原生數據類型和計算原語與工作負載相匹配來提高效率,”Quadric公司的Roddy表示,“但僅憑專業化是不夠的。緊密耦合的‘輔助’加速器并不能真正解放CPU。分區執行會增加互連流量、延遲和功耗。系統級效率取決于處理器的獨立運行能力。歷史也印證了這一點。早期的圖形引擎均為外掛式加速器。真正的算力擴展性只有在全可編程GPU出現并與CPU解耦后才得以實現。DSP領域也經歷了同樣的轉變。AI似乎正在跨越同樣的界限——從固定功能加速器走向完全可編程的獨立AI處理器。除了功耗和性能的提升之外,獨立運行的架構還能簡化系統集成、驗證、建模流程,以及基于芯粒的算力擴展過程。”
各類架構方案均需做出取舍。“與CPU鄰近的加速方案更容易編程,也更容易集成到現有的軟件流程中,但在持續每瓦性能方面往往難以勝出,”南安普頓大學的Davidmann表示,“GPU式的引擎靈活且強大,卻需要龐大的軟件棧支撐,且會產生高昂的數據傳輸成本。專用加速器通常能效最優,但前提是編譯器、運行時環境與模型適配度足夠成熟,避免硬件淪為孤立的專用模塊。異構子系統則介于兩者之間。它們通常是最佳的系統解決方案,但也是對架構要求最高的方案。”
面臨挑戰
僅關注處理架構可能會忽略全局。新思科技的Cooper表示,“人們總傾向于將其視作純數學問題,但核心實則是數據移動,尤其是面對擁有海量參數的大語言模型時。關鍵在于如何高效地將數據傳輸至指定節點、完成處理或相關操作,且無需反復遷移數據。問題的核心是數據流設計,必須在算力與數據帶寬之間找到精準平衡。如果數據流供應不足,導致MAC處于數據饑餓狀態,那么單純增加MAC數量毫無意義,算力與帶寬的平衡不可或缺。”
這一切都始于系統級規劃。“設計周期需要左移,”是德科技的van Hese表示,“理想狀態是同時芯片級、封裝級和系統級的設計工作,各類核心模塊之間必須進行協同設計,才能保障整個系統的正常運行。”
分布式處理雖能簡化部分環節,卻會讓其他環節變得更為復雜。“芯粒與異構協處理器雖為生態帶來了更高的開放性與靈活性,但其集成挑戰遠不止基礎的互操作性問題,”Arteris公司的Nightingale表示,“UCIe和CXL之類的標準雖解決了物理層與協議層的兼容性問題,卻未能攻克系統級的行為集成難題。不同廠商在流量管理、內存排序、服務質量要求和延遲容忍度等方面的設計差異,會導致各組件組合后出現性能不可預測的問題。此時,一套統一的互連層架構變得至關重要,它不僅要實現各組件的物理連接,更要保障跨組件的系統行為可預測。若缺少這一架構,整個生態可能陷入技術層面兼容、但實際工作負載下運行不可靠的困境。”
可擴展性
在AI相關模型和任務的研發速度放緩之前,硬件的發展始終會落后于軟件的需求。Cooper表示:“一款芯片的設計耗時一年,集成至產品又需一年,且投產后還需在市場中服役數年。對于SoC設計而言,如何實現未來兼容,是一項頗具挑戰的課題。”
為未來需求做的設計考量,往往需要在當下付出成本。Borkar表示:“如果我們開發的專用硬件與當前所需的工作負載實現精準緊耦合,能效或許能大幅提升。在既定周期內,我可對這款硬件進行全方位的調優與優化,實現性能最大化。但顯然,這種設計的隱患在于,一旦客戶調整技術規格,或是推出新的網絡模型,硬件將完全無法適配,陷入極為被動的局面。”
每個硬件開發人員都必須找到合適的平衡點。ChipAgents公司的Wang表示。“架構設計既需要足夠的專用化設計以保障功耗與性能表現,又需要具備足夠的靈活性,以適配快速演進的AI工作負載。這使得系統級調度、數據移動與軟件集成,與原始計算吞吐量同等重要,而這正是智能體式AI能夠發揮作用的領域——助力工程師權衡各類設計取舍,應對異構協處理系統日益增長的復雜度。”
在考慮面向未來的應用時,需要考慮的不僅僅是運算本身。“最初的NPU是為處理CNN工作負載而設計的,”Cooper表示,“矩陣乘法非常簡單直接。但隨著Transformer的出現,情況就變得復雜一些。TOP運算的重要性降低了,因為它不再僅僅是乘加運算,還需要處理張量網絡的其他問題,隨后大語言模型問世,系統開始受限于內存帶寬——此前算力與帶寬的平衡被徹底打破,大語言模型的處理工作完全受內存制約。再到如今的混合模式與多模態模型,視覺處理任務再次成為核心需求,不同的模型組合方式對應著不同的設計參數,而這些處理單元都可被稱作NPU。”
算子優化或許只是相對簡單的環節。Borkar稱:“若將網絡模型拆解為一系列算子,多數客戶的算子需求中,有很大一部分是通用的。對于這類通用算子,能夠實現高性能、高能效的硬件支持。而問題往往出在那些未納入前期規劃的算子上,需要找到適配的運行方式,這也是能效問題頻繁出現的環節。”
數據類型的支持同樣面臨這一問題。Cooper表示:“硬件可支持多種現有數據類型,但隨著新數據類型不斷涌現,就需要專門的運算引擎來兼容未來可能出現的所有數據類型。在某個節點上,必須通過提升硬件靈活性來實現產品的未來兼容設計,但這必然會帶來芯片面積的損耗。而NPU的設計目標,是在保持可編程性的同時,實現能效的最大化。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.