華為“韜定律”新論文全文：邏輯折疊將大幅提升麒麟CPU核心頻率

2026-07-05 09:06:05　來源: 觀察者網(wǎng)

上海舉報

分享至

文/觀網(wǎng)硬科技

根據(jù)中國科學(xué)院科技論文預(yù)發(fā)布平臺ChinaXiv，華為技術(shù)有限公司董事、半導(dǎo)體業(yè)務(wù)部總裁何庭波于7月3日發(fā)布《面向多層級電子系統(tǒng)的時間縮微理論》（韜定律）V2 版本。新版論文在原有理論框架基礎(chǔ)上，補充了大量工程落地細節(jié)、實測量化數(shù)據(jù)與產(chǎn)品演進路線，進一步完善了以時間常數(shù)τ為核心的后摩爾時代縮放理論體系。

根據(jù)論文披露的數(shù)據(jù)顯示，與2025年的麒麟9030 Pro基線相比，麒麟2026采用了LogicFolding雙層邏輯折疊，使得晶體管密度從155MTr/mm2大幅提升至238MTr/mm2，提升了約53.5%，而這一提升幅度以往需要三年的幾何微縮才能實現(xiàn)。

何庭波在論文中提到，未來十年間，邏輯折疊預(yù)計將從局部的關(guān)鍵路徑折疊演進為全面的、多層級的折疊——每個封裝內(nèi)將集成三層、四層乃至更多的有源層。

這一演進由低溫混合鍵合技術(shù)（放寬了各層之間的熱預(yù)算限制）以及硅通孔（TSV）著陸點從頂層金屬逐步下移至M6層所推動，此舉將釋放超過30%的高層布線資源。從2026年到2035年，晶體管密度預(yù)計將向400MTr/mm2及更高水平邁進。

與此同時，LogicFolding（邏輯折疊）使麒麟芯片能夠大幅提升CPU核心頻率，并為邁向4GHz及更高頻率鋪平道路。該路線圖是切實可行的，并且在成本方面具有經(jīng)濟可行性。

“熱管理仍然是LogicFolding架構(gòu)中的關(guān)鍵挑戰(zhàn)。為解決此問題，我們采用了熱感知分區(qū)和布局規(guī)劃策略。在設(shè)計階段，我們有意識地避免折疊高功耗電路，并從結(jié)構(gòu)上防止高功耗子系統(tǒng)的空間相鄰。”論文中寫道。

“前方的路線圖要求很高，但方向是明確的。”何庭波表示，將τ縮放（韜定律）描述為一個已完成的系統(tǒng)會具有誤導(dǎo)性。幾個實質(zhì)性問題仍然懸而未決，包括工具鏈和方法論、晶圓間工藝變化和垂直互連開銷。

她坦言，未來十年的工作范圍已經(jīng)明確。許多開放問題仍然存在，沒有任何一個組織能夠獨自解決它們——工具鏈、標準、基準測試、器件物理和經(jīng)濟模型都需要來自任何一家公司之外的貢獻。因此，本文既是一份來自實踐一線的報告，也是一份邀請。

以下為何庭波《多層電子系統(tǒng)的時間縮放理論》論文

摘要

六十年來，摩爾定律的幾何縮放一直驅(qū)動著半導(dǎo)體行業(yè)的進步。然而，這一行業(yè)契約已不再成立：純粹依靠縮小尺寸帶來的回報已經(jīng)趨于平緩，前沿芯片的設(shè)計預(yù)算已超過每顆10億美元，并且在最先進節(jié)點上，單位晶體管的成本也不再下降。本文提出了一種新的縮放原理——τ縮放——該原理采用時間本身，而非晶體管面積，作為衡量進步的主要指標，將單一的特征時間常數(shù)τ作為橫跨十二個數(shù)量級的統(tǒng)一優(yōu)化目標，從晶體管的開關(guān)速度到數(shù)據(jù)中心的負載響應(yīng)均適用。

本文展示了兩個生產(chǎn)級規(guī)模的驗證案例。在一款移動SoC上，LogicFolding（邏輯折疊，一種將數(shù)字、模擬和存儲電路分區(qū)并垂直堆疊在多層有源層中的方法論）在固定工藝節(jié)點下，實現(xiàn)了晶體管密度55% 的階躍式提升，并在同等性能下將功耗降低了41%。在AI系統(tǒng)方面，通過協(xié)同設(shè)計的、包含內(nèi)存語義的統(tǒng)一總線架構(gòu)、近封裝的光I/O以及邊緣到表面的3D折疊技術(shù)，預(yù)期到2035年可實現(xiàn)超過100倍的硬件集成度增長。

更深入的論述在于其方法論層面：τ縮放是繼鄧納德縮放之后，第一個為整個計算堆棧建立統(tǒng)一優(yōu)化目標的縮放原理。

一、引言

自二十世紀六十年代中期以來，半導(dǎo)體行業(yè)一直以納米為單位衡量進步。每十八個月，晶體管尺寸縮小、頻率上升、每個邏輯門的成本下降。摩爾定律既是一個經(jīng)驗觀察，也幫助建立了一個行業(yè)契約，整個計算堆棧都建立在此之上。然而，這個行業(yè)契約已不再成立。在7納米節(jié)點之后，幾何縮放不再帶來其歷史上的紅利。光刻工具正接近物理極限，極紫外（EUV）光刻的折舊在晶圓成本中占據(jù)主導(dǎo)地位，單位晶體管的成本曲線已經(jīng)趨于平緩，在某些情況下甚至出現(xiàn)逆轉(zhuǎn)。對于那些獲取最先進光刻技術(shù)受限的組織而言，這一限制更早地成為瓶頸，并產(chǎn)生了更嚴重的影響。

因此，行業(yè)的核心問題已經(jīng)發(fā)生了變化。它不再是“晶體管還能縮小多少？”而是“應(yīng)該縮放什么，以及針對什么目標？”

在過去的六年里，作者在華為海思的團隊在移動SoC、AI加速器、系統(tǒng)互聯(lián)和封裝領(lǐng)域?qū)@一問題進行了硅片層面的研究。結(jié)論是，答案不在于一個新的節(jié)點，也不在于一種新的晶體管架構(gòu)，而在于優(yōu)化目標本身的改變。本文認為，未來十年電子系統(tǒng)的演進不應(yīng)由幾何縮放來引導(dǎo)，而應(yīng)由時間縮放——即系統(tǒng)性地減少堆棧每一層的一個單一特征時間常數(shù)τ——來指引，從皮秒級開關(guān)的晶體管到秒級響應(yīng)的數(shù)據(jù)中心負載。

下文將從科學(xué)方法論和產(chǎn)業(yè)路線圖兩個角度闡述τ縮放的理論，并借鑒了2020年5月至2026年5月期間381顆量產(chǎn)芯片的經(jīng)驗教訓(xùn)。

二、幾何時代的終結(jié)

在其歷史的大部分時間里，半導(dǎo)體行業(yè)只有一個任務(wù)：把晶體管做得更小。戈登·摩爾在1965年的觀察——晶體管密度大約每兩年翻一番——在十年后得到了羅伯特·鄧納德的縮放理論的補充，該理論確立了按比例縮小電壓和尺寸可以維持恒定電場。幾何縮放與鄧納德縮放相結(jié)合，在近五十年的時間里，為單位功耗性能和單位成本性能帶來了指數(shù)級的提升。

這種格局分兩個階段瓦解。大約在2005年，鄧納德縮放首先失效：電壓不再隨特征尺寸按比例縮小，暗硅時代開始。幾何縮放則持續(xù)得更久一些，由FinFET及隨后的環(huán)繞柵極（GAA）器件架構(gòu)維持。然而，在7納米之后，純粹依靠尺寸縮放的回報已經(jīng)趨于平緩。其原因現(xiàn)在已有充分記載：速度飽和將本征延遲對溝道長度的依賴從二次關(guān)系降為線性關(guān)系；局部互連的寄生電阻和電容在標準單元延遲預(yù)算中占據(jù)主導(dǎo)地位；掩模成本、EUV折舊以及設(shè)計規(guī)則復(fù)雜性已將2納米節(jié)點的前沿芯片設(shè)計預(yù)算推高至每顆芯片超過10億美元。

其經(jīng)濟后果同樣不可避免。先進節(jié)點的單位晶體管成本已經(jīng)趨于平緩，而在最前沿，成本正在上升。支撐了過去五十年的行業(yè)契約——每一代都以更低成本提供更多晶體管——已不復(fù)存在。

對于華為海思而言，這一轉(zhuǎn)變伴隨著一個額外的約束：獲取最先進光刻工具受限。指望另一個節(jié)點能解決問題已不再可行。六年前，幾何路線圖趨于平緩，迫使我們面對一個更根本的問題——這個問題，回過頭來看，整個行業(yè)最終都將不得不面對。

三、時間，而非空間：摩爾時代的真正通貨

究其對終端用戶的核心影響，摩爾定律從根本上講從來都不是關(guān)于幾何尺寸的。晶體管變小提升了系統(tǒng)性能，是因為它們開關(guān)速度更快。互聯(lián)變得更密集提升了性能，是因為信號傳輸距離更短。更高的集成度提升了性能，是因為數(shù)據(jù)跨越的邊界更少。每一代產(chǎn)品所交付的，本質(zhì)上都是時間的縮短——在器件層面是皮秒到納秒，在芯片層面是納秒到微秒，在系統(tǒng)層面是微秒到秒。空間縮放僅僅是壓縮時間的手段。

一旦認識到這一點，一個明顯的重新構(gòu)架便浮現(xiàn)出來：時間本身應(yīng)被采納為主要指標。可以在堆棧的每一層——晶體管、電路、芯片和系統(tǒng)——定義一個特征時間常數(shù)τ，并將其縮減作為統(tǒng)一的優(yōu)化目標。幾何縮放隨后成為縮減τ的眾多技術(shù)之一，而非唯一的技術(shù)。

這一原理被稱為τ縮放，本文提出將其作為幾何摩爾縮放的后繼者，成為半導(dǎo)體演進的指導(dǎo)原則。形式上，τ被視為一個分層結(jié)構(gòu)，可分解為：

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

其中τ_transistor， τ_circuit， τ_chip，和 τ_system 分別代表晶體管、電路、芯片和系統(tǒng)層的時間常數(shù)。每一層的τ由其下層τ以及該層引入的組織和通信開銷共同構(gòu)成。如圖1所示，τ的工作空間在時間維度上跨越約十二個數(shù)量級（皮秒到秒），在空間維度上跨越相當(dāng)?shù)姆秶{米到公里）。在每一層，都有不同的機制可用于縮減τ：

·晶體管：本征開關(guān)延遲，通過遷移率增強、應(yīng)變工程、高κ/金屬柵極和GAA架構(gòu)來解決，并且日益需要通過減少局部互連的寄生電阻和電容來解決，后者目前已超過本征傳輸時間數(shù)倍。

·電路：信號路徑上的RC傳播延遲，通過更低電阻率的導(dǎo)體、低κ電介質(zhì)，以及——最重要地——通過垂直集成減少線長來解決。

·芯片：計算和內(nèi)存訪問延遲，通過架構(gòu)選擇、流水線深度、存儲層次和片上互聯(lián)來解決。

·系統(tǒng)：端到端的消息傳遞和同步時間，通過互聯(lián)拓撲、協(xié)議棧和架構(gòu)設(shè)計來解決。

[圖1：τ縮放的工作空間在時間和空間維度上跨越12個數(shù)量級，并劃分為四個層次：晶體管、電路、芯片和系統(tǒng)。] 從這個分層公式中可以得出一個有用的代際規(guī)則：τ_n+1 = τ_n / α其中下標n和n+1分別表示當(dāng)前代和下一代。根據(jù)不同行業(yè)部門的市場壓力和優(yōu)化優(yōu)先級差異，我們認為年度縮放因子是應(yīng)用特定的，而非通用的。不同的行業(yè)部門由于獨特的應(yīng)用約束，需要不同的加速因子。我們預(yù)測，未來十年，受功耗和散熱預(yù)算限制的移動設(shè)備，其年度縮放因子約為1.3；需要安全關(guān)鍵實時響應(yīng)的自動駕駛系統(tǒng)約為1.5；而吞吐量直接轉(zhuǎn)化為經(jīng)濟價值的人工智能（AI）令牌生成則可高達10。τ之所以能成為一個有用的主要指標，而不僅僅是對現(xiàn)有指標的重新命名，是因為它是整個堆棧中相同的指標。頻率、延遲、帶寬和吞吐量都受其各自層級的τ支配。工藝工程師、電路設(shè)計師和系統(tǒng)架構(gòu)師可以用相同的單位來討論同一個量。τ是能夠?qū)崿F(xiàn)端到端堆棧協(xié)同優(yōu)化的語言——而各層獨立優(yōu)化、時序僅作為事后考量而出現(xiàn)的時代已經(jīng)結(jié)束。四、LogicFolding：一個移動SoC的驗證案例 τ縮放的首次生產(chǎn)級規(guī)模測試是在移動領(lǐng)域進行的。智能手機SoC是一個特例，因為一顆芯片就構(gòu)成了整個系統(tǒng)。多插槽并行不可用；沒有千節(jié)點互聯(lián)網(wǎng)絡(luò)可以掩蓋一條慢速鏈路。所有交付給用戶的性能都源自單個芯片，在幾瓦的功耗預(yù)算和手持設(shè)備形態(tài)因素設(shè)定的散熱限制下運行。在2020年之后，當(dāng)獲取前沿節(jié)點的途徑受限時，實際的問題變成了：在節(jié)點固定的情況下，如何繼續(xù)在單顆芯片上實現(xiàn)代際性能提升？由此產(chǎn)生的答案被稱為LogicFolding。定義：LogicFolding是一種設(shè)計方法論，它將數(shù)字、模擬和存儲電路分區(qū)到垂直堆疊的有源層中，遵循時間縮放原理，共同優(yōu)化性能、功耗和面積（圖2）。數(shù)字電路分為組合邏輯——寄存器之間的布爾網(wǎng)絡(luò)——和時序邏輯——保存狀態(tài)的觸發(fā)器。數(shù)字系統(tǒng)的性能上限由相鄰觸發(fā)器級之間的關(guān)鍵路徑延遲決定，而該延遲又由該路徑上的互連RC和門數(shù)量主導(dǎo)。傳統(tǒng)優(yōu)化將門電路放置在平面內(nèi)，并通過上方的金屬堆棧進行布線；導(dǎo)線越長，寄生RC越大，關(guān)鍵路徑就越慢。LogicFolding拋棄了平面假設(shè)。關(guān)鍵路徑上的門電路被分布到兩個（并最終更多）垂直堆疊的有源層中，通過超精細間距的混合鍵合連接。從電路設(shè)計師的角度來看，這兩層表現(xiàn)為一個單一連續(xù)的結(jié)構(gòu)，單元如同穿過一個額外的金屬層一樣分布在整個晶圓界面上。信號線大幅縮短，寄生RC急劇下降，時鐘偏移收緊，芯片在相同的工藝節(jié)點下以更高的時鐘頻率運行。 [圖2：LogicFolding的原理示意圖] 為了充分實現(xiàn)LogicFolding的架構(gòu)優(yōu)勢，關(guān)鍵在于保持混合鍵合與頂部金屬布線層之間的低間距比（通常稱為“齒輪比”）。當(dāng)垂直互連間距接近頂部金屬層的尺寸時，優(yōu)化目標的本質(zhì)發(fā)生了根本性轉(zhuǎn)變。歷史上，當(dāng)垂直互連間距遠大于頂部金屬間距時，設(shè)計空間基本被限制為一個離散優(yōu)化問題。設(shè)計師在宏觀層面手動定義分區(qū)邊界，將整個功能模塊分配給特定的芯片。芯片間連接的粗糙粒度迫使采用離散的模塊分配方法，這在計算上是可行的，但并非全局最優(yōu)。本文提出的LogicFolding被定位為一個連續(xù)優(yōu)化問題，其中精細粒度的垂直集成使得設(shè)計空間能夠在遠超功能模塊細粒度的層面上進行探索，為跨垂直維度進行全局協(xié)調(diào)的電路優(yōu)化打開了大門。隨著鍵合焊盤間距的逐步縮小，垂直互連密度不斷增加，從電路連接性的角度來看，晶圓實際上被拉得越來越近。這使得優(yōu)化空間從離散轉(zhuǎn)變?yōu)檫B續(xù)，需要使用先進的自動化設(shè)計工具。值得注意的是，雖然順序3D集成在理論上通過順序制造器件層來提供最終的精細粒度（器件或標準單元粒度），但它目前面臨著重大的制造瓶頸。最關(guān)鍵的是，由于順序制造過程中固有的嚴格熱預(yù)算限制，下層器件的性能極易退化。作為一種商業(yè)可行的實現(xiàn)方式，LogicFolding利用成熟的先進晶圓對晶圓混合鍵合技術(shù)，實現(xiàn)了連續(xù)優(yōu)化所需的低齒輪比。在實踐中，LogicFolding要求齒輪比降至約3以下，且該比值越低通常效果越好。以當(dāng)前約720納米的頂部金屬間距計算，這對應(yīng)于低于2微米的混合鍵合間距——理想情況下齒輪比約為1，此時鍵合界面處的“鳥籠式”布線開銷將基本消失。實現(xiàn)這一間距，以及所需的套刻精度（<0.5微米）、硅通孔（TSV）微縮（臨界尺寸和保持區(qū)小于1.5微米，間距小于6微米）和良率（通過智能冗余設(shè)計接近100%），需要在供應(yīng)商和合作伙伴生態(tài)系統(tǒng)中進行多年的工藝開發(fā)努力。與2025年的Kirin 9030 Pro基線相比，在Kirin 2026上測得的成果提供了具體的實踐證據(jù)。盡管兩者制造于相同的成熟工藝節(jié)點，但基線采用傳統(tǒng)平面設(shè)計，而Kirin 2026采用了LogicFolding：·晶體管密度在單一代際間實現(xiàn)了階躍式提升，從155 MTr/mm2 提升至 238 MTr/mm2（晶體管密度計算公式為 2/(CPP × 單元高度)；Kirin SoC設(shè)計的面積利用率為68%）。這一提升幅度以往需要三年的幾何微縮才能實現(xiàn)。·在環(huán)境溫度、1.1V供電電壓下，SoC性能核心的最高時鐘頻率提升了近13%。·在上下兩層構(gòu)建的一條高速全局片上網(wǎng)絡(luò)數(shù)據(jù)通路，其面積減少了55%，同時供電穩(wěn)定性得到改善。一項硅后時鐘偏移調(diào)整方案獨立貢獻了超過5% 的SoC性能提升。·在SRAM上（其訪問速度、每比特能耗和面積強烈依賴于位線和字線長度），LogicFolding縮短了關(guān)鍵路徑，降低了每比特能耗，并將工作頻率提升了超過40%。·在一個代表性處理核心上，雙層折疊架構(gòu)使時鐘緩沖器數(shù)量減少了超過50%，時鐘偏移降低了25%，線長縮短了約30%。熱管理仍然是LogicFolding架構(gòu)中的關(guān)鍵挑戰(zhàn)。為解決此問題，我們采用了熱感知分區(qū)和布局規(guī)劃策略。在設(shè)計階段，我們有意識地避免折疊高功耗電路，并從結(jié)構(gòu)上防止高功耗子系統(tǒng)的空間相鄰。SoC性能核心是我們詳細評估的焦點。如表1所示，利用LogicFolding帶來的性能提升，Kirin 2026降低其供電電壓以實現(xiàn)與Kirin 9030 Pro的等性能運行。在實際測量中，達到此等性能目標時，功耗降低了41%，同時功率密度下降了5.6%。表1. Kirin 2026與Kirin 9030 Pro在等性能下的功耗對比這些增益是在固定器件節(jié)點上實現(xiàn)的，并非通過新的光刻步驟，而是通過邏輯在三維空間分布上的拓撲重組獲得的。在Kirin 2026中量產(chǎn)的LogicFolding實現(xiàn)是刻意保守的。混合鍵合間距達到了1.5微米；硅通孔著陸僅向頂部金屬下方推進了一步；折疊僅沿關(guān)鍵路徑選擇性應(yīng)用，而非貫穿整個設(shè)計（圖3）。即便如此，CPU性能核心的頻率今年已回歸至3.1 GHz。圖3. (a) 下一代Kirin SoC平臺的原理示意圖；(b) 其鍵合界面的橫截面圖像。在未來十年間，LogicFolding預(yù)計將從局部的關(guān)鍵路徑折疊演進為全面的、多層級的折疊——每個封裝內(nèi)將集成三層、四層乃至更多的有源層。這一演進由低溫混合鍵合技術(shù)（放寬了各層之間的熱預(yù)算限制）以及硅通孔（TSV）著陸點從頂層金屬逐步下移至M6層所推動，此舉將釋放超過30%的高層布線資源。從2026年到2035年，晶體管密度預(yù)計將向400 MTr/mm2及更高水平邁進。與此同時，LogicFolding使Kirin能夠大幅提升CPU核心頻率，并為邁向4 GHz及更高頻率鋪平道路（見圖4和表2）。該路線圖是切實可行的，并且在成本方面具有經(jīng)濟可行性。表2. Kirin CPU性能核心工作頻率趨勢圖4. 未來Kirin產(chǎn)品晶體管密度與性能核心頻率預(yù)測 Highlight — LogicFolding核心指標一覽混合鍵合間距：低于2微米（Kirin 2026中為1.5微米；目標齒輪比≈1）套刻精度：低于0.5微米硅通孔臨界尺寸/保持區(qū)：低于1.5微米；間距低于6微米；失效率低于100 ppm；修復(fù)率99.9%良率：通過智能冗余設(shè)計接近100%晶體管密度：單代從155 MTr/mm2躍升至238 MTr/mm2能效/頻率增益（SoC性能核心）：+41% / +13%SRAM工作頻率：提升40%以上代表性核心上的時鐘緩沖器數(shù)量/時鐘偏移/線長：-50% / -25% / -30%五、從皮秒到微秒：AI數(shù)據(jù)中心中的τ縮放一個自然的問題是：在毫瓦級智能手機領(lǐng)域發(fā)展出的原理，能否成功遷移至AI訓(xùn)練和推理所涉及的吉瓦級領(lǐng)域？AI工作負載占據(jù)了τ頻譜的另一端：并非單顆芯片，而是數(shù)百或數(shù)千顆芯片如同一臺機器般協(xié)同工作，其總算力在過去十年間增長了約六個數(shù)量級。答案是肯定的——只要將τ視為一個系統(tǒng)級目標，并應(yīng)用到整個鏈條中，而非僅限于單個加速器內(nèi)部。塑造AI領(lǐng)域τ論證的兩個事實。首先，AI系統(tǒng)持續(xù)增長——從單芯片到數(shù)十顆、數(shù)百顆，并正增至數(shù)萬顆。其次，現(xiàn)代AI系統(tǒng)的能源預(yù)算和物料預(yù)算主要由數(shù)據(jù)主導(dǎo)，而非計算。在一個大型AI集群中，超過80%的能源消耗于數(shù)據(jù)移動；超過70%的系統(tǒng)成本用于數(shù)據(jù)存儲。其含義是直接的：減少數(shù)據(jù)在傳輸途中的時間——在芯片間、機架間以及封裝內(nèi)部——至少與減少計算本身所花費的時間同等重要。τ縮放在AI規(guī)模上通過三個協(xié)同層實現(xiàn)：系統(tǒng)架構(gòu)（統(tǒng)一總線）、近封裝光學(xué)引擎（Hi-ONE）以及封裝本身的拓撲重組（3D折疊）。這種全棧方法系統(tǒng)性地壓縮了分布式AI系統(tǒng)固有的系統(tǒng)τ。具體而言，統(tǒng)一總線通過統(tǒng)一內(nèi)存語義互連消除了多層協(xié)議開銷，大幅降低了跨節(jié)點通信延遲。Hi-ONE利用近封裝光學(xué)I/O直接壓縮物理傳輸延遲。3D折疊通過將邊緣受限資源轉(zhuǎn)移到表面，克服了二次方到線性縮放差異，最大限度地減少了節(jié)點內(nèi)寄生RC。總之，這套從電路到系統(tǒng)的優(yōu)化堆棧實現(xiàn)了AI系統(tǒng)中τ縮放的終極目標：使大規(guī)模AI集群能夠像一個單一邏輯實體一樣協(xié)同運行。1、統(tǒng)一總線——一種τ優(yōu)先的系統(tǒng)架構(gòu) 傳統(tǒng)的多節(jié)點、多加速器架構(gòu)通過多個堆疊協(xié)議傳輸數(shù)據(jù)：連接主機的PCIe、機箱內(nèi)的NVLink或?qū)Ｓ屑軜?gòu)、機箱間的以太網(wǎng)或InfiniBand，以及其上的軟件棧遠程內(nèi)存訪問。每一層都涉及協(xié)議轉(zhuǎn)換、額外的序列化、額外的DMA緩沖以及進一步的握手交互。每次轉(zhuǎn)換都會增加延遲、降低可靠性并帶來額外成本。統(tǒng)一總線用一個統(tǒng)一的協(xié)議取代了這一堆棧，該協(xié)議在機箱內(nèi)部和跨機箱運行——這是一個完全對等的架構(gòu)，在整個系統(tǒng)中本地化地暴露內(nèi)存語義（圖5）。數(shù)據(jù)移動被簡化為在內(nèi)存語義層進行無需轉(zhuǎn)換的點對點傳輸，并以硬件管理的緩存一致性取代了軟件棧的消息傳遞。其已測得的收益約為兩個數(shù)量級：端到端的遠程訪問延遲從TCP/IP類協(xié)議棧典型的數(shù)十微秒降至約100納秒——在主導(dǎo)的通信路徑上實現(xiàn)了約500倍的系統(tǒng)τ縮減。在機架規(guī)模上，這使系統(tǒng)漸近地接近一臺單一的、結(jié)構(gòu)一致的機器——內(nèi)部將其稱為“系統(tǒng)即單芯片”（System-as-One-Chip）。圖5. (a) 統(tǒng)一總線原生支持內(nèi)存訪問語義、消息傳遞和統(tǒng)一遠程過程調(diào)用（uRPC）。這使得多樣化的計算資源能夠無縫集成，實現(xiàn)高帶寬和超低延遲，同時促進分布式系統(tǒng)中高效的資源池化；(b) 通過統(tǒng)一總線實現(xiàn)低開銷內(nèi)存訪問的原理示意圖。 2、Hi-ONE——封裝級光學(xué)I/O 一旦通信延遲得到降低，下一個瓶頸便浮現(xiàn)出來。在單個機架內(nèi)增加芯片密度會使功率密度和可靠性超出其極限——同時也使電氣SerDes超出其能力范圍。在每顆AI芯片400 Gb/s的速率下，銅纜布線仍是成熟且可靠的方案。但當(dāng)速率達到每顆芯片數(shù)Tb/s時，銅纜在物理上變得不切實際：SerDes的傳輸距離縮短，線纜變得過于笨重，面板安裝變得不可行，且熱管理和供電裕度也被耗盡。華為海思為此開發(fā)的方法是高密度光互連節(jié)點引擎（High-density Optical-interconnect-Node Engine, Hi-ONE）——一種近封裝光學(xué)引擎，每個模塊可提供8 Tb/s的帶寬，在單一光學(xué)鏈路上與AI芯片的統(tǒng)一總線帶寬相匹配（圖6）。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米，消除了笨重的線纜，并將傳輸距離從不足1米擴展至100米——這使得分布式、吉瓦級數(shù)據(jù)中心的高密度互連在物理上成為可能。Hi-ONE背后的設(shè)計理念本身就是一個τ縮放的論證。Hi-ONE并未采用用于高信號保真度的重型DSP，而是采用了一種線性方案——一種模擬均衡增強型驅(qū)動器和跨阻放大器——并允許統(tǒng)一總線協(xié)議容忍故意放寬的誤碼率。這種協(xié)議層與物理層之間的跨層權(quán)衡，降低了功耗、成本和集成復(fù)雜性，并體現(xiàn)了τ優(yōu)先方法論所推崇的跨層折衷。圖6. Hi-ONE芯片示意圖 3、N2-vs-N的困境，以及為什么3D折疊不可避免 AI加速器不會止步于2.5D扇出的最深層次原因是幾何學(xué)的，這一點值得明確陳述，因為它決定了2030年后的路線圖。在傳統(tǒng)的2.5D AI芯片中，邏輯芯片位于封裝中心，HBM堆棧和SerDes排列在其邊緣，電壓調(diào)節(jié)器環(huán)繞封裝。每一個存儲器信號、每一個互連信號、每一安培的供電電流，都必須穿越芯片的邊緣才能到達內(nèi)部的計算資源。如果芯片的邊長為N，那么：●計算能力與N2成比例（面積），●但內(nèi)存帶寬、互連和供電——所有這些都由2.5D扇出沿邊緣承載——僅與N成比例（周長）。這些二次方曲線與線性曲線之間日益擴大的差距構(gòu)成了扇出困境，它解釋了2.5D縮放的停滯，無論底層邏輯節(jié)點多么激進都無法解決。沒有任何晶體管級的改進能夠彌補這種拓撲缺陷。3D折疊通過將受邊緣限制的資源重新定位到表面上來解決這一困境。供電（通過背面供電和集成電壓調(diào)節(jié)器）、高速內(nèi)存（通過與邏輯的混合鍵合）和光學(xué)I/O（通過近封裝Hi-ONE）都從周長遷移到垂直表面——一旦位于表面上，它們便按N2擴展，與計算能力的二次方增長速度相匹配。封裝不再是一個被內(nèi)存和SerDes周邊帶環(huán)繞的邏輯芯片；它變成了一個垂直集成的堆棧，其中內(nèi)存、結(jié)構(gòu)、供電和邏輯都同步擴展。該路線圖將這一演進置于一個明確的時間表上。大約到2030年，AI加速器（昇騰SuperPoD系列——2025年的昇騰910C、2026年的昇騰950，以及后續(xù)的990）依賴成熟技術(shù)的組合：芯粒、2.5D扇出，以及通過微凸點和標準間距混合鍵合實現(xiàn)的3D堆疊。大約在2030年，昇騰990將把LogicFolding引入AI加速器類別，從那時起，3D折疊將成為直到2035年的α的主要承載者。沿著這條路徑，到2035年，硬件集成度預(yù)計將增加超過100倍，其中τ的縮減分布在堆棧的每一層，而非集中在器件層面。亮點——AI系統(tǒng)規(guī)模的τ縮放 ●統(tǒng)一總線遠程訪問延遲：數(shù)十微秒 → 約100納秒（約500倍τ縮減）●Hi-ONE單模塊帶寬：8 Tb/s（與單芯片統(tǒng)一總線帶寬匹配）●Hi-ONE SerDes傳輸距離：約100厘米 → 約5厘米；面板到面板傳輸距離：<1米 → 100米●扇出困境：計算∝N2，受周長限制的帶寬/I/O/供電∝N●3D折疊：將帶寬、光學(xué)I/O和供電從邊緣重新定位到表面，恢復(fù)N2的對等性●2026年→2035年預(yù)計硬件集成度增長：>100倍六、邏輯與內(nèi)存：從解耦到再融合 τ縮放的一個影響值得單獨討論，因為其后果既是產(chǎn)業(yè)性的，也是技術(shù)性的。在8086時代，業(yè)界通過標準化的內(nèi)存總線，有意地將處理器和內(nèi)存解耦。這種解耦使得兩個產(chǎn)業(yè)能夠獨立擴展：處理器性能沿著摩爾曲線快速進步，而內(nèi)存供應(yīng)商則在其旁邊發(fā)展出一個龐大的、獨立的市場。AI時代正在逆轉(zhuǎn)這種解耦。計算密度的持續(xù)擴展正將內(nèi)存帶寬、延遲、功耗和封裝推向極限。HBM、混合鍵合和3D堆疊SRAM都是一個基本事實的癥狀：對于現(xiàn)代AI工作負載，數(shù)據(jù)移動與計算本身同等關(guān)鍵，邏輯和內(nèi)存再次被推向緊密的物理集成。隨著它們?nèi)诤希?yīng)鏈中的影響力平衡正在向內(nèi)存和封裝供應(yīng)商轉(zhuǎn)移。技術(shù)方向是明確的，但經(jīng)濟上的解決方案尚未確定。在AI硬件時代持久的成功將屬于那些能夠技術(shù)上融合邏輯與內(nèi)存，并建立一種經(jīng)濟伙伴關(guān)系，使兩個行業(yè)都能長期分享這種融合收益的參與者。這不僅僅是一個研究問題；這是業(yè)界在未來十年需要解決的一個結(jié)構(gòu)性問題。通過使每次分離的跨層成本變得可見，τ縮放確保這個問題無法被推遲。七、開放挑戰(zhàn) 將τ縮放描述為一個已完成的系統(tǒng)會具有誤導(dǎo)性。幾個實質(zhì)性問題仍然懸而未決，在此指出是為了強調(diào)正在進行的工作并邀請合作。工具鏈和方法論。當(dāng)今的EDA是為這樣一個時代開發(fā)的，在那個時代，面積、時序和功耗是沿著三條獨立的軸進行優(yōu)化的，系統(tǒng)τ是作為一個殘余量出現(xiàn)的。全面的LogicFolding要求工具鏈將多個堆疊芯片視為一個單一連續(xù)的設(shè)計實體——以單元粒度而非模塊粒度進行邏輯分區(qū)，在統(tǒng)一的成本函數(shù)下跨越整個三維空間進行布局，并在垂直互連寄生效應(yīng)、保持區(qū)排除區(qū)和晶圓間工藝變化以傳統(tǒng)二維訓(xùn)練工具無法充分處理的方式相互作用的跨芯片路徑上完成時序收斂。已開發(fā)出能產(chǎn)生有用結(jié)果的初步內(nèi)部工具，方法細節(jié)將在未來幾個月內(nèi)公布。一個τ原生的工具鏈——開放的、多物理場的、三維原生的——是未來十年最重要的賦能投資。晶圓間工藝變化。LogicFolding鍵合可能來自不同批次的晶圓——在某些情況下甚至是不同節(jié)點的晶圓。晶圓間的閾值電壓、驅(qū)動電流和互連RC的變化實質(zhì)上大于晶圓內(nèi)的變化，并且對時鐘分配和保持時間裕度的影響最為嚴重。智能冗余、自適應(yīng)補償和τ感知的簽核流程是應(yīng)對方案的必要組成部分。垂直互連開銷。每一個混合鍵合和每一個硅通孔都會產(chǎn)生有限的電阻和電容代價，并且硅通孔的保持區(qū)會取代標準單元。因此，LogicFolding必須逐層地通過一個簡單的不等式來證明其合理性：τ收益（等效硅面積 + 線長縮減） > τ代價（垂直互連寄生RC）

對于移動關(guān)鍵路徑和存儲器，這個閾值已被跨越；該閾值是特定于工作負載的，并且邊界將隨著鍵合間距的縮小而移動。

功耗。τ是時間定律，而非焦耳定律。一個運行速度快10倍但功耗也高10倍的超級節(jié)點并不違反任何縮放原理，但卻超出了電網(wǎng)容量。因此，τ縮放需要一個能源伴侶：消除堆棧開銷的內(nèi)存語義結(jié)構(gòu)、將每比特皮焦耳能耗降低數(shù)個數(shù)量級的近封裝/共封裝光學(xué)、背面供電、存內(nèi)/近存計算，以及將τ裕度換回功率的規(guī)范實踐（數(shù)據(jù)中心規(guī)模的動態(tài)電壓頻率調(diào)整——與實現(xiàn)智能手機電池長壽的機制相同）。重要的是，τ裕度本身在按此方向分配時，也提供了能源裕度。

基準測試。行業(yè)當(dāng)前的性能基準測試——Linpack、MLPerf、SPEC——是為一個每個工作負載只需一個標量值就足夠的時代設(shè)計的。一個τ縮放的行業(yè)需要τ剖析基準測試——能夠揭示系統(tǒng)每一層主導(dǎo)τ以及該層剩余裕度的向量。主導(dǎo)τ層，按定義，就是下一個投資方向。

八、六年回顧，十年展望

在2020年5月至2026年5月期間，華為海思設(shè)計并將381顆芯片投入量產(chǎn)，服務(wù)于移動、AI、汽車、工業(yè)和基礎(chǔ)設(shè)施市場。在整個產(chǎn)品組合中，τ縮放的論點經(jīng)受住了考驗：

●在器件和電路層面，到2031年，晶體管密度已從155 MTr/mm2向400+ MTr/mm2提升。

●在芯片層面，LogicFolding已在領(lǐng)先的移動SoC上證明，在固定器件節(jié)點下，關(guān)鍵路徑頻率、能效和密度能夠繼續(xù)進步。

●在系統(tǒng)層面，統(tǒng)一總線和Hi-ONE已證明，數(shù)百微秒的通信τ可以被壓縮至數(shù)百納秒，并且一個多機架AI集群可以表現(xiàn)為一臺單一的一致性機器。

●展望未來，到2029年，CPU性能核心頻率預(yù)計將達到4 GHz及更高；在典型使用情況下，Kirin SoC的能效預(yù)計在三到五年內(nèi)翻倍；到2035年，AI硬件集成度預(yù)計將增長超過100倍。

超越任何單個產(chǎn)品，更深層次的論斷在于方法論層面。τ縮放是自鄧納德縮放以來，第一個為整個堆棧提供共享優(yōu)化目標的縮放原理。它向工藝工程師、電路設(shè)計師、架構(gòu)師、系統(tǒng)工程師和軟件團隊發(fā)出信號：這些群體現(xiàn)在正在用相同的單位優(yōu)化相同的量，并且任何單層的改進都必須傳播到系統(tǒng)τ才能算數(shù)。它也向行業(yè)戰(zhàn)略家和資本配置者表明：下一美元應(yīng)追隨τ，而非節(jié)點——競爭性性能不再需要永遠駐留在光刻的最前沿，封裝、內(nèi)存帶寬和架構(gòu)設(shè)計現(xiàn)在擁有了先前僅由前沿邏輯節(jié)點單獨占據(jù)的戰(zhàn)略權(quán)重。

對于一代接受“摩爾定律”即等同于“進步”教育的工程師來說，這是一個艱難的轉(zhuǎn)變。幾何時代實際上已經(jīng)終結(jié)；否認這一事實并非可行的策略。通過微型化加速的時代，正在讓位于通過多層電子系統(tǒng)中的τ優(yōu)化來加速的時代——而那些在未來六到十年內(nèi)采納τ作為主要目標的企業(yè)、研究團隊和生態(tài)系統(tǒng)，將決定此后十年計算的面貌。

未來十年的工作范圍已經(jīng)明確。許多開放問題仍然存在，沒有任何一個組織能夠獨自解決它們——工具鏈、標準、基準測試、器件物理和經(jīng)濟模型都需要來自任何一家公司之外的貢獻。因此，本文既是一份來自實踐一線的報告，也是一份邀請。

前方的路線圖要求很高，但方向是明確的。

作者簡介

何庭波領(lǐng)導(dǎo)華為的半導(dǎo)體業(yè)務(wù)。她所領(lǐng)導(dǎo)的團隊在2020年至2026年間，設(shè)計并將381顆芯片投入量產(chǎn)，產(chǎn)品覆蓋移動、AI、汽車和基礎(chǔ)設(shè)施市場，并是本文所述τ縮放方法論以及LogicFolding、統(tǒng)一總線和Hi-ONE技術(shù)的源頭。

致謝

本文借鑒了華為海思及其晶圓廠、設(shè)備、EDA和系統(tǒng)合作伙伴生態(tài)系統(tǒng)中數(shù)千名工程師長達六年的工作成果。作者感謝那些以耐心使這項工作成為可能的客戶。

本文系觀察者網(wǎng)獨家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.