无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為“韜定律”新論文全文:邏輯折疊將大幅提升麒麟CPU核心頻率

0
分享至

文/觀網(wǎng)硬科技

根據(jù)中國科學(xué)院科技論文預(yù)發(fā)布平臺ChinaXiv,華為技術(shù)有限公司董事、半導(dǎo)體業(yè)務(wù)部總裁何庭波于7月3日發(fā)布《面向多層級電子系統(tǒng)的時間縮微理論》(韜定律)V2 版本。新版論文在原有理論框架基礎(chǔ)上,補充了大量工程落地細節(jié)、實測量化數(shù)據(jù)與產(chǎn)品演進路線,進一步完善了以時間常數(shù)τ為核心的后摩爾時代縮放理論體系。

根據(jù)論文披露的數(shù)據(jù)顯示,與2025年的麒麟9030 Pro基線相比,麒麟2026采用了LogicFolding雙層邏輯折疊,使得晶體管密度從155MTr/mm2大幅提升至238MTr/mm2,提升了約53.5%,而這一提升幅度以往需要三年的幾何微縮才能實現(xiàn)。

何庭波在論文中提到,未來十年間,邏輯折疊預(yù)計將從局部的關(guān)鍵路徑折疊演進為全面的、多層級的折疊——每個封裝內(nèi)將集成三層、四層乃至更多的有源層。

這一演進由低溫混合鍵合技術(shù)(放寬了各層之間的熱預(yù)算限制)以及硅通孔(TSV)著陸點從頂層金屬逐步下移至M6層所推動,此舉將釋放超過30%的高層布線資源。從2026年到2035年,晶體管密度預(yù)計將向400MTr/mm2及更高水平邁進。

與此同時,LogicFolding(邏輯折疊)使麒麟芯片能夠大幅提升CPU核心頻率,并為邁向4GHz及更高頻率鋪平道路。該路線圖是切實可行的,并且在成本方面具有經(jīng)濟可行性。

“熱管理仍然是LogicFolding架構(gòu)中的關(guān)鍵挑戰(zhàn)。為解決此問題,我們采用了熱感知分區(qū)和布局規(guī)劃策略。在設(shè)計階段,我們有意識地避免折疊高功耗電路,并從結(jié)構(gòu)上防止高功耗子系統(tǒng)的空間相鄰。”論文中寫道。

“前方的路線圖要求很高,但方向是明確的。”何庭波表示,將τ縮放(韜定律)描述為一個已完成的系統(tǒng)會具有誤導(dǎo)性。幾個實質(zhì)性問題仍然懸而未決,包括工具鏈和方法論、晶圓間工藝變化和垂直互連開銷。

她坦言,未來十年的工作范圍已經(jīng)明確。許多開放問題仍然存在,沒有任何一個組織能夠獨自解決它們——工具鏈、標準、基準測試、器件物理和經(jīng)濟模型都需要來自任何一家公司之外的貢獻。因此,本文既是一份來自實踐一線的報告,也是一份邀請。

以下為何庭波《多層電子系統(tǒng)的時間縮放理論》論文

摘要

六十年來,摩爾定律的幾何縮放一直驅(qū)動著半導(dǎo)體行業(yè)的進步。然而,這一行業(yè)契約已不再成立:純粹依靠縮小尺寸帶來的回報已經(jīng)趨于平緩,前沿芯片的設(shè)計預(yù)算已超過每顆10億美元,并且在最先進節(jié)點上,單位晶體管的成本也不再下降。本文提出了一種新的縮放原理——τ縮放——該原理采用時間本身,而非晶體管面積,作為衡量進步的主要指標,將單一的特征時間常數(shù)τ作為橫跨十二個數(shù)量級的統(tǒng)一優(yōu)化目標,從晶體管的開關(guān)速度到數(shù)據(jù)中心的負載響應(yīng)均適用。

本文展示了兩個生產(chǎn)級規(guī)模的驗證案例。在一款移動SoC上,LogicFolding(邏輯折疊,一種將數(shù)字、模擬和存儲電路分區(qū)并垂直堆疊在多層有源層中的方法論)在固定工藝節(jié)點下,實現(xiàn)了晶體管密度55% 的階躍式提升,并在同等性能下將功耗降低了41%。在AI系統(tǒng)方面,通過協(xié)同設(shè)計的、包含內(nèi)存語義的統(tǒng)一總線架構(gòu)、近封裝的光I/O以及邊緣到表面的3D折疊技術(shù),預(yù)期到2035年可實現(xiàn)超過100倍的硬件集成度增長。

更深入的論述在于其方法論層面:τ縮放是繼鄧納德縮放之后,第一個為整個計算堆棧建立統(tǒng)一優(yōu)化目標的縮放原理。

一、引言

自二十世紀六十年代中期以來,半導(dǎo)體行業(yè)一直以納米為單位衡量進步。每十八個月,晶體管尺寸縮小、頻率上升、每個邏輯門的成本下降。摩爾定律既是一個經(jīng)驗觀察,也幫助建立了一個行業(yè)契約,整個計算堆棧都建立在此之上。然而,這個行業(yè)契約已不再成立。在7納米節(jié)點之后,幾何縮放不再帶來其歷史上的紅利。光刻工具正接近物理極限,極紫外(EUV)光刻的折舊在晶圓成本中占據(jù)主導(dǎo)地位,單位晶體管的成本曲線已經(jīng)趨于平緩,在某些情況下甚至出現(xiàn)逆轉(zhuǎn)。對于那些獲取最先進光刻技術(shù)受限的組織而言,這一限制更早地成為瓶頸,并產(chǎn)生了更嚴重的影響。

因此,行業(yè)的核心問題已經(jīng)發(fā)生了變化。它不再是“晶體管還能縮小多少?”而是“應(yīng)該縮放什么,以及針對什么目標?”

在過去的六年里,作者在華為海思的團隊在移動SoC、AI加速器、系統(tǒng)互聯(lián)和封裝領(lǐng)域?qū)@一問題進行了硅片層面的研究。結(jié)論是,答案不在于一個新的節(jié)點,也不在于一種新的晶體管架構(gòu),而在于優(yōu)化目標本身的改變。本文認為,未來十年電子系統(tǒng)的演進不應(yīng)由幾何縮放來引導(dǎo),而應(yīng)由時間縮放——即系統(tǒng)性地減少堆棧每一層的一個單一特征時間常數(shù)τ——來指引,從皮秒級開關(guān)的晶體管到秒級響應(yīng)的數(shù)據(jù)中心負載。

下文將從科學(xué)方法論和產(chǎn)業(yè)路線圖兩個角度闡述τ縮放的理論,并借鑒了2020年5月至2026年5月期間381顆量產(chǎn)芯片的經(jīng)驗教訓(xùn)。

二、幾何時代的終結(jié)

在其歷史的大部分時間里,半導(dǎo)體行業(yè)只有一個任務(wù):把晶體管做得更小。戈登·摩爾在1965年的觀察——晶體管密度大約每兩年翻一番——在十年后得到了羅伯特·鄧納德的縮放理論的補充,該理論確立了按比例縮小電壓和尺寸可以維持恒定電場。幾何縮放與鄧納德縮放相結(jié)合,在近五十年的時間里,為單位功耗性能和單位成本性能帶來了指數(shù)級的提升。

這種格局分兩個階段瓦解。大約在2005年,鄧納德縮放首先失效:電壓不再隨特征尺寸按比例縮小,暗硅時代開始。幾何縮放則持續(xù)得更久一些,由FinFET及隨后的環(huán)繞柵極(GAA)器件架構(gòu)維持。然而,在7納米之后,純粹依靠尺寸縮放的回報已經(jīng)趨于平緩。其原因現(xiàn)在已有充分記載:速度飽和將本征延遲對溝道長度的依賴從二次關(guān)系降為線性關(guān)系;局部互連的寄生電阻和電容在標準單元延遲預(yù)算中占據(jù)主導(dǎo)地位;掩模成本、EUV折舊以及設(shè)計規(guī)則復(fù)雜性已將2納米節(jié)點的前沿芯片設(shè)計預(yù)算推高至每顆芯片超過10億美元。

其經(jīng)濟后果同樣不可避免。先進節(jié)點的單位晶體管成本已經(jīng)趨于平緩,而在最前沿,成本正在上升。支撐了過去五十年的行業(yè)契約——每一代都以更低成本提供更多晶體管——已不復(fù)存在。

對于華為海思而言,這一轉(zhuǎn)變伴隨著一個額外的約束:獲取最先進光刻工具受限。指望另一個節(jié)點能解決問題已不再可行。六年前,幾何路線圖趨于平緩,迫使我們面對一個更根本的問題——這個問題,回過頭來看,整個行業(yè)最終都將不得不面對。

三、時間,而非空間:摩爾時代的真正通貨

究其對終端用戶的核心影響,摩爾定律從根本上講從來都不是關(guān)于幾何尺寸的。晶體管變小提升了系統(tǒng)性能,是因為它們開關(guān)速度更快。互聯(lián)變得更密集提升了性能,是因為信號傳輸距離更短。更高的集成度提升了性能,是因為數(shù)據(jù)跨越的邊界更少。每一代產(chǎn)品所交付的,本質(zhì)上都是時間的縮短——在器件層面是皮秒到納秒,在芯片層面是納秒到微秒,在系統(tǒng)層面是微秒到秒。空間縮放僅僅是壓縮時間的手段。

一旦認識到這一點,一個明顯的重新構(gòu)架便浮現(xiàn)出來:時間本身應(yīng)被采納為主要指標。可以在堆棧的每一層——晶體管、電路、芯片和系統(tǒng)——定義一個特征時間常數(shù)τ,并將其縮減作為統(tǒng)一的優(yōu)化目標。幾何縮放隨后成為縮減τ的眾多技術(shù)之一,而非唯一的技術(shù)。

這一原理被稱為τ縮放,本文提出將其作為幾何摩爾縮放的后繼者,成為半導(dǎo)體演進的指導(dǎo)原則。形式上,τ被視為一個分層結(jié)構(gòu),可分解為:

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

其中τ_transistor, τ_circuit, τ_chip, 和 τ_system 分別代表晶體管、電路、芯片和系統(tǒng)層的時間常數(shù)。每一層的τ由其下層τ以及該層引入的組織和通信開銷共同構(gòu)成。如圖1所示,τ的工作空間在時間維度上跨越約十二個數(shù)量級(皮秒到秒),在空間維度上跨越相當(dāng)?shù)姆秶{米到公里)。在每一層,都有不同的機制可用于縮減τ:

·晶體管:本征開關(guān)延遲,通過遷移率增強、應(yīng)變工程、高κ/金屬柵極和GAA架構(gòu)來解決,并且日益需要通過減少局部互連的寄生電阻和電容來解決,后者目前已超過本征傳輸時間數(shù)倍。

·電路:信號路徑上的RC傳播延遲,通過更低電阻率的導(dǎo)體、低κ電介質(zhì),以及——最重要地——通過垂直集成減少線長來解決。

·芯片:計算和內(nèi)存訪問延遲,通過架構(gòu)選擇、流水線深度、存儲層次和片上互聯(lián)來解決。

·系統(tǒng):端到端的消息傳遞和同步時間,通過互聯(lián)拓撲、協(xié)議棧和架構(gòu)設(shè)計來解決。

[圖1:τ縮放的工作空間在時間和空間維度上跨越12個數(shù)量級,并劃分為四個層次:晶體管、電路、芯片和系統(tǒng)。] 從這個分層公式中可以得出一個有用的代際規(guī)則:τ_n+1 = τ_n / α其中下標n和n+1分別表示當(dāng)前代和下一代。根據(jù)不同行業(yè)部門的市場壓力和優(yōu)化優(yōu)先級差異,我們認為年度縮放因子是應(yīng)用特定的,而非通用的。不同的行業(yè)部門由于獨特的應(yīng)用約束,需要不同的加速因子。我們預(yù)測,未來十年,受功耗和散熱預(yù)算限制的移動設(shè)備,其年度縮放因子約為1.3;需要安全關(guān)鍵實時響應(yīng)的自動駕駛系統(tǒng)約為1.5;而吞吐量直接轉(zhuǎn)化為經(jīng)濟價值的人工智能(AI)令牌生成則可高達10。τ之所以能成為一個有用的主要指標,而不僅僅是對現(xiàn)有指標的重新命名,是因為它是整個堆棧中相同的指標。頻率、延遲、帶寬和吞吐量都受其各自層級的τ支配。工藝工程師、電路設(shè)計師和系統(tǒng)架構(gòu)師可以用相同的單位來討論同一個量。τ是能夠?qū)崿F(xiàn)端到端堆棧協(xié)同優(yōu)化的語言——而各層獨立優(yōu)化、時序僅作為事后考量而出現(xiàn)的時代已經(jīng)結(jié)束。四、LogicFolding:一個移動SoC的驗證案例 τ縮放的首次生產(chǎn)級規(guī)模測試是在移動領(lǐng)域進行的。智能手機SoC是一個特例,因為一顆芯片就構(gòu)成了整個系統(tǒng)。多插槽并行不可用;沒有千節(jié)點互聯(lián)網(wǎng)絡(luò)可以掩蓋一條慢速鏈路。所有交付給用戶的性能都源自單個芯片,在幾瓦的功耗預(yù)算和手持設(shè)備形態(tài)因素設(shè)定的散熱限制下運行。在2020年之后,當(dāng)獲取前沿節(jié)點的途徑受限時,實際的問題變成了:在節(jié)點固定的情況下,如何繼續(xù)在單顆芯片上實現(xiàn)代際性能提升?由此產(chǎn)生的答案被稱為LogicFolding。定義:LogicFolding是一種設(shè)計方法論,它將數(shù)字、模擬和存儲電路分區(qū)到垂直堆疊的有源層中,遵循時間縮放原理,共同優(yōu)化性能、功耗和面積(圖2)。數(shù)字電路分為組合邏輯——寄存器之間的布爾網(wǎng)絡(luò)——和時序邏輯——保存狀態(tài)的觸發(fā)器。數(shù)字系統(tǒng)的性能上限由相鄰觸發(fā)器級之間的關(guān)鍵路徑延遲決定,而該延遲又由該路徑上的互連RC和門數(shù)量主導(dǎo)。傳統(tǒng)優(yōu)化將門電路放置在平面內(nèi),并通過上方的金屬堆棧進行布線;導(dǎo)線越長,寄生RC越大,關(guān)鍵路徑就越慢。LogicFolding拋棄了平面假設(shè)。關(guān)鍵路徑上的門電路被分布到兩個(并最終更多)垂直堆疊的有源層中,通過超精細間距的混合鍵合連接。從電路設(shè)計師的角度來看,這兩層表現(xiàn)為一個單一連續(xù)的結(jié)構(gòu),單元如同穿過一個額外的金屬層一樣分布在整個晶圓界面上。信號線大幅縮短,寄生RC急劇下降,時鐘偏移收緊,芯片在相同的工藝節(jié)點下以更高的時鐘頻率運行。 [圖2:LogicFolding的原理示意圖] 為了充分實現(xiàn)LogicFolding的架構(gòu)優(yōu)勢,關(guān)鍵在于保持混合鍵合與頂部金屬布線層之間的低間距比(通常稱為“齒輪比”)。當(dāng)垂直互連間距接近頂部金屬層的尺寸時,優(yōu)化目標的本質(zhì)發(fā)生了根本性轉(zhuǎn)變。歷史上,當(dāng)垂直互連間距遠大于頂部金屬間距時,設(shè)計空間基本被限制為一個離散優(yōu)化問題。設(shè)計師在宏觀層面手動定義分區(qū)邊界,將整個功能模塊分配給特定的芯片 。芯片間連接的粗糙粒度迫使采用離散的模塊分配方法,這在計算上是可行的,但并非全局最優(yōu)。本文提出的LogicFolding被定位為一個連續(xù)優(yōu)化問題,其中精細粒度的垂直集成使得設(shè)計空間能夠在遠超功能模塊細粒度的層面上進行探索,為跨垂直維度進行全局協(xié)調(diào)的電路優(yōu)化打開了大門。隨著鍵合焊盤間距的逐步縮小,垂直互連密度不斷增加,從電路連接性的角度來看,晶圓實際上被拉得越來越近。這使得優(yōu)化空間從離散轉(zhuǎn)變?yōu)檫B續(xù),需要使用先進的自動化設(shè)計工具。值得注意的是,雖然順序3D集成在理論上通過順序制造器件層來提供最終的精細粒度(器件或標準單元粒度),但它目前面臨著重大的制造瓶頸 。最關(guān)鍵的是,由于順序制造過程中固有的嚴格熱預(yù)算限制,下層器件的性能極易退化。作為一種商業(yè)可行的實現(xiàn)方式,LogicFolding利用成熟的先進晶圓對晶圓混合鍵合技術(shù),實現(xiàn)了連續(xù)優(yōu)化所需的低齒輪比。在實踐中,LogicFolding要求齒輪比降至約3以下,且該比值越低通常效果越好。以當(dāng)前約720納米的頂部金屬間距計算,這對應(yīng)于低于2微米的混合鍵合間距——理想情況下齒輪比約為1,此時鍵合界面處的“鳥籠式”布線開銷將基本消失。實現(xiàn)這一間距,以及所需的套刻精度(<0.5微米)、硅通孔(TSV)微縮(臨界尺寸和保持區(qū)小于1.5微米,間距小于6微米)和良率(通過智能冗余設(shè)計接近100%),需要在供應(yīng)商和合作伙伴生態(tài)系統(tǒng)中進行多年的工藝開發(fā)努力。與2025年的Kirin 9030 Pro基線相比,在Kirin 2026上測得的成果提供了具體的實踐證據(jù)。盡管兩者制造于相同的成熟工藝節(jié)點,但基線采用傳統(tǒng)平面設(shè)計,而Kirin 2026采用了LogicFolding:·晶體管密度在單一代際間實現(xiàn)了階躍式提升,從155 MTr/mm2 提升至 238 MTr/mm2(晶體管密度計算公式為 2/(CPP × 單元高度);Kirin SoC設(shè)計的面積利用率為68%)。這一提升幅度以往需要三年的幾何微縮才能實現(xiàn)。·在環(huán)境溫度、1.1V供電電壓下,SoC性能核心的最高時鐘頻率提升了近13%。·在上下兩層構(gòu)建的一條高速全局片上網(wǎng)絡(luò)數(shù)據(jù)通路,其面積減少了55%,同時供電穩(wěn)定性得到改善。一項硅后時鐘偏移調(diào)整方案獨立貢獻了超過5% 的SoC性能提升。·在SRAM上(其訪問速度、每比特能耗和面積強烈依賴于位線和字線長度),LogicFolding縮短了關(guān)鍵路徑,降低了每比特能耗,并將工作頻率提升了超過40%。·在一個代表性處理核心上,雙層折疊架構(gòu)使時鐘緩沖器數(shù)量減少了超過50%,時鐘偏移降低了25%,線長縮短了約30%。熱管理仍然是LogicFolding架構(gòu)中的關(guān)鍵挑戰(zhàn)。為解決此問題,我們采用了熱感知分區(qū)和布局規(guī)劃策略。在設(shè)計階段,我們有意識地避免折疊高功耗電路,并從結(jié)構(gòu)上防止高功耗子系統(tǒng)的空間相鄰。SoC性能核心是我們詳細評估的焦點。如表1所示,利用LogicFolding帶來的性能提升,Kirin 2026降低其供電電壓以實現(xiàn)與Kirin 9030 Pro的等性能運行。在實際測量中,達到此等性能目標時,功耗降低了41%,同時功率密度下降了5.6%。 表1. Kirin 2026與Kirin 9030 Pro在等性能下的功耗對比 這些增益是在固定器件節(jié)點上實現(xiàn)的,并非通過新的光刻步驟,而是通過邏輯在三維空間分布上的拓撲重組獲得的。在Kirin 2026中量產(chǎn)的LogicFolding實現(xiàn)是刻意保守的。混合鍵合間距達到了1.5微米;硅通孔著陸僅向頂部金屬下方推進了一步;折疊僅沿關(guān)鍵路徑選擇性應(yīng)用,而非貫穿整個設(shè)計(圖3)。即便如此,CPU性能核心的頻率今年已回歸至3.1 GHz。 圖3. (a) 下一代Kirin SoC平臺的原理示意圖;(b) 其鍵合界面的橫截面圖像。 在未來十年間,LogicFolding預(yù)計將從局部的關(guān)鍵路徑折疊演進為全面的、多層級的折疊——每個封裝內(nèi)將集成三層、四層乃至更多的有源層。這一演進由低溫混合鍵合技術(shù)(放寬了各層之間的熱預(yù)算限制)以及硅通孔(TSV)著陸點從頂層金屬逐步下移至M6層所推動,此舉將釋放超過30%的高層布線資源。從2026年到2035年,晶體管密度預(yù)計將向400 MTr/mm2及更高水平邁進。與此同時,LogicFolding使Kirin能夠大幅提升CPU核心頻率,并為邁向4 GHz及更高頻率鋪平道路(見圖4和表2)。該路線圖是切實可行的,并且在成本方面具有經(jīng)濟可行性。 表2. Kirin CPU性能核心工作頻率趨勢 圖4. 未來Kirin產(chǎn)品晶體管密度與性能核心頻率預(yù)測 Highlight — LogicFolding核心指標一覽 混合鍵合間距:低于2微米(Kirin 2026中為1.5微米;目標齒輪比≈1)套刻精度:低于0.5微米硅通孔臨界尺寸/保持區(qū):低于1.5微米;間距低于6微米;失效率低于100 ppm;修復(fù)率99.9%良率:通過智能冗余設(shè)計接近100%晶體管密度:單代從155 MTr/mm2躍升至238 MTr/mm2能效/頻率增益(SoC性能核心):+41% / +13%SRAM工作頻率:提升40%以上代表性核心上的時鐘緩沖器數(shù)量/時鐘偏移/線長:-50% / -25% / -30%五、從皮秒到微秒:AI數(shù)據(jù)中心中的τ縮放 一個自然的問題是:在毫瓦級智能手機領(lǐng)域發(fā)展出的原理,能否成功遷移至AI訓(xùn)練和推理所涉及的吉瓦級領(lǐng)域?AI工作負載占據(jù)了τ頻譜的另一端:并非單顆芯片,而是數(shù)百或數(shù)千顆芯片如同一臺機器般協(xié)同工作,其總算力在過去十年間增長了約六個數(shù)量級。答案是肯定的——只要將τ視為一個系統(tǒng)級目標,并應(yīng)用到整個鏈條中,而非僅限于單個加速器內(nèi)部。塑造AI領(lǐng)域τ論證的兩個事實。首先,AI系統(tǒng)持續(xù)增長——從單芯片到數(shù)十顆、數(shù)百顆,并正增至數(shù)萬顆。其次,現(xiàn)代AI系統(tǒng)的能源預(yù)算和物料預(yù)算主要由數(shù)據(jù)主導(dǎo),而非計算。在一個大型AI集群中,超過80%的能源消耗于數(shù)據(jù)移動;超過70%的系統(tǒng)成本用于數(shù)據(jù)存儲。其含義是直接的:減少數(shù)據(jù)在傳輸途中的時間——在芯片間、機架間以及封裝內(nèi)部——至少與減少計算本身所花費的時間同等重要。τ縮放在AI規(guī)模上通過三個協(xié)同層實現(xiàn):系統(tǒng)架構(gòu)(統(tǒng)一總線)、近封裝光學(xué)引擎(Hi-ONE)以及封裝本身的拓撲重組(3D折疊)。這種全棧方法系統(tǒng)性地壓縮了分布式AI系統(tǒng)固有的系統(tǒng)τ。具體而言,統(tǒng)一總線通過統(tǒng)一內(nèi)存語義互連消除了多層協(xié)議開銷,大幅降低了跨節(jié)點通信延遲。Hi-ONE利用近封裝光學(xué)I/O直接壓縮物理傳輸延遲。3D折疊通過將邊緣受限資源轉(zhuǎn)移到表面,克服了二次方到線性縮放差異,最大限度地減少了節(jié)點內(nèi)寄生RC。總之,這套從電路到系統(tǒng)的優(yōu)化堆棧實現(xiàn)了AI系統(tǒng)中τ縮放的終極目標:使大規(guī)模AI集群能夠像一個單一邏輯實體一樣協(xié)同運行。1、統(tǒng)一總線——一種τ優(yōu)先的系統(tǒng)架構(gòu) 傳統(tǒng)的多節(jié)點、多加速器架構(gòu)通過多個堆疊協(xié)議傳輸數(shù)據(jù):連接主機的PCIe、機箱內(nèi)的NVLink或?qū)S屑軜?gòu)、機箱間的以太網(wǎng)或InfiniBand,以及其上的軟件棧遠程內(nèi)存訪問。每一層都涉及協(xié)議轉(zhuǎn)換、額外的序列化、額外的DMA緩沖以及進一步的握手交互。每次轉(zhuǎn)換都會增加延遲、降低可靠性并帶來額外成本。統(tǒng)一總線用一個統(tǒng)一的協(xié)議取代了這一堆棧,該協(xié)議在機箱內(nèi)部和跨機箱運行——這是一個完全對等的架構(gòu),在整個系統(tǒng)中本地化地暴露內(nèi)存語義(圖5)。數(shù)據(jù)移動被簡化為在內(nèi)存語義層進行無需轉(zhuǎn)換的點對點傳輸,并以硬件管理的緩存一致性取代了軟件棧的消息傳遞。其已測得的收益約為兩個數(shù)量級:端到端的遠程訪問延遲從TCP/IP類協(xié)議棧典型的數(shù)十微秒降至約100納秒——在主導(dǎo)的通信路徑上實現(xiàn)了約500倍的系統(tǒng)τ縮減。在機架規(guī)模上,這使系統(tǒng)漸近地接近一臺單一的、結(jié)構(gòu)一致的機器——內(nèi)部將其稱為“系統(tǒng)即單芯片”(System-as-One-Chip)。 圖5. (a) 統(tǒng)一總線原生支持內(nèi)存訪問語義、消息傳遞和統(tǒng)一遠程過程調(diào)用(uRPC)。這使得多樣化的計算資源能夠無縫集成,實現(xiàn)高帶寬和超低延遲,同時促進分布式系統(tǒng)中高效的資源池化;(b) 通過統(tǒng)一總線實現(xiàn)低開銷內(nèi)存訪問的原理示意圖。 2、Hi-ONE——封裝級光學(xué)I/O 一旦通信延遲得到降低,下一個瓶頸便浮現(xiàn)出來。在單個機架內(nèi)增加芯片密度會使功率密度和可靠性超出其極限——同時也使電氣SerDes超出其能力范圍。在每顆AI芯片400 Gb/s的速率下,銅纜布線仍是成熟且可靠的方案。但當(dāng)速率達到每顆芯片數(shù)Tb/s時,銅纜在物理上變得不切實際:SerDes的傳輸距離縮短,線纜變得過于笨重,面板安裝變得不可行,且熱管理和供電裕度也被耗盡。華為海思為此開發(fā)的方法是高密度光互連節(jié)點引擎(High-density Optical-interconnect-Node Engine, Hi-ONE)——一種近封裝光學(xué)引擎,每個模塊可提供8 Tb/s的帶寬,在單一光學(xué)鏈路上與AI芯片的統(tǒng)一總線帶寬相匹配(圖6)。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米,消除了笨重的線纜,并將傳輸距離從不足1米擴展至100米——這使得分布式、吉瓦級數(shù)據(jù)中心的高密度互連在物理上成為可能。Hi-ONE背后的設(shè)計理念本身就是一個τ縮放的論證。Hi-ONE并未采用用于高信號保真度的重型DSP,而是采用了一種線性方案——一種模擬均衡增強型驅(qū)動器和跨阻放大器——并允許統(tǒng)一總線協(xié)議容忍故意放寬的誤碼率。這種協(xié)議層與物理層之間的跨層權(quán)衡,降低了功耗、成本和集成復(fù)雜性,并體現(xiàn)了τ優(yōu)先方法論所推崇的跨層折衷。 圖6. Hi-ONE芯片示意圖 3、N2-vs-N的困境,以及為什么3D折疊不可避免 AI加速器不會止步于2.5D扇出的最深層次原因是幾何學(xué)的,這一點值得明確陳述,因為它決定了2030年后的路線圖。在傳統(tǒng)的2.5D AI芯片中,邏輯芯片位于封裝中心,HBM堆棧和SerDes排列在其邊緣,電壓調(diào)節(jié)器環(huán)繞封裝。每一個存儲器信號、每一個互連信號、每一安培的供電電流,都必須穿越芯片的邊緣才能到達內(nèi)部的計算資源。如果芯片的邊長為N,那么:●計算能力與N2成比例(面積),●但內(nèi)存帶寬、互連和供電——所有這些都由2.5D扇出沿邊緣承載——僅與N成比例(周長)。這些二次方曲線與線性曲線之間日益擴大的差距構(gòu)成了扇出困境,它解釋了2.5D縮放的停滯,無論底層邏輯節(jié)點多么激進都無法解決。沒有任何晶體管級的改進能夠彌補這種拓撲缺陷。3D折疊通過將受邊緣限制的資源重新定位到表面上來解決這一困境。供電(通過背面供電和集成電壓調(diào)節(jié)器)、高速內(nèi)存(通過與邏輯的混合鍵合)和光學(xué)I/O(通過近封裝Hi-ONE)都從周長遷移到垂直表面——一旦位于表面上,它們便按N2擴展,與計算能力的二次方增長速度相匹配。封裝不再是一個被內(nèi)存和SerDes周邊帶環(huán)繞的邏輯芯片;它變成了一個垂直集成的堆棧,其中內(nèi)存、結(jié)構(gòu)、供電和邏輯都同步擴展。該路線圖將這一演進置于一個明確的時間表上。大約到2030年,AI加速器(昇騰SuperPoD系列——2025年的昇騰910C、2026年的昇騰950,以及后續(xù)的990)依賴成熟技術(shù)的組合:芯粒、2.5D扇出,以及通過微凸點和標準間距混合鍵合實現(xiàn)的3D堆疊。大約在2030年,昇騰990將把LogicFolding引入AI加速器類別,從那時起,3D折疊將成為直到2035年的α的主要承載者。沿著這條路徑,到2035年,硬件集成度預(yù)計將增加超過100倍,其中τ的縮減分布在堆棧的每一層,而非集中在器件層面。亮點——AI系統(tǒng)規(guī)模的τ縮放 ●統(tǒng)一總線遠程訪問延遲:數(shù)十微秒 → 約100納秒(約500倍τ縮減)●Hi-ONE單模塊帶寬:8 Tb/s(與單芯片統(tǒng)一總線帶寬匹配)●Hi-ONE SerDes傳輸距離:約100厘米 → 約5厘米;面板到面板傳輸距離:<1米 → 100米●扇出困境:計算∝N2,受周長限制的帶寬/I/O/供電∝N●3D折疊:將帶寬、光學(xué)I/O和供電從邊緣重新定位到表面,恢復(fù)N2的對等性●2026年→2035年預(yù)計硬件集成度增長:>100倍六、邏輯與內(nèi)存:從解耦到再融合 τ縮放的一個影響值得單獨討論,因為其后果既是產(chǎn)業(yè)性的,也是技術(shù)性的。在8086時代,業(yè)界通過標準化的內(nèi)存總線,有意地將處理器和內(nèi)存解耦。這種解耦使得兩個產(chǎn)業(yè)能夠獨立擴展:處理器性能沿著摩爾曲線快速進步,而內(nèi)存供應(yīng)商則在其旁邊發(fā)展出一個龐大的、獨立的市場。AI時代正在逆轉(zhuǎn)這種解耦。計算密度的持續(xù)擴展正將內(nèi)存帶寬、延遲、功耗和封裝推向極限。HBM、混合鍵合和3D堆疊SRAM都是一個基本事實的癥狀:對于現(xiàn)代AI工作負載,數(shù)據(jù)移動與計算本身同等關(guān)鍵,邏輯和內(nèi)存再次被推向緊密的物理集成。隨著它們?nèi)诤希?yīng)鏈中的影響力平衡正在向內(nèi)存和封裝供應(yīng)商轉(zhuǎn)移。技術(shù)方向是明確的,但經(jīng)濟上的解決方案尚未確定。在AI硬件時代持久的成功將屬于那些能夠技術(shù)上融合邏輯與內(nèi)存,并建立一種經(jīng)濟伙伴關(guān)系,使兩個行業(yè)都能長期分享這種融合收益的參與者。這不僅僅是一個研究問題;這是業(yè)界在未來十年需要解決的一個結(jié)構(gòu)性問題。通過使每次分離的跨層成本變得可見,τ縮放確保這個問題無法被推遲。七、開放挑戰(zhàn) 將τ縮放描述為一個已完成的系統(tǒng)會具有誤導(dǎo)性。幾個實質(zhì)性問題仍然懸而未決,在此指出是為了強調(diào)正在進行的工作并邀請合作。工具鏈和方法論。當(dāng)今的EDA是為這樣一個時代開發(fā)的,在那個時代,面積、時序和功耗是沿著三條獨立的軸進行優(yōu)化的,系統(tǒng)τ是作為一個殘余量出現(xiàn)的。全面的LogicFolding要求工具鏈將多個堆疊芯片視為一個單一連續(xù)的設(shè)計實體——以單元粒度而非模塊粒度進行邏輯分區(qū),在統(tǒng)一的成本函數(shù)下跨越整個三維空間進行布局,并在垂直互連寄生效應(yīng)、保持區(qū)排除區(qū)和晶圓間工藝變化以傳統(tǒng)二維訓(xùn)練工具無法充分處理的方式相互作用的跨芯片路徑上完成時序收斂。已開發(fā)出能產(chǎn)生有用結(jié)果的初步內(nèi)部工具,方法細節(jié)將在未來幾個月內(nèi)公布。一個τ原生的工具鏈——開放的、多物理場的、三維原生的——是未來十年最重要的賦能投資。晶圓間工藝變化。LogicFolding鍵合可能來自不同批次的晶圓——在某些情況下甚至是不同節(jié)點的晶圓。晶圓間的閾值電壓、驅(qū)動電流和互連RC的變化實質(zhì)上大于晶圓內(nèi)的變化,并且對時鐘分配和保持時間裕度的影響最為嚴重。智能冗余、自適應(yīng)補償和τ感知的簽核流程是應(yīng)對方案的必要組成部分。垂直互連開銷。每一個混合鍵合和每一個硅通孔都會產(chǎn)生有限的電阻和電容代價,并且硅通孔的保持區(qū)會取代標準單元。因此,LogicFolding必須逐層地通過一個簡單的不等式來證明其合理性:τ收益(等效硅面積 + 線長縮減) > τ代價(垂直互連寄生RC)

對于移動關(guān)鍵路徑和存儲器,這個閾值已被跨越;該閾值是特定于工作負載的,并且邊界將隨著鍵合間距的縮小而移動。

功耗。τ是時間定律,而非焦耳定律。一個運行速度快10倍但功耗也高10倍的超級節(jié)點并不違反任何縮放原理,但卻超出了電網(wǎng)容量。因此,τ縮放需要一個能源伴侶:消除堆棧開銷的內(nèi)存語義結(jié)構(gòu)、將每比特皮焦耳能耗降低數(shù)個數(shù)量級的近封裝/共封裝光學(xué)、背面供電、存內(nèi)/近存計算,以及將τ裕度換回功率的規(guī)范實踐(數(shù)據(jù)中心規(guī)模的動態(tài)電壓頻率調(diào)整——與實現(xiàn)智能手機電池長壽的機制相同)。重要的是,τ裕度本身在按此方向分配時,也提供了能源裕度。

基準測試。行業(yè)當(dāng)前的性能基準測試——Linpack、MLPerf、SPEC——是為一個每個工作負載只需一個標量值就足夠的時代設(shè)計的。一個τ縮放的行業(yè)需要τ剖析基準測試——能夠揭示系統(tǒng)每一層主導(dǎo)τ以及該層剩余裕度的向量。主導(dǎo)τ層,按定義,就是下一個投資方向。

八、六年回顧,十年展望

在2020年5月至2026年5月期間,華為海思設(shè)計并將381顆芯片投入量產(chǎn),服務(wù)于移動、AI、汽車、工業(yè)和基礎(chǔ)設(shè)施市場。在整個產(chǎn)品組合中,τ縮放的論點經(jīng)受住了考驗:

●在器件和電路層面,到2031年,晶體管密度已從155 MTr/mm2向400+ MTr/mm2提升。

●在芯片層面,LogicFolding已在領(lǐng)先的移動SoC上證明,在固定器件節(jié)點下,關(guān)鍵路徑頻率、能效和密度能夠繼續(xù)進步。

●在系統(tǒng)層面,統(tǒng)一總線和Hi-ONE已證明,數(shù)百微秒的通信τ可以被壓縮至數(shù)百納秒,并且一個多機架AI集群可以表現(xiàn)為一臺單一的一致性機器。

●展望未來,到2029年,CPU性能核心頻率預(yù)計將達到4 GHz及更高;在典型使用情況下,Kirin SoC的能效預(yù)計在三到五年內(nèi)翻倍;到2035年,AI硬件集成度預(yù)計將增長超過100倍。

超越任何單個產(chǎn)品,更深層次的論斷在于方法論層面。τ縮放是自鄧納德縮放以來,第一個為整個堆棧提供共享優(yōu)化目標的縮放原理。它向工藝工程師、電路設(shè)計師、架構(gòu)師、系統(tǒng)工程師和軟件團隊發(fā)出信號:這些群體現(xiàn)在正在用相同的單位優(yōu)化相同的量,并且任何單層的改進都必須傳播到系統(tǒng)τ才能算數(shù)。它也向行業(yè)戰(zhàn)略家和資本配置者表明:下一美元應(yīng)追隨τ,而非節(jié)點——競爭性性能不再需要永遠駐留在光刻的最前沿,封裝、內(nèi)存帶寬和架構(gòu)設(shè)計現(xiàn)在擁有了先前僅由前沿邏輯節(jié)點單獨占據(jù)的戰(zhàn)略權(quán)重。

對于一代接受“摩爾定律”即等同于“進步”教育的工程師來說,這是一個艱難的轉(zhuǎn)變。幾何時代實際上已經(jīng)終結(jié);否認這一事實并非可行的策略。通過微型化加速的時代,正在讓位于通過多層電子系統(tǒng)中的τ優(yōu)化來加速的時代——而那些在未來六到十年內(nèi)采納τ作為主要目標的企業(yè)、研究團隊和生態(tài)系統(tǒng),將決定此后十年計算的面貌。

未來十年的工作范圍已經(jīng)明確。許多開放問題仍然存在,沒有任何一個組織能夠獨自解決它們——工具鏈、標準、基準測試、器件物理和經(jīng)濟模型都需要來自任何一家公司之外的貢獻。因此,本文既是一份來自實踐一線的報告,也是一份邀請。

前方的路線圖要求很高,但方向是明確的。

作者簡介

何庭波領(lǐng)導(dǎo)華為的半導(dǎo)體業(yè)務(wù)。她所領(lǐng)導(dǎo)的團隊在2020年至2026年間,設(shè)計并將381顆芯片投入量產(chǎn),產(chǎn)品覆蓋移動、AI、汽車和基礎(chǔ)設(shè)施市場,并是本文所述τ縮放方法論以及LogicFolding、統(tǒng)一總線和Hi-ONE技術(shù)的源頭。

致謝

本文借鑒了華為海思及其晶圓廠、設(shè)備、EDA和系統(tǒng)合作伙伴生態(tài)系統(tǒng)中數(shù)千名工程師長達六年的工作成果。作者感謝那些以耐心使這項工作成為可能的客戶。

本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以1對27!若不是被逼得沒辦法,中國不會這么對歐洲!

以1對27!若不是被逼得沒辦法,中國不會這么對歐洲!

無情有思ss
2026-07-05 11:22:15
弱爆了姆巴佩打進點球后,模仿了伊薩克的慶祝動作

弱爆了姆巴佩打進點球后,模仿了伊薩克的慶祝動作

懂球帝
2026-07-05 08:36:07
墨西哥主帥怒噴國際足聯(lián):沒人問過我,開球時間改動像挨了一腳

墨西哥主帥怒噴國際足聯(lián):沒人問過我,開球時間改動像挨了一腳

籃壇第一線
2026-07-05 01:36:59
陳奕迅女兒首度回應(yīng)父親買1.8億港元豪宅:沒跟我說,可能送給他自己的,也可能是“擴張”我們的家;此前網(wǎng)友猜測是為女兒準備的“嫁妝”

陳奕迅女兒首度回應(yīng)父親買1.8億港元豪宅:沒跟我說,可能送給他自己的,也可能是“擴張”我們的家;此前網(wǎng)友猜測是為女兒準備的“嫁妝”

魯中晨報
2026-07-03 17:58:17
對于明天周一A股,我只說3句話:第一,3927點或?qū)⒗尾豢善疲?>
    </a>
        <h3>
      <a href=趨勢清風(fēng)俠
2026-07-05 10:02:47
驚人的母子定律:原來母親的樣子,決定了孩子的一生

驚人的母子定律:原來母親的樣子,決定了孩子的一生

牛鍋巴小釩
2026-07-02 18:49:06
男籃慘敗日本后迎劇變!高層深夜緊急復(fù)盤,郭士強做好離任準備

男籃慘敗日本后迎劇變!高層深夜緊急復(fù)盤,郭士強做好離任準備

醫(yī)聯(lián)
2026-07-05 08:41:01
民調(diào):萬斯以35.4%的支持率,領(lǐng)先潛在的2028年總統(tǒng)參選人兩位數(shù)

民調(diào):萬斯以35.4%的支持率,領(lǐng)先潛在的2028年總統(tǒng)參選人兩位數(shù)

王姐懶人家常菜
2026-07-05 10:55:48
耿同學(xué)又整活了!爆料一美國學(xué)者涉大規(guī)模學(xué)術(shù)造假,后被引進浙大

耿同學(xué)又整活了!爆料一美國學(xué)者涉大規(guī)模學(xué)術(shù)造假,后被引進浙大

火山詩話
2026-07-04 14:32:47
遭遇爭議紅牌賽后仍與裁判握手,巴洛貢:不能不尊重別人

遭遇爭議紅牌賽后仍與裁判握手,巴洛貢:不能不尊重別人

懂球帝
2026-07-04 21:29:06
張繼科張蕊結(jié)婚真相曝光,38歲近況劉詩雯早已看透

張繼科張蕊結(jié)婚真相曝光,38歲近況劉詩雯早已看透

青杉依舊啊啊
2026-07-03 11:04:02
隨著法國1-0巴拉圭,產(chǎn)生3大不可思議和2個事實,世界杯8強出2席

隨著法國1-0巴拉圭,產(chǎn)生3大不可思議和2個事實,世界杯8強出2席

侃球熊弟
2026-07-05 06:40:13
世界杯:巴西vs挪威,安切洛蒂表示“我們的隊伍還需要不斷提升”

世界杯:巴西vs挪威,安切洛蒂表示“我們的隊伍還需要不斷提升”

天下說球A
2026-07-05 10:16:46
網(wǎng)友篤定她家黑狗是金毛,大家都不信,直到她曬出這張照片……沒毛病,是金毛!

網(wǎng)友篤定她家黑狗是金毛,大家都不信,直到她曬出這張照片……沒毛病,是金毛!

愛寵物
2026-06-30 01:01:40
佛得角世界杯之旅落幕:球隊收獲1100萬美元獎金,40歲老門將沃齊尼亞社媒粉絲數(shù)破2000萬;旅游爆火,赴當(dāng)?shù)睾桨嗨阉髁客仍鼋?0倍

佛得角世界杯之旅落幕:球隊收獲1100萬美元獎金,40歲老門將沃齊尼亞社媒粉絲數(shù)破2000萬;旅游爆火,赴當(dāng)?shù)睾桨嗨阉髁客仍鼋?0倍

魯中晨報
2026-07-04 16:02:12
我國首架,首飛成功!

我國首架,首飛成功!

環(huán)球網(wǎng)資訊
2026-07-04 15:50:17
證據(jù)已經(jīng)有了:山海經(jīng)顯示,三星堆文明,極有可能是夏朝遺民

證據(jù)已經(jīng)有了:山海經(jīng)顯示,三星堆文明,極有可能是夏朝遺民

抽象派大師
2026-07-05 04:41:50
小鵬疑似更換代言人,唇上一顆痣引發(fā)網(wǎng)友熱議

小鵬疑似更換代言人,唇上一顆痣引發(fā)網(wǎng)友熱議

東方不敗然多多
2026-07-04 14:02:14
簽下了!4年5600萬!A級操作啊!

簽下了!4年5600萬!A級操作啊!

左右為籃
2026-07-05 00:37:56
張本智和為何爆冷輸球,沒想到對手賽后這樣說:我已經(jīng)買好機票了

張本智和為何爆冷輸球,沒想到對手賽后這樣說:我已經(jīng)買好機票了

南海浪花
2026-07-04 12:28:08
2026-07-05 12:07:00
觀察者網(wǎng) incentive-icons
觀察者網(wǎng)
全球視野,中國關(guān)懷
144720文章數(shù) 1850919關(guān)注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

姆巴佩回應(yīng)巴拉圭隊球風(fēng):他們想用粗野風(fēng)格壓制我們

頭條要聞

姆巴佩回應(yīng)巴拉圭隊球風(fēng):他們想用粗野風(fēng)格壓制我們

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

王力宏成都舞臺受傷 仍然堅持三小時

財經(jīng)要聞

揭秘跨境“對敲”換匯黑產(chǎn)

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長聯(lián)屏設(shè)計/下半年上市

態(tài)度原創(chuàng)

本地
教育
時尚
藝術(shù)
公開課

本地新聞

國內(nèi)足球之旅?這座小城給你高分答案

教育要聞

一道五年級期末考試題,做對的竟然寥寥無幾

伊姐周六熱推:電視劇《畫夢錄》;電視劇《燦如繁星》......

藝術(shù)要聞

八大山人迷之印章 你認得幾個?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版