網易首頁 > 網易號 > 正文申請入駐

剛剛，華為何庭波發表署名芯片論文，全文來了

2026-05-25 20:17:50　來源: 芯東西

北京舉報

分享至

芯東西（公眾號：aichip001）
作者 ZeR0
編輯漠影

芯東西5月25日報道，今日，華為公司董事、半導體業務部總裁何庭波在中國科學院科技論文預發布平臺上發表署名論文《多層電子系統的時間縮微理論（A Time Scaling Theory for Multi-Layer Electronic Systems）》。

該論文涉及了何庭波今日在國際電路系統研討會ISCAS 2026上提出的指導半導體產業發展新原則“韜（τ）定律”的具體解讀，并披露了華為麒麟芯片、昇騰芯片的部分路線圖規劃。

華為麒麟芯片SoC效率預計在3到5年內在典型使用下將提升1倍以上，AI硬件集成度預計到2035年將增長100倍以上，CPU性能核心頻率的規劃是：今年達3.1GHz，2027年達3.39GHz，2028年達3.71GHz，2029年突破4GHz。

▲華為麒麟CPU性能核心頻率趨勢（原表來自論文，芯東西制圖）

昇騰AI芯片方面，2025年的昇騰910C、2026年的昇騰950以及隨后的昇騰990將采用成熟技術的組合：Chiplet、2.5D扇出和通過微凸塊及標準間距混合鍵合的3D堆疊。到2030年前后，昇騰990將把邏輯折疊引入AI芯片類別，從那時起3D折疊成為2035年前α的主要載體。沿此路徑，到2035年其硬件集成度預計將增長100倍以上。

論文作者介紹顯示，何庭波負責華為半導體業務，她帶領的團隊在2020年至2026年間設計并量產了381款芯片，涉及移動、人工智能（AI）、汽車和基礎設施市場，并且是本文中描述的τ縮微方法和邏輯折疊（LogicFolding）、統一總線（UnifiedBus）和Hi-ONE光學I/O技術的來源。

何庭波在今天演講中劇透道，華為將在2026年秋季面世的麒麟芯片，性能大幅提升；預計到2031年，基于τ定律的高端芯片晶體管密度將達到1.4nm制程的同等水平。

何庭波論文全文翻譯如下：

摘要：

60年來，摩爾定律的幾何縮微驅動著半導體產業的進步。這一產業契約已不再成立：純粹的尺寸縮微所帶來的回報已經趨于平緩，前沿芯片設計預算已超過十億美元，最先進制程節點的每晶體管成本不再下降。

本文提出一種后繼的縮微原則——τ縮微——以時間本身而非晶體管面積作為衡量進步的首要指標，將單一的特征時間常數τ作為橫跨12個數量級（從晶體管的開關切換到數據中心工作負載）的統一優化目標。文中展示了兩項量產級驗證。

在移動SoC上，邏輯折疊——一種將數字、模擬和存儲電路分配到垂直堆疊有源層中的方法論——在固定工藝節點下實現了55%的晶體管密度階躍提升和41%的功耗效率增益。

在AI系統上，由內存語義統一總線互連架構、近封裝光學Hi-ONE以及邊緣到表面的3D Folding協同設計的系統堆棧，預計到2035年硬件集成度將增長100倍以上。

更深層的主張是方法論層面的：τ縮微是自Dennard以來，第一個在整個計算堆棧中建立共享優化目標的縮微原則。

引言：

自1960年代中期以來，半導體產業一直以納米為單位衡量進步。每十八個月，晶體管縮小，頻率提升，每個邏輯門的成本下降。

摩爾定律既是經驗觀察，也幫助建立了支撐整個計算堆棧的產業契約。這一產業契約已不再成立。在7nm節點之后，幾何縮微已無法帶來其歷史上的紅利。

光刻設備正在接近圖案化的物理極限，EUV設備折舊主導了晶圓成本，每晶體管價格曲線已趨于平緩——在某些情況下甚至出現了逆轉。對于那些難以獲取最先進光刻設備的機構而言，這一約束來得更早、影響也更為嚴峻。

因此，產業面臨的核心問題已經改變。它不再是“晶體管還能縮小多少？”而是“應該縮小什么，以及針對什么目標？”

在過去六年中，本文作者所在的華為半導體團隊在移動SoC、AI加速器、系統互連架構和封裝領域以硅片為實證對這一問題進行了深入研究。結論是：答案不在于另一個制程節點，也不在于另一種晶體管架構，而在于改變首要優化目標本身。

本文主張，未來十年電子系統的演進應由時間縮微（time scaling）——即在堆棧每一層系統性地縮減單一特征時間常數τ，從皮秒級的晶體管切換到秒級的數據中心工作負載響應——來引導，而非幾何縮微。

τ縮微的論據將在下文中以科學方法論和產業路線圖兩個維度展開，其經驗基礎來自2020年5月至2026年5月期間量產的381款芯片。

一、幾何時代的終結

在其大部分歷史中，半導體產業只有一件事要做：把晶體管做得更小。戈登·摩爾（Gordon Moore）在1965年的觀察——晶體管密度大約每兩年翻一番——在十年后由羅伯特·登納德（Robert Dennard）的縮微理論所補充，后者確立了電壓和尺寸的等比縮小可以維持恒定電場。

幾何縮微與Dennard縮微共同在近五十年間帶來了性能功耗比和性能成本比的指數級提升。

這一格局分兩個階段瓦解。約2005年，Dennard縮微率先失效：電壓不再隨特征尺寸等比縮小，暗硅（dark silicon）時代開始。幾何縮微持續了更長時間，依靠FinFET以及隨后的全環柵極（GAA）器件架構得以延續。

然而，在7nm之后，純尺寸縮微的回報已經趨于平緩。原因已有充分記錄：速度飽和效應使本征延遲對溝道長度的依賴從二次方降為線性；局部互連的寄生電阻和電容日益主導標準單元的延遲預算；掩模成本、EUV折舊和設計規則復雜性已將2nm節點的前沿芯片設計預算推至超過十億美元。

經濟后果同樣不可回避。在先進節點上，每晶體管成本已趨于平緩，而在最前沿，成本正在上升。過去五十年所依賴的產業契約——每一代以更低成本獲得更多晶體管——已不再成立。

對于華為半導體而言，這一轉變伴隨著一個額外的約束：獲取最先進光刻設備的渠道受限。假定另一個制程節點能解決問題已不再可行。

六年前，幾何路線圖遭遇了瓶頸，迫使我們直面一個更根本的問題——回顧來看，這是整個行業終將不得不面對的問題。

二、時間，而非空間：摩爾時代的真正貨幣

如果還原到對終端用戶的本質影響，摩爾定律從根本上從來不關乎幾何尺寸。更小的晶體管之所以能提升系統性能，是因為它們切換更快。更密集的互連之所以能提升性能，是因為信號傳輸距離更短。更高的集成度之所以能提升性能，是因為數據跨越的邊界更少。

每一代技術本質上帶來的是時間的縮減——在器件層面從皮秒到納秒，在芯片層面從納秒到微秒，在系統層面從微秒到秒?？臻g縮微不過是壓縮時間的工具。

一旦認識到這一點，一個顯而易見的重新框定便呈現出來。

時間本身應被采納為首要指標。在堆棧的每一層——晶體管、電路、芯片和系統——都可以定義一個特征時間常數τ，并將其縮減作為統一優化目標。幾何縮微由此成為縮減τ的眾多技術手段之一，而不再是唯一的手段。

這一原則被稱為τ縮微，在此作為幾何摩爾縮微的后繼者提出，以引導半導體演進。形式上，τ被視為一個分層構造，可以分解為：

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

其中，τ_transistor、τ_circuit、τ_chip和τ_system分別代表晶體管、電路、芯片和系統層的時間常數。每一層的τ由其下層的τ以及該層引入的組織和通信開銷共同構成。τ的工作空間跨越約十二個數量級的時間（皮秒到秒）以及相當范圍的空間（納米到千米）。

在每一層，都有不同的機制可用于縮減τ：

（1）晶體管層：本征開關延遲，通過遷移率增強、應變工程、高κ/金屬柵極和GAA架構來解決，并且越來越多地通過降低局部互連的寄生R和C來解決——后者目前已超過本征渡越時間數倍。

（2）電路層：信號路徑上的RC傳播延遲，通過更低電阻率的導體、低κ介質來解決，而最具影響力的手段是通過垂直集成縮短布線長度。

（3）芯片層：計算和存儲訪問延遲，通過架構選擇、流水線深度、存儲層次結構和片上互連架構來解決。

（4）系統層：端到端消息傳遞和同步時間，通過互連拓撲、協議棧和互連架構設計來解決。

從這一分層公式中得出一條有用的代際規則：

τ_(n+1) = τ_n / α

其中縮微因子α是應用特定的，而非通用的。迄今的量產經驗表明，功耗受限的移動設備α約為每年1.3倍，安全關鍵的自動駕駛系統α約為每年1.5倍，AI工作負載則可達每年10倍——在后者中，吞吐量直接轉化為經濟價值。

使τ成為一個有用的首要指標——而非既有指標的換標——的關鍵在于，它是跨越整個堆棧的同一個指標。頻率、延遲、帶寬和吞吐量在各自層面都受τ支配。工藝技術人員、電路設計師和系統架構師可以用相同的單位討論同一個量。

τ是使端到端堆棧協同優化成為可能的語言——而各層獨立優化、時序只是殘差的時代已經結束。

三、邏輯折疊：一個移動SoC驗證點

τ縮微的首個量產級驗證在移動領域完成。智能手機SoC是一種特殊情況，一顆芯片即構成整個系統。多插槽并行不可用；沒有千節點互連架構可以掩蓋慢速鏈路。用戶感受到的所有性能都來自單顆芯片，在幾瓦的功耗包絡下，受限于手持設備形態的熱設計約束。

2020年之后，當通往前沿制程節點的路徑受限時，面臨的實際問題變成了：在固定的制程節點上，如何在單顆芯片上持續交付代際性能提升？

由此誕生的答案被稱為邏輯折疊（LogicFolding）。

定義。邏輯折疊是一種設計方法論，將數字、模擬和存儲電路分配到垂直堆疊的有源層中，遵循時間縮微原則聯合優化性能、功耗和面積。

數字電路分為組合邏輯——寄存器之間的布爾網絡——和時序邏輯——保持狀態的觸發器。數字系統的性能上限由相鄰觸發器級之間的關鍵路徑延遲決定，而后者主要由該路徑上的互連RC和門數主導。

傳統優化將門放置在一個平面上，并通過上方的金屬層布線；布線越長，寄生RC越大，關鍵路徑越慢。

邏輯折疊摒棄了平面假設。關鍵路徑上的門分布在兩個（并最終更多個）垂直堆疊的有源層上，通過超細間距混合鍵合連接。

從電路設計師的角度來看，兩個有源層表現為單一的連續布局基底，單元跨晶圓邊界分布，如同那是一個額外的金屬層。信號布線大幅縮短，寄生RC急劇降低，時鐘偏斜收緊，芯片在相同的器件節點下以更高的時鐘頻率運行。

為使邏輯折疊充分發揮這些增益，保持混合鍵合間距與頂層金屬間距之間的齒輪比（gear ratio）較低是有利的——實踐中大致低于3，更低的比率通常更好。

以目前約720nm的頂層金屬間距計算，這意味著混合鍵合間距需低于2μm——理想情況下齒輪比約為1，此時鍵合界面處的鳥籠式布線開銷實際上消失。

實現這一間距，以及所需的對準精度（<0.5μm）、TSV縮微（CD和KOZ低于1.5μm，間距低于6μm）和良率（通過智能冗余接近100%），需要在供應商和合作伙伴生態系統中開展多年的工藝開發工作。

在麒麟2026（Kirin 2026）上測量的結果是具體的：

晶體管密度在單代之內從155MTr/mm2階躍提升至238MTr/mm2（晶體管密度按公式2/(CELL*cell height)計算；麒麟SoC設計的面積利用率為68%）——這一提升幅度此前需要三年的幾何縮微才能實現。
SoC性能核功耗效率提升41%，最大時鐘頻率提升近13%。
一條跨上下兩層有源層構建的高速全局片上網絡（Network-on-Chip）數據路徑，將數據通路面積縮減55%，同時改善了供電穩定性。
一種后硅時鐘偏斜調整方案獨立貢獻了超過5%的SoC性能提升。
在SRAM上——其訪問速度、每比特能耗和面積強烈依賴于位線和字線長度——邏輯折疊縮短了關鍵路徑，降低了每比特能耗，并將工作頻率提升了40%以上。
在一個代表性處理器核心上，雙層折疊架構將時鐘緩沖器數量減少了50%以上，時鐘偏斜降低了25%，布線長度縮短了約30%。

這些增益是在固定的器件節點上實現的，不是通過新的光刻步驟，而是通過邏輯在三維空間分布的拓撲重組。

麒麟2026中搭載的邏輯折疊實現有意采取了保守策略?；旌湘I合間距達到1.5μm；TSV著陸僅在頂層金屬下方推進了一步；折疊僅選擇性地應用于關鍵路徑，而非整個設計。即便如此，CPU性能核心頻率今年回到了3.1GHz。

未來十年，邏輯折疊預計將從局部關鍵路徑折疊演進到全面、多層折疊——每個封裝三層、四層乃至更多有源層——這得益于更低溫度的混合鍵合（放寬跨層熱預算）以及TSV著陸從頂層金屬向下遷移至M6，后者將釋放超過30%的高層布線資源。從2026年到2035年，晶體管密度預計將朝400MTr/mm2及以上邁進。

與此同時，邏輯折疊使麒麟得以大幅提升CPU核心頻率，并為邁向4GHz及以上鋪平道路（見下表）。這一路線圖可行，且在成本上具備經濟可行性。

▲華為麒麟CPU性能核心頻率趨勢（原表來自論文，芯東西制圖）

附欄A——邏輯折疊概覽

混合鍵合間距：低于2μm（麒麟2026中為1.5μm；目標齒輪比≈1）
對準精度：低于0.5μm
TSV CD/KOZ：低于1.5μm；間距低于6μm；失效率<100ppm；修復率99.9%
良率：通過智能冗余接近100%
晶體管密度：155 → 238 MTr/mm2，單步實現
功耗效率/頻率增益（SoC性能核心）：+41% / +13%
SRAM工作頻率：提升40%以上
代表性核心的時鐘緩沖器數量/時鐘偏斜/布線長度：-50% / -25% / -30%

四、從皮秒到微秒：AI數據中心的τ縮微

一個自然的問題是，在毫瓦級智能手機體制下發展起來的原則，是否能存活地轉化到AI訓練和推理的吉瓦級體制中。AI工作負載處于τ光譜的另一端：不是單顆芯片，而是數百甚至數千顆芯片如同一臺機器運行，在過去十年中總計算量增長了約六個數量級。

答案是肯定的——前提是τ被視為系統級目標，并貫穿整個鏈路，而非局限于單個加速器內部。

兩個事實塑造了τ論證的AI側面。

首先，AI系統在持續增長——從一顆芯片，到數十顆，到數百顆，再到越來越多的數萬顆。

其次，現代AI系統的能源預算和材料預算由數據而非計算主導。大型AI集群中超過80%的能源被數據移動消耗；超過70%的系統成本分配給數據存儲。

直接的含義是：縮減數據在傳輸中花費的時間——在芯片之間、機架之間和封裝內部——至少與縮減計算所用時間同等重要。

τ縮微在AI規模上通過三個協調層來實現：系統互連架構（Unified Bus）、近封裝光學引擎（Hi-ONE）以及封裝本身的拓撲重組（3D Folding）。

4.1 Unified Bus——τ優先的系統互連架構

傳統的多節點、多加速器架構通過多層堆疊協議移動數據：PCIe連接主機、NVLink或專有互連架構連接機箱內部、以太網或InfiniBand連接機箱之間，以及上層的軟件棧遠程內存訪問。每一層都需要協議轉換、額外的序列化、額外的DMA緩沖區和進一步的握手。每次轉換都增加延遲、降低可靠性并產生額外成本。

Unified Bus（UB）以單一協議取代了這一堆?！环N在機箱內部和機箱之間運行的全對等互連架構，在整個系統中原生暴露內存語義。數據移動被簡化為無需轉換的、對等的內存語義層傳輸，以硬件管理的一致性取代軟件棧的消息傳遞。

測量到的收益約為兩個數量級：端到端遠程訪問延遲從TCP/IP類堆棧典型的數十微秒降至約100ns——沿主要通信軸實現了約500倍的系統τ縮減。在機架規模上，這使系統漸近地接近于一臺單一的、互連架構一致的機器——內部稱為System-as-One-Chip（系統即單芯片）。

4.2 Hi-ONE——封裝級光學I/O

一旦通信延遲被降低，下一個瓶頸便隨之轉移。在單個機架內增加芯片密度將功率密度和可靠性推至極限——也將電氣SerDes推至極限。在每顆AI芯片400Gb/s時，銅纜布線仍然成熟可靠。但在每顆芯片多Tb/s時，銅纜變得不切實際：SerDes傳輸距離受限，布纜變得體積過大，面板安裝變得不可行，熱和供電裕度被耗盡。

華為半導體開發的方案是高密度光互連節點引擎Hi-ONE（High-density Optical-interconnect-Node Engine）——一種近封裝光學引擎，每模塊提供8Tb/s的帶寬，在單根光鏈路上匹配一顆AI芯片的UB帶寬。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米，消除了笨重的布纜，并將傳輸距離從不到1米擴展至100米——使分布式、吉瓦級數據中心的高密度互連在物理上成為可能。

Hi-ONE的設計哲學本身就是一個τ縮微論證。Hi-ONE并未采用重型DSP來實現高信號保真度，而是采用了線性方案——模擬均衡增強的驅動器和跨阻放大器——并允許UB協議容忍一個有意放寬的誤碼率。

協議層和物理層之間的這種跨層權衡降低了功耗、成本和集成復雜度，體現了τ優先方法論所鼓勵的跨層優化。

4.3 N2與N的困境，以及為何3D Folding不可避免

AI加速器不會止步于2.5D扇出封裝的最深層原因是幾何性的，值得明確闡述，因為它決定了2030年后的路線圖。

在傳統的2.5D AI芯片中，邏輯裸片占據封裝中心，HBM堆疊和SerDes排列在其邊緣，電壓調節器圍繞封裝。每條存儲信號、每條互連信號以及每安培的供電電流都必須經過裸片邊緣才能到達內部的計算資源。

如果裸片的邊長為N，則：

計算能力按N2（面積）縮微，
但存儲帶寬、互連和供電——所有通過2.5D扇出沿邊緣傳輸——僅按N（周長）縮微。

這條二次曲線與線性曲線之間不斷加大的差距構成了扇出困境（fan-out dilemma），它解釋了2.5D縮微的停滯，且與底層邏輯節點多么激進無關。沒有任何晶體管級改進能彌補拓撲缺陷。

3D折疊（3D Folding）通過將邊緣綁定的資源重新布局到表面上來解決這一困境。供電（通過背面供電和集成電壓調節器）、高速存儲（通過混合鍵合連接邏輯）和光學I/O（通過近封裝Hi-ONE）全部從周長遷移到垂直表面——一旦位于表面，它們便按N2縮微，與計算的二次增長步調一致。封裝不再是由存儲和SerDes周長帶圍繞的邏輯裸片；它成為一個垂直集成堆疊，其中存儲、互連架構、供電和邏輯共同縮微。

路線圖將這一演進置于明確的時間線上。

大約到2030年，AI加速器（昇騰SuperPoD產品線——2025年的昇騰910C、2026年的昇騰950，以及隨后的990）依靠成熟技術的組合：Chiplet、2.5D扇出和通過微凸塊及標準間距混合鍵合的3D堆疊。

2030年前后，昇騰990將把邏輯折疊引入AI芯片類別，從那時起3D折疊成為2035年前α的主要載體。

沿此路徑，到2035年硬件集成度預計將增長100倍以上，τ縮微分布在堆棧的每一層，而非集中在器件層面。

附欄B——AI系統規模上的τ

UB遠程訪問延遲：約數十μs → 約100ns（≈500倍τ縮減）
Hi-ONE每模塊帶寬：8Tb/s（匹配每芯片UB帶寬）
Hi-ONE SerDes傳輸距離：約100cm → 約5cm；面板間傳輸距離：<1m → 100m
扇出困境：計算 ∝ N2，周長綁定的帶寬/I/O/供電 ∝ N
3D折疊：將帶寬、光學I/O和供電從邊緣重新布局到表面，恢復N2對等
2026 → 2035年預計硬件集成度增長：>100倍

五、邏輯與存儲：從解耦到再融合

τ縮微的一個含義值得單獨討論，因為其后果既是技術性的，也是產業性的。

在8086時代，行業通過標準化的存儲總線有意將處理器和存儲解耦。這種解耦使兩個行業得以獨立縮微：處理器性能沿摩爾曲線快速推進，而存儲廠商則在其旁發展出一個巨大的獨立市場。

AI時代正在逆轉這種解耦。計算密度的持續擴大正在將存儲帶寬、延遲、功耗和封裝推至其極限。HBM、混合鍵合和3D堆疊SRAM是一個單一底層事實的癥狀：對于現代AI工作負載，數據移動與計算本身同樣關鍵，邏輯和存儲正再次被推向緊密的物理集成。隨著它們的融合，供應鏈中的影響力天平正在向存儲和封裝廠商傾斜。

技術方向是明確的，但經濟上的解決方案尚未落定。

AI硬件時代的持久成功將屬于那些能夠在技術上融合邏輯與存儲，并建立一種經濟伙伴關系——使兩個行業在長期內共享融合收益的企業。

這不僅僅是一個研究問題；這是行業在未來十年需要解決的結構性問題。通過使每一層分離的跨層成本變得可見，τ縮微確保了這一問題不能被推遲。

六、開放性挑戰

將τ縮微呈現為一個完成的體系是有誤導性的。若干實質性問題仍然懸而未決，在此一并指出，既為突出正在進行的工作，也為邀請合作。

工具鏈與方法論。當今的EDA是為一個面積、時序和功耗沿三個獨立軸優化、系統τ僅作為殘差出現的時代而開發的。

全面的邏輯折疊要求工具鏈將多個堆疊裸片視為單一的連續設計實體——以單元粒度而非模塊粒度進行邏輯分割，在統一的成本函數下跨整個體積進行布局，并在裸片間路徑上執行時序收斂，而在這些路徑中，垂直互連寄生參數、KOZ排斥區和晶圓間工藝偏差以傳統2D訓練的工具無法充分應對的方式相互作用。

初步的內部工具已經開發并產出了有用的結果，方法論細節將在未來數月發布。一條τ原生的工具鏈——開放的、多物理場的、3D原生的——是未來十年最重要的賦能投資。

晶圓間工藝偏差。LogicFolding鍵合來自可能不同批次——在某些情況下甚至不同節點——的晶圓。Vth、驅動電流和互連RC的晶圓間偏差遠大于晶圓內偏差，且最嚴重地影響時鐘分配和保持時間裕度。智能冗余、自適應補償和τ感知的簽核流程是應對這一挑戰的必要組成部分。

垂直互連開銷。每個混合鍵合和每個TSV都會產生有限的電阻和電容懲罰，而TSV的KOZ會排斥標準單元。因此，LogicFolding必須通過以下簡單不等式逐層證明其合理性：

τ_Before (existing signal + wire length reduction) > τ_After (vertical interconnect RC)

對于移動端的關鍵路徑和存儲，這一閾值已經被跨越；該閾值與工作負載相關，且隨著鍵合間距的縮小，邊界將持續移動。

能量。τ是時間法則，不是焦耳法則。一個運行速度快10倍但功耗也高10倍的超級節點不違反任何縮微原則，卻超出了電網容量。

因此，τ縮微需要一個能量伴侶：消除堆棧開銷的內存語義互連架構、將每比特皮焦耗能降低數個數量級的近封裝/共封裝光學器件、背面供電、存內/近存計算，以及將τ裕度換回功耗的審慎實踐（數據中心規模的DVFS——與實現智能手機電池續航的機制相同）。

重要的是，τ裕度本身在朝該方向分配時就提供了能量裕度。

基準測試。行業當前的性能基準——Linpack、MLPerf、SPEC——是為每個工作負載一個標量即可滿足需求的時代設計的。τ縮微的行業需要τ剖面基準——暴露系統每一層的主導τ以及該層剩余裕度的向量。主導τ層，根據定義，就是下一個投資方向。

七、六年回顧，十年展望

2020年5月至2026年5月期間，華為半導體設計并量產了381顆芯片，服務于移動、AI、汽車、工業和基礎設施市場。在整個產品組合中，τ縮微論點經受住了考驗：

在器件和電路層，晶體管密度已從155向400+ MTr/mm2（到2031年）提升。
在芯片層，LogicFolding在前沿移動SoC上已經證明，關鍵路徑頻率、功耗效率和密度可以在固定的器件節點上持續提升。
在系統層，Unified Bus和Hi-ONE已經證明，數百微秒的通信τ可以被壓縮至數百納秒，多機架AI集群可以表現為單一的一致性機器。

展望未來，CPU性能核心頻率預計到2029年將邁向4GHz及以上，麒麟SoC效率預計在三到五年內在典型使用下將提升1倍以上，AI硬件集成度預計到2035年將增長100倍以上。

超越任何單一產品的更深層主張是方法論層面的。τ縮微是自Dennard以來第一個為整個堆棧提供共享優化目標的縮微原則。

它向工藝技術人員、電路設計師、架構師、系統工程師和軟件團隊發出信號：這些群體現在正在以相同的單位優化相同的量，任何單層的改進必須傳導至系統τ才算有效。

它也向行業戰略家和資本配置者表明，下一筆投資應跟隨τ而非節點——競爭性的性能不再要求常駐在光刻技術的最前沿，而封裝、存儲帶寬和互連架構設計現在承載著此前僅由前沿邏輯節點所擁有的戰略權重。

對于在成長過程中將“摩爾定律”等同于“進步”的一代工程師而言，這是一個困難的轉變。

幾何時代事實上已經結束；否認這一事實不是可行的策略。通過縮微實現加速的時代正在讓位于通過多層電子系統的τ優化實現加速的時代——而在未來六到十年中以τ為首要目標的公司、研究團體和生態系統，將決定此后十年計算的面貌。

未來十年的工作范圍已經劃定。許多開放問題仍然存在，沒有任何單一組織可以獨自解決——工具鏈、標準、基準、器件物理和經濟模型都需要超越任何單一公司的貢獻。

因此，本文既是一份來自前線的報告，也是一份邀請。

前方的路線圖要求苛刻，但方向是明確的。

致謝

本文汲取了華為半導體及其晶圓代工、設備、EDA和系統合作伙伴生態系統中數千名工程師六年工作的成果。作者感謝那些以耐心使這項工作成為可能的客戶。

1. G. E. Moore, “Cramming more components onto integrated circuits,” Electronics, vol. 38, no. 8, pp. 114–117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998).

2. R. H. Dennard et al., “Design of ion-implanted MOSFETs with very small physical dimensions,” IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256–268, 1974.

3. J. L. Hennessy and D. A. Patterson, “A new golden age for computer architecture,” Commun. ACM, vol. 62, no. 2, pp. 48–60, Feb. 2019.

4. M. Horowitz, “Computing’s energy problem (and what we can do about it),” ISSCC Dig. Tech. Papers, pp. 10–14, Feb. 2014.

5. International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than-Moore chapters, 2023/2024 update.

6. P. Batude et al., “3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS,” IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205–216, 2015.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.