網易首頁 > 網易號 > 正文申請入駐

華為何庭波最新演講全文：摩爾定律經濟極限崩塌，時間縮微已開啟！“韜定律”論文也來了！

2026-05-26 14:06:14　來源: 深圳夢

廣東舉報

分享至

華為何庭波《人民日報》最新發聲事關“韜定律”

5月25日，在2026國際電路與系統研討會上，華為公司董事、半導體業務部總裁何庭波，正式發布了名為“韜（τ）定律”的半導體新原則，引發熱議。

今天（5月26日），《人民日報》視頻號發布何庭波最新采訪視頻，談“為什么我們今天要提‘韜定律’？”

她表示，在“摩爾定律”演進以后，2005年就開始式微了，基本上再走10年就會遇到非常重的物理邊界的“墻”，華為公司先遇到這個“墻”。2020年，她才很深地思考這個問題，“摩爾定律”不是為了“幾何縮微”，它的本質是要有更快更多的功能。

一直以來，空間上的微縮帶來了時間上的微縮，就是更快地完成了更多的功能。既然在“幾何縮微”上遇到這么大的困難，于是華為決定用“時間縮微”來衡量電子學的進步。

華為用6年做了300多個芯片，包括麒麟手機、自動駕駛，鯤鵬、昇騰，在通用計算和AI計算領域都是有自己重新設計的芯片，這是在“韜微縮”的指導下，華為重要的產品版圖，重新回到消費者和客戶的視野，千千萬萬的用戶用到了這些產品，“因此，我才能夠更加明確地向整個產業界發表‘韜定律’。”

何庭波稱，華為首席執行官任正非曾說過，“沒有退路是勝利之路”。

“我們不會停滯了，我們有加速度了，兩個路徑都是演進路徑，你得看從演進性上是不是可比的。未來4年、5年、10年的加速度，我們跟另一條道路完全可以相比，我們不會越來越遠，只會越來越好。”何庭波說。

據悉，將于今年秋季面世的麒麟手機芯片率先采用了邏輯折疊技術，性能大幅提升。“韜定律”構建了貫穿器件、電路、芯片到系統層面的多層級協同優化體系。預計到2031年，基于該定律的高端芯片晶體管密度將達到1.4納米制程的同等水平。

（來源：人民日報）

半導體新路徑探索與實踐

何庭波 IS-C-AS 2026 主旨演講全文

（2026 年 5 月 25 日，上海?國際電路與系統研討會 IS-C-AS 2026）

尊敬的各位專家、各位同仁：

大家好！非常榮幸在 IS-C-AS 2026 這一國際頂級電路與系統盛會，與全球業界精英共同探討半導體產業的未來方向。今天，我想圍繞 “后摩爾時代的半導體新路徑”，分享華為六年探索的思考、實踐與展望，并正式提出指導產業持續演進的新原則 ——韜（τ）定律。

一、摩爾定律的極限：產業面臨雙重困局過去六十余年，半導體產業始終沿著摩爾定律的軌跡高速發展：通過幾何縮微（持續縮小晶體管物理尺寸），每 18-24 個月單位面積晶體管數量翻番，性能提升、成本下降。從微米到納米，從 7nm、5nm 到 3nm，幾何縮微驅動了全球數字經濟的爆發式增長。

但今天，這條路徑已走到物理極限與經濟極限的十字路口，難以為繼：物理極限觸頂：制程進入 1-2 納米尺度，晶體管接近原子量級，量子隧穿效應導致電子失控漏電，發熱呈指數級上升，傳統 “開關” 功能失效；材料缺陷、互連延遲、功耗密度等問題徹底顛覆原有設計邏輯。

經濟極限崩塌：3nm 制程設計成本超 10 億美元，單次流片費用超 5 億美元；2nm 及以下工藝的研發與制造成本呈指數級攀升，投入產出比嚴重失衡，僅少數企業能承擔，產業創新活力被抑制。

需求與供給嚴重錯配：AI、云計算、自動駕駛、物聯網等新興領域對算力、能效、帶寬的需求呈指數級增長，而幾何縮微放緩導致性能提升幅度大幅收窄，“性能饑渴” 與 “工藝瓶頸” 的矛盾日益尖銳。全球半導體產業正站在歷史轉折點：修補摩爾定律無濟于事，延續幾何縮微是死胡同，我們必須跳出固有思維，探索一條全新、可持續、可規模化的演進路徑。

二、韜（τ）定律：以 “時間縮微” 替代 “幾何縮微”基于六年技術攻堅與產業實踐，華為正式提出韜（τ）定律——以 “時間縮微” 替代 “幾何縮微”，以系統性降低時間常數 τ 為核心目標，通過邏輯折疊、全棧協同、系統重構等創新技術，持續壓縮信號傳播時延，實現晶體管密度、性能、能效的同步躍升，構建后摩爾時代半導體與電子系統的全新演進體系。

（一）核心內涵：從 “縮尺寸” 到 “縮時間”摩爾定律：核心是幾何縮微（縮小晶體管尺寸、減小面積），追求 “空間密度”；韜定律：核心是時間縮微（降低信號傳播時延、減小時間常數 τ），追求 “時間效率”。時間常數 τ（τ=RC，R 為電阻、C 為電容）是決定電路響應速度、信號延遲、功耗的核心物理量。韜定律的本質，是貫穿器件、電路、芯片、系統全層級，系統性降低 τ 值，讓信號跑得更快、電路響應更短、系統能效更高，最終在不依賴極致幾何縮微的前提下，實現性能與密度的持續演進。

（二）多層級協同優化體系：四大核心維度韜定律不是單一技術，而是覆蓋器件、電路、芯片、系統的全棧式創新架構，四大維度層層遞進、協同增效：

1. 器件層面：物理底層降 τ，夯實基礎通過優化晶體管結構、材料與互連方案，從源頭降低器件級時間常數 τ：優化晶體管溝道、摻雜與接觸電阻，降低 R 值；采用高 k 介質、低寄生電容結構，降低 C 值；創新互連材料（如銅互連、石墨烯互連），減少互連 RC 延遲；探索二維半導體、寬禁帶半導體等新材料，突破硅基物理限制。

2. 電路層面：邏輯折疊（Lo-g-ic Fo-l-d-i-ng），突破平面極限邏輯折疊是韜定律的核心標志性技術，徹底打破傳統芯片平面布局的物理邊界：將傳統二維平面電路，通過三維立體折疊、垂直互連，把分散的邏輯單元 “堆疊” 起來；顯著縮短關鍵路徑走線長度（減少 50%-80%），大幅降低信號傳播的 RC 負載；在相同面積下，晶體管密度提升 2-5 倍，電路性能提升 30%-100%，功耗降低 40% 以上；2026 年秋季發布的新一代麒麟芯片，將全球首發商用邏輯折疊技術，實現旗艦芯片性能的跨越式提升。

3. 芯片層面：軟硬芯全棧協同，釋放系統潛能以 “軟件 - 架構 - 芯片” 全棧協同設計為核心，基于實際工作負載優化指令流與數據流：架構創新：采用異構計算、存算一體、近內存計算等架構，打破 “內存墻” 與 “功耗墻”；軟件定制：針對 AI、手機、服務器等場景，優化編譯器、指令集與調度算法，提升并行度；芯片優化：根據軟件負載，定制化設計 IP 核、流水線與互連網絡，實現端到端執行時間最小化。

4. 系統層面：靈衢總線（Li-n-g-qu Bus），重構互聯體系定義全新的靈衢總線協議，重構計算系統互聯架構：實現超節點統一內存編址與原生內存語義，減少數據搬運開銷；提升系統帶寬、降低通信時延（減少 60% 以上），支持萬級節點高效互聯；適配 AI 集群、數據中心、邊緣計算等多場景，構建高效能、低功耗的新一代計算系統。

三、六年實踐：韜定律從理論到落地，已量產 381 款芯片自 2020 年起，華為基于韜定律核心思想，開啟全棧技術研發與產品落地，六年累計設計并量產 381 款芯片，覆蓋智能手機、AI 計算、服務器、物聯網、汽車電子等千行百業，實現規模化商用驗證：

（一）核心成果性能與密度突破：基于韜定律的芯片，在 14nm/7nm 成熟工藝下，實現接近 5nm/3nm 的性能表現；預計到 2031 年，高端芯片晶體管密度將等效 1.4nm 制程水平，徹底擺脫對極致 EUV 工藝的依賴。

能效大幅提升：通過全層級降 τ，芯片能效比提升2-3 倍，AI 訓練 / 推理、手機續航、服務器功耗等關鍵指標達到行業領先。

規模化商用：381 款芯片已全面商用，服務全球超 10 億用戶；其中手機 SoC、AI 芯片、服務器 CPU、車載芯片等核心產品，已成為行業標桿。

（二）典型案例智能手機芯片：新一代麒麟芯片（2026 年秋季發布），采用邏輯折疊技術，CPU/GPU 性能提升 40%，能效提升 35%，晶體管密度等效 3nm 工藝，無需依賴先進制程即可實現旗艦級體驗。

AI 計算芯片：昇騰系列 AI 芯片，基于韜定律 “靈衢總線 + 存算一體” 架構，訓練算力達 PF-L-O-PS 級，能效比遠超同類產品，已廣泛應用于全球 AI 數據中心。

服務器芯片：鯤鵬系列 CPU，通過軟硬芯協同優化，多核性能提升 50%，功耗降低 30%，適配云計算與企業級服務器場景。

四、產業價值：韜定律開辟三條新賽道，重構全球格局韜定律不僅是技術突破，更重構了半導體產業的價值邏輯與競爭格局，開辟三條可持續發展的新賽道：

（一）成熟工藝 “挖潛” 賽道無需依賴 3nm/2nm 等極致先進制程，通過邏輯折疊、全棧協同，讓 14nm/7nm 成熟工藝發揮出 5nm/3nm 的性能潛力，大幅降低研發與制造成本，解決先進制程 “卡脖子” 難題，為全球中小企業提供創新機會。

（二）系統級創新賽道從 “單一芯片性能競爭” 轉向 “全系統能效競爭”，推動產業從 “制程驅動” 向 “架構 + 軟件 + 芯片協同驅動” 轉型，釋放系統級創新紅利，適配 AI、自動駕駛等新興場景需求。

（三）開放合作生態賽道韜定律是開放、兼容、可擴展的技術體系，不封閉、不排他，歡迎全球企業、科研機構、高校共同參與技術研發、標準制定與生態建設，構建 “開放合作、互利共贏” 的全球半導體產業新生態。

五、未來展望：開放合作，共筑后摩爾時代新生態后摩爾時代，沒有任何一家企業能獨善其身，也沒有任何一條路徑能單打獨斗。韜定律的落地與推廣，離不開全球產業鏈、供應鏈、創新鏈的協同發力。華為的愿景是：以韜定律為共識，聯合全球科學家、工程師、產業伙伴，共同攻克器件、材料、架構、軟件等關鍵技術，共建開放標準與生態，讓半導體技術持續進步，讓數字經濟惠及全球每一個人。

在此，我鄭重呼吁：開放技術合作：華為愿開放韜定律核心技術框架、邏輯折疊 IP、靈衢總線協議等，與全球伙伴聯合研發、共享成果；共建產業生態：攜手打造 “韜定律產業聯盟”，制定統一技術標準、測試規范與接口協議，推動技術規模化落地；培養創新人才：聯合全球高校與科研機構，開設后摩爾時代半導體技術課程，培養跨學科、復合型創新人才。

各位同仁，半導體產業是數字經濟的基石，是人類科技進步的核心動力。摩爾定律的時代落幕，但創新永不落幕；幾何縮微的路徑走到盡頭，但時間縮微的新路徑已開啟。華為愿以開放、包容、共贏的姿態，與全球產業伙伴一道，共同探索、實踐、完善韜定律，攜手開創后摩爾時代半導體產業的新篇章，為全球科技進步與人類文明發展貢獻中國智慧與中國力量！謝謝大家！

華為何庭波發表署名芯片論文，全文來了

本文汲取了數千名工程師六年工作的成果。

轉載自：芯東西作者：ZeR0

5月25日，華為何庭波在中國科學院科技論文預發布平臺上發表署名論文《多層電子系統的時間縮微理論（A Time Scaling Theory for Multi-Layer Electronic Systems）》。

該論文涉及了何庭波今日在國際電路系統研討會ISCAS 2026上提出的指導半導體產業發展新原則“韜（τ）定律”的具體解讀，并披露了華為麒麟芯片、昇騰芯片的部分路線圖規劃。

華為麒麟芯片SoC效率預計在3到5年內在典型使用下將提升1倍以上，AI硬件集成度預計到2035年將增長100倍以上，CPU性能核心頻率的規劃是：今年達3.1GHz，2027年達3.39GHz，2028年達3.71GHz，2029年突破4GHz。

▲華為麒麟CPU性能核心頻率趨勢（原表來自論文，芯東西制圖）

昇騰AI芯片方面，2025年的昇騰910C、2026年的昇騰950以及隨后的昇騰990將采用成熟技術的組合：Chiplet、2.5D扇出和通過微凸塊及標準間距混合鍵合的3D堆疊。到2030年前后，昇騰990將把邏輯折疊引入AI芯片類別，從那時起3D折疊成為2035年前α的主要載體。沿此路徑，到2035年其硬件集成度預計將增長100倍以上。

論文作者介紹顯示，何庭波負責華為半導體業務，她帶領的團隊在2020年至2026年間設計并量產了381款芯片，涉及移動、人工智能（AI）、汽車和基礎設施市場，并且是本文中描述的τ縮微方法和邏輯折疊（LogicFolding）、統一總線（UnifiedBus）和Hi-ONE光學I/O技術的來源。

何庭波在今天演講中劇透道，華為將在2026年秋季面世的麒麟芯片，性能大幅提升；預計到2031年，基于τ定律的高端芯片晶體管密度將達到1.4nm制程的同等水平。

何庭波論文全文翻譯如下：

摘要：

60年來，摩爾定律的幾何縮微驅動著半導體產業的進步。這一產業契約已不再成立：純粹的尺寸縮微所帶來的回報已經趨于平緩，前沿芯片設計預算已超過十億美元，最先進制程節點的每晶體管成本不再下降。

本文提出一種后繼的縮微原則——τ縮微——以時間本身而非晶體管面積作為衡量進步的首要指標，將單一的特征時間常數τ作為橫跨12個數量級（從晶體管的開關切換到數據中心工作負載）的統一優化目標。文中展示了兩項量產級驗證。

在移動SoC上，邏輯折疊——一種將數字、模擬和存儲電路分配到垂直堆疊有源層中的方法論——在固定工藝節點下實現了55%的晶體管密度階躍提升和41%的功耗效率增益。

在AI系統上，由內存語義統一總線互連架構、近封裝光學Hi-ONE以及邊緣到表面的3D折疊（3D Folding）協同設計的系統堆棧，預計到2035年硬件集成度將增長100倍以上。

更深層的主張是方法論層面的：τ縮微是自Dennard以來，第一個在整個計算堆棧中建立共享優化目標的縮微原則。

引言：

自1960年代中期以來，半導體產業一直以納米為單位衡量進步。每十八個月，晶體管縮小，頻率提升，每個邏輯門的成本下降。

摩爾定律既是經驗觀察，也幫助建立了支撐整個計算堆棧的產業契約。這一產業契約已不再成立。在7nm節點之后，幾何縮微已無法帶來其歷史上的紅利。

光刻設備正在接近圖案化的物理極限，EUV設備折舊主導了晶圓成本，每晶體管價格曲線已趨于平緩——在某些情況下甚至出現了逆轉。對于那些難以獲取最先進光刻設備的機構而言，這一約束來得更早、影響也更為嚴峻。

因此，產業面臨的核心問題已經改變。它不再是“晶體管還能縮小多少？”而是“應該縮小什么，以及針對什么目標？”

在過去六年中，本文作者所在的華為半導體團隊在移動SoC、AI加速器、系統互連架構和封裝領域以硅片為實證對這一問題進行了深入研究。結論是：答案不在于另一個制程節點，也不在于另一種晶體管架構，而在于改變首要優化目標本身。

本文主張，未來十年電子系統的演進應由時間縮微（time scaling）——即在堆棧每一層系統性地縮減單一特征時間常數τ，從皮秒級的晶體管切換到秒級的數據中心工作負載響應——來引導，而非幾何縮微。

τ縮微的論據將在下文中以科學方法論和產業路線圖兩個維度展開，其經驗基礎來自2020年5月至2026年5月期間量產的381款芯片。

01.

幾何時代的終結

在其大部分歷史中，半導體產業只有一件事要做：把晶體管做得更小。戈登·摩爾（Gordon Moore）在1965年的觀察——晶體管密度大約每兩年翻一番——在十年后由羅伯特·登納德（Robert Dennard）的縮微理論所補充，后者確立了電壓和尺寸的等比縮小可以維持恒定電場。

幾何縮微與Dennard縮微共同在近五十年間帶來了性能功耗比和性能成本比的指數級提升。

這一格局分兩個階段瓦解。約2005年，Dennard縮微率先失效：電壓不再隨特征尺寸等比縮小，暗硅（dark silicon）時代開始。幾何縮微持續了更長時間，依靠FinFET以及隨后的全環柵極（GAA）器件架構得以延續。

然而，在7nm之后，純尺寸縮微的回報已經趨于平緩。原因已有充分記錄：速度飽和效應使本征延遲對溝道長度的依賴從二次方降為線性；局部互連的寄生電阻和電容日益主導標準單元的延遲預算；掩模成本、EUV折舊和設計規則復雜性已將2nm節點的前沿芯片設計預算推至超過十億美元。

經濟后果同樣不可回避。在先進節點上，每晶體管成本已趨于平緩，而在最前沿，成本正在上升。過去五十年所依賴的產業契約——每一代以更低成本獲得更多晶體管——已不再成立。

對于華為半導體而言，這一轉變伴隨著一個額外的約束：獲取最先進光刻設備的渠道受限。假定另一個制程節點能解決問題已不再可行。

六年前，幾何路線圖遭遇了瓶頸，迫使我們直面一個更根本的問題——回顧來看，這是整個行業終將不得不面對的問題。

02.

時間，而非空間：

摩爾時代的真正貨幣

如果還原到對終端用戶的本質影響，摩爾定律從根本上從來不關乎幾何尺寸。更小的晶體管之所以能提升系統性能，是因為它們切換更快。更密集的互連之所以能提升性能，是因為信號傳輸距離更短。更高的集成度之所以能提升性能，是因為數據跨越的邊界更少。

每一代技術本質上帶來的是時間的縮減——在器件層面從皮秒到納秒，在芯片層面從納秒到微秒，在系統層面從微秒到秒。空間縮微不過是壓縮時間的工具。

一旦認識到這一點，一個顯而易見的重新框定便呈現出來。

時間本身應被采納為首要指標。在堆棧的每一層——晶體管、電路、芯片和系統——都可以定義一個特征時間常數τ，并將其縮減作為統一優化目標。幾何縮微由此成為縮減τ的眾多技術手段之一，而不再是唯一的手段。

這一原則被稱為τ縮微，在此作為幾何摩爾縮微的后繼者提出，以引導半導體演進。形式上，τ被視為一個分層構造，可以分解為：

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

其中，τ_transistor、τ_circuit、τ_chip和τ_system分別代表晶體管、電路、芯片和系統層的時間常數。每一層的τ由其下層的τ以及該層引入的組織和通信開銷共同構成。τ的工作空間跨越約十二個數量級的時間（皮秒到秒）以及相當范圍的空間（納米到千米）。

在每一層，都有不同的機制可用于縮減τ：

（1）晶體管層：本征開關延遲，通過遷移率增強、應變工程、高κ/金屬柵極和GAA架構來解決，并且越來越多地通過降低局部互連的寄生R和C來解決——后者目前已超過本征渡越時間數倍。

（2）電路層：信號路徑上的RC傳播延遲，通過更低電阻率的導體、低κ介質來解決，而最具影響力的手段是通過垂直集成縮短布線長度。

（3）芯片層：計算和存儲訪問延遲，通過架構選擇、流水線深度、存儲層次結構和片上互連架構來解決。

（4）系統層：端到端消息傳遞和同步時間，通過互連拓撲、協議棧和互連架構設計來解決。

從這一分層公式中得出一條有用的代際規則：

τ_(n+1) = τ_n / α

其中縮微因子α是應用特定的，而非通用的。迄今的量產經驗表明，功耗受限的移動設備α約為每年1.3倍，安全關鍵的自動駕駛系統α約為每年1.5倍，AI工作負載則可達每年10倍——在后者中，吞吐量直接轉化為經濟價值。

使τ成為一個有用的首要指標——而非既有指標的換標——的關鍵在于，它是跨越整個堆棧的同一個指標。頻率、延遲、帶寬和吞吐量在各自層面都受τ支配。工藝技術人員、電路設計師和系統架構師可以用相同的單位討論同一個量。

τ是使端到端堆棧協同優化成為可能的語言——而各層獨立優化、時序只是殘差的時代已經結束。

03.

邏輯折疊：一個移動SoC驗證點

τ縮微的首個量產級驗證在移動領域完成。智能手機SoC是一種特殊情況，一顆芯片即構成整個系統。多插槽并行不可用；沒有千節點互連架構可以掩蓋慢速鏈路。用戶感受到的所有性能都來自單顆芯片，在幾瓦的功耗包絡下，受限于手持設備形態的熱設計約束。

2020年之后，當通往前沿制程節點的路徑受限時，面臨的實際問題變成了：在固定的制程節點上，如何在單顆芯片上持續交付代際性能提升？

由此誕生的答案被稱為邏輯折疊（LogicFolding）。

定義。邏輯折疊是一種設計方法論，將數字、模擬和存儲電路分配到垂直堆疊的有源層中，遵循時間縮微原則聯合優化性能、功耗和面積。

數字電路分為組合邏輯——寄存器之間的布爾網絡——和時序邏輯——保持狀態的觸發器。數字系統的性能上限由相鄰觸發器級之間的關鍵路徑延遲決定，而后者主要由該路徑上的互連RC和門數主導。

傳統優化將門放置在一個平面上，并通過上方的金屬層布線；布線越長，寄生RC越大，關鍵路徑越慢。

邏輯折疊摒棄了平面假設。關鍵路徑上的門分布在兩個（并最終更多個）垂直堆疊的有源層上，通過超細間距混合鍵合連接。

從電路設計師的角度來看，兩個有源層表現為單一的連續布局基底，單元跨晶圓邊界分布，如同那是一個額外的金屬層。信號布線大幅縮短，寄生RC急劇降低，時鐘偏斜收緊，芯片在相同的器件節點下以更高的時鐘頻率運行。

為使邏輯折疊充分發揮這些增益，保持混合鍵合間距與頂層金屬間距之間的齒輪比（gear ratio）較低是有利的——實踐中大致低于3，更低的比率通常更好。

以目前約720nm的頂層金屬間距計算，這意味著混合鍵合間距需低于2μm——理想情況下齒輪比約為1，此時鍵合界面處的鳥籠式布線開銷實際上消失。

實現這一間距，以及所需的對準精度（<0.5μm）、TSV縮微（CD和KOZ低于1.5μm，間距低于6μm）和良率（通過智能冗余接近100%），需要在供應商和合作伙伴生態系統中開展多年的工藝開發工作。

在麒麟2026（Kirin 2026）上測量的結果是具體的：

晶體管密度在單代之內從155MTr/mm2階躍提升至238MTr/mm2（晶體管密度按公式2/(CELL*cell height)計算；麒麟SoC設計的面積利用率為68%）——這一提升幅度此前需要三年的幾何縮微才能實現。

SoC性能核功耗效率提升41%，最大時鐘頻率提升近13%。

一條跨上下兩層有源層構建的高速全局片上網絡（Network-on-Chip）數據路徑，將數據通路面積縮減55%，同時改善了供電穩定性。

一種后硅時鐘偏斜調整方案獨立貢獻了超過5%的SoC性能提升。

在SRAM上——其訪問速度、每比特能耗和面積強烈依賴于位線和字線長度——邏輯折疊縮短了關鍵路徑，降低了每比特能耗，并將工作頻率提升了40%以上。

在一個代表性處理器核心上，雙層折疊架構將時鐘緩沖器數量減少了50%以上，時鐘偏斜降低了25%，布線長度縮短了約30%。

這些增益是在固定的器件節點上實現的，不是通過新的光刻步驟，而是通過邏輯在三維空間分布的拓撲重組。

麒麟2026中搭載的邏輯折疊實現有意采取了保守策略。混合鍵合間距達到1.5μm；TSV著陸僅在頂層金屬下方推進了一步；折疊僅選擇性地應用于關鍵路徑，而非整個設計。即便如此，CPU性能核心頻率今年回到了3.1GHz。

未來十年，邏輯折疊預計將從局部關鍵路徑折疊演進到全面、多層折疊——每個封裝三層、四層乃至更多有源層——這得益于更低溫度的混合鍵合（放寬跨層熱預算）以及TSV著陸從頂層金屬向下遷移至M6，后者將釋放超過30%的高層布線資源。從2026年到2035年，晶體管密度預計將朝400MTr/mm2及以上邁進。

與此同時，邏輯折疊使麒麟得以大幅提升CPU核心頻率，并為邁向4GHz及以上鋪平道路（見下表）。這一路線圖可行，且在成本上具備經濟可行性。

▲華為麒麟CPU性能核心頻率趨勢（原表來自論文，芯東西制圖）

附欄A——邏輯折疊概覽

混合鍵合間距：低于2μm（麒麟2026中為1.5μm；目標齒輪比≈1）
對準精度：低于0.5μm
TSV CD/KOZ：低于1.5μm；間距低于6μm；失效率<100ppm；修復率99.9%
良率：通過智能冗余接近100%
晶體管密度：155 → 238 MTr/mm2，單步實現
功耗效率/頻率增益（SoC性能核心）：+41% / +13%
SRAM工作頻率：提升40%以上
代表性核心的時鐘緩沖器數量/時鐘偏斜/布線長度：-50% / -25% / -30%

04.

從皮秒到微秒：

AI數據中心的τ縮微

一個自然的問題是，在毫瓦級智能手機體制下發展起來的原則，是否能存活地轉化到AI訓練和推理的吉瓦級體制中。AI工作負載處于τ光譜的另一端：不是單顆芯片，而是數百甚至數千顆芯片如同一臺機器運行，在過去十年中總計算量增長了約六個數量級。

答案是肯定的——前提是τ被視為系統級目標，并貫穿整個鏈路，而非局限于單個加速器內部。

兩個事實塑造了τ論證的AI側面。

首先，AI系統在持續增長——從一顆芯片，到數十顆，到數百顆，再到越來越多的數萬顆。

其次，現代AI系統的能源預算和材料預算由數據而非計算主導。大型AI集群中超過80%的能源被數據移動消耗；超過70%的系統成本分配給數據存儲。

直接的含義是：縮減數據在傳輸中花費的時間——在芯片之間、機架之間和封裝內部——至少與縮減計算所用時間同等重要。

τ縮微在AI規模上通過三個協調層來實現：系統互連架構（Unified Bus）、近封裝光學引擎（Hi-ONE）以及封裝本身的拓撲重組（3D Folding）。

4.1 Unified Bus——τ優先的系統互連架構

傳統的多節點、多加速器架構通過多層堆疊協議移動數據：PCIe連接主機、NVLink或專有互連架構連接機箱內部、以太網或InfiniBand連接機箱之間，以及上層的軟件棧遠程內存訪問。每一層都需要協議轉換、額外的序列化、額外的DMA緩沖區和進一步的握手。每次轉換都增加延遲、降低可靠性并產生額外成本。

Unified Bus（UB）以單一協議取代了這一堆棧——一種在機箱內部和機箱之間運行的全對等互連架構，在整個系統中原生暴露內存語義。數據移動被簡化為無需轉換的、對等的內存語義層傳輸，以硬件管理的一致性取代軟件棧的消息傳遞。

測量到的收益約為兩個數量級：端到端遠程訪問延遲從TCP/IP類堆棧典型的數十微秒降至約100ns——沿主要通信軸實現了約500倍的系統τ縮減。在機架規模上，這使系統漸近地接近于一臺單一的、互連架構一致的機器——內部稱為System-as-One-Chip（系統即單芯片）。

4.2 Hi-ONE——封裝級光學I/O

一旦通信延遲被降低，下一個瓶頸便隨之轉移。在單個機架內增加芯片密度將功率密度和可靠性推至極限——也將電氣SerDes推至極限。在每顆AI芯片400Gb/s時，銅纜布線仍然成熟可靠。但在每顆芯片多Tb/s時，銅纜變得不切實際：SerDes傳輸距離受限，布纜變得體積過大，面板安裝變得不可行，熱和供電裕度被耗盡。

華為半導體開發的方案是高密度光互連節點引擎Hi-ONE（High-density Optical-interconnect-Node Engine）——一種近封裝光學引擎，每模塊提供8Tb/s的帶寬，在單根光鏈路上匹配一顆AI芯片的UB帶寬。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米，消除了笨重的布纜，并將傳輸距離從不到1米擴展至100米——使分布式、吉瓦級數據中心的高密度互連在物理上成為可能。

Hi-ONE的設計哲學本身就是一個τ縮微論證。Hi-ONE并未采用重型DSP來實現高信號保真度，而是采用了線性方案——模擬均衡增強的驅動器和跨阻放大器——并允許UB協議容忍一個有意放寬的誤碼率。

協議層和物理層之間的這種跨層權衡降低了功耗、成本和集成復雜度，體現了τ優先方法論所鼓勵的跨層優化。

4.3 N2與N的困境，以及為何3D Folding不可避免

AI加速器不會止步于2.5D扇出封裝的最深層原因是幾何性的，值得明確闡述，因為它決定了2030年后的路線圖。

在傳統的2.5D AI芯片中，邏輯裸片占據封裝中心，HBM堆疊和SerDes排列在其邊緣，電壓調節器圍繞封裝。每條存儲信號、每條互連信號以及每安培的供電電流都必須經過裸片邊緣才能到達內部的計算資源。

如果裸片的邊長為N，則：

計算能力按N2（面積）縮微，

但存儲帶寬、互連和供電——所有通過2.5D扇出沿邊緣傳輸——僅按N（周長）縮微。

這條二次曲線與線性曲線之間不斷加大的差距構成了扇出困境（fan-out dilemma），它解釋了2.5D縮微的停滯，且與底層邏輯節點多么激進無關。沒有任何晶體管級改進能彌補拓撲缺陷。

3D折疊（3D Folding）通過將邊緣綁定的資源重新布局到表面上來解決這一困境。供電（通過背面供電和集成電壓調節器）、高速存儲（通過混合鍵合連接邏輯）和光學I/O（通過近封裝Hi-ONE）全部從周長遷移到垂直表面——一旦位于表面，它們便按N2縮微，與計算的二次增長步調一致。封裝不再是由存儲和SerDes周長帶圍繞的邏輯裸片；它成為一個垂直集成堆疊，其中存儲、互連架構、供電和邏輯共同縮微。

路線圖將這一演進置于明確的時間線上。

大約到2030年，AI加速器（昇騰SuperPoD產品線——2025年的昇騰910C、2026年的昇騰950，以及隨后的990）依靠成熟技術的組合：Chiplet、2.5D扇出和通過微凸塊及標準間距混合鍵合的3D堆疊。

2030年前后，昇騰990將把邏輯折疊引入AI芯片類別，從那時起3D折疊成為2035年前α的主要載體。

沿此路徑，到2035年硬件集成度預計將增長100倍以上，τ縮微分布在堆棧的每一層，而非集中在器件層面。

附欄B——AI系統規模上的τ

UB遠程訪問延遲：約數十μs → 約100ns（≈500倍τ縮減）
Hi-ONE每模塊帶寬：8Tb/s（匹配每芯片UB帶寬）
Hi-ONE SerDes傳輸距離：約100cm → 約5cm；面板間傳輸距離：<1m → 100m
扇出困境：計算 ∝ N2，周長綁定的帶寬/I/O/供電 ∝ N
3D折疊：將帶寬、光學I/O和供電從邊緣重新布局到表面，恢復N2對等
2026 → 2035年預計硬件集成度增長：>100倍

05.

邏輯與存儲：從解耦到再融合

τ縮微的一個含義值得單獨討論，因為其后果既是技術性的，也是產業性的。

在8086時代，行業通過標準化的存儲總線有意將處理器和存儲解耦。這種解耦使兩個行業得以獨立縮微：處理器性能沿摩爾曲線快速推進，而存儲廠商則在其旁發展出一個巨大的獨立市場。

AI時代正在逆轉這種解耦。計算密度的持續擴大正在將存儲帶寬、延遲、功耗和封裝推至其極限。HBM、混合鍵合和3D堆疊SRAM是一個單一底層事實的癥狀：對于現代AI工作負載，數據移動與計算本身同樣關鍵，邏輯和存儲正再次被推向緊密的物理集成。隨著它們的融合，供應鏈中的影響力天平正在向存儲和封裝廠商傾斜。

技術方向是明確的，但經濟上的解決方案尚未落定。

AI硬件時代的持久成功將屬于那些能夠在技術上融合邏輯與存儲，并建立一種經濟伙伴關系——使兩個行業在長期內共享融合收益的企業。

這不僅僅是一個研究問題；這是行業在未來十年需要解決的結構性問題。通過使每一層分離的跨層成本變得可見，τ縮微確保了這一問題不能被推遲。

06.

開放性挑戰

將τ縮微呈現為一個完成的體系是有誤導性的。若干實質性問題仍然懸而未決，在此一并指出，既為突出正在進行的工作，也為邀請合作。

工具鏈與方法論。當今的EDA是為一個面積、時序和功耗沿三個獨立軸優化、系統τ僅作為殘差出現的時代而開發的。

全面的邏輯折疊要求工具鏈將多個堆疊裸片視為單一的連續設計實體——以單元粒度而非模塊粒度進行邏輯分割，在統一的成本函數下跨整個體積進行布局，并在裸片間路徑上執行時序收斂，而在這些路徑中，垂直互連寄生參數、KOZ排斥區和晶圓間工藝偏差以傳統2D訓練的工具無法充分應對的方式相互作用。

初步的內部工具已經開發并產出了有用的結果，方法論細節將在未來數月發布。一條τ原生的工具鏈——開放的、多物理場的、3D原生的——是未來十年最重要的賦能投資。

晶圓間工藝偏差。LogicFolding鍵合來自可能不同批次——在某些情況下甚至不同節點——的晶圓。Vth、驅動電流和互連RC的晶圓間偏差遠大于晶圓內偏差，且最嚴重地影響時鐘分配和保持時間裕度。智能冗余、自適應補償和τ感知的簽核流程是應對這一挑戰的必要組成部分。

垂直互連開銷。每個混合鍵合和每個TSV都會產生有限的電阻和電容懲罰，而TSV的KOZ會排斥標準單元。因此，LogicFolding必須通過以下簡單不等式逐層證明其合理性：

τ_Before (existing signal + wire length reduction) > τ_After (vertical interconnect RC)

對于移動端的關鍵路徑和存儲，這一閾值已經被跨越；該閾值與工作負載相關，且隨著鍵合間距的縮小，邊界將持續移動。

能量。τ是時間法則，不是焦耳法則。一個運行速度快10倍但功耗也高10倍的超級節點不違反任何縮微原則，卻超出了電網容量。

因此，τ縮微需要一個能量伴侶：消除堆棧開銷的內存語義互連架構、將每比特皮焦耗能降低數個數量級的近封裝/共封裝光學器件、背面供電、存內/近存計算，以及將τ裕度換回功耗的審慎實踐（數據中心規模的DVFS——與實現智能手機電池續航的機制相同）。

重要的是，τ裕度本身在朝該方向分配時就提供了能量裕度。

基準測試。行業當前的性能基準——Linpack、MLPerf、SPEC——是為每個工作負載一個標量即可滿足需求的時代設計的。τ縮微的行業需要τ剖面基準——暴露系統每一層的主導τ以及該層剩余裕度的向量。主導τ層，根據定義，就是下一個投資方向。

07.

六年回顧，十年展望

2020年5月至2026年5月期間，華為半導體設計并量產了381顆芯片，服務于移動、AI、汽車、工業和基礎設施市場。在整個產品組合中，τ縮微論點經受住了考驗：

在器件和電路層，晶體管密度已從155向400+ MTr/mm2（到2031年）提升。

在芯片層，LogicFolding在前沿移動SoC上已經證明，關鍵路徑頻率、功耗效率和密度可以在固定的器件節點上持續提升。

在系統層，Unified Bus和Hi-ONE已經證明，數百微秒的通信τ可以被壓縮至數百納秒，多機架AI集群可以表現為單一的一致性機器。

展望未來，CPU性能核心頻率預計到2029年將邁向4GHz及以上，麒麟SoC效率預計在三到五年內在典型使用下將提升1倍以上，AI硬件集成度預計到2035年將增長100倍以上。

超越任何單一產品的更深層主張是方法論層面的。τ縮微是自Dennard以來第一個為整個堆棧提供共享優化目標的縮微原則。

它向工藝技術人員、電路設計師、架構師、系統工程師和軟件團隊發出信號：這些群體現在正在以相同的單位優化相同的量，任何單層的改進必須傳導至系統τ才算有效。

它也向行業戰略家和資本配置者表明，下一筆投資應跟隨τ而非節點——競爭性的性能不再要求常駐在光刻技術的最前沿，而封裝、存儲帶寬和互連架構設計現在承載著此前僅由前沿邏輯節點所擁有的戰略權重。

對于在成長過程中將“摩爾定律”等同于“進步”的一代工程師而言，這是一個困難的轉變。

幾何時代事實上已經結束；否認這一事實不是可行的策略。通過縮微實現加速的時代正在讓位于通過多層電子系統的τ優化實現加速的時代——而在未來六到十年中以τ為首要目標的公司、研究團體和生態系統，將決定此后十年計算的面貌。

未來十年的工作范圍已經劃定。許多開放問題仍然存在，沒有任何單一組織可以獨自解決——工具鏈、標準、基準、器件物理和經濟模型都需要超越任何單一公司的貢獻。

因此，本文既是一份來自前線的報告，也是一份邀請。

前方的路線圖要求苛刻，但方向是明確的。

致謝

本文汲取了華為半導體及其晶圓代工、設備、EDA和系統合作伙伴生態系統中數千名工程師六年工作的成果。作者感謝那些以耐心使這項工作成為可能的客戶。

1. G. E. Moore, "Cramming more components onto integrated circuits," Electronics, vol. 38, no. 8, pp. 114–117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998).

2. R. H. Dennard et al., "Design of ion-implanted MOSFETs with very small physical dimensions," IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256–268, 1974.

3. J. L. Hennessy and D. A. Patterson, "A new golden age for computer architecture," Commun. ACM, vol. 62, no. 2, pp. 48–60, Feb. 2019.

4. M. Horowitz, "Computing's energy problem (and what we can do about it)," ISSCC Dig. Tech. Papers, pp. 10–14, Feb. 2014.

5. International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than-Moore chapters, 2023/2024 update.

6. P. Batude et al., "3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS," IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205–216, 2015.

來源：芯東西

來源：深圳夢（微信號ID：SZeverything）

我們的使命是：星辰大海，只與夢想者同行！

擁有深圳夢，請關注（微信號ID：SZeverything）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.