![]()
記者 鄭晨燁
7月3日,華為公司董事、半導體業務部總裁何庭波在中國科學院科技論文預發布平臺ChinaXiv上更新了韜(τ)定律論文,發布了V2版本。這距她5月25日在上海舉辦的2026國際電路與系統研討會上首次發表韜定律,過去了39天。
韜定律提出以“時間縮微”替代“幾何縮微”作為半導體演進的指導原則。
傳統的芯片性能提升依賴把晶體管做得更小,韜定律的路徑是通過邏輯折疊(將芯片電路從單層平面設計改為縱向多層堆疊)等技術,壓縮信號在芯片各層級中的傳播時間來提升性能。華為在過去六年中基于這一路徑設計并量產了381款芯片,覆蓋手機、AI、汽車、工業等領域。
5月發布的V1論文闡述了韜定律的理論框架。而最新公布的V2版本補充了三類內容:麒麟2026芯片與上一代產品在等性能條件下的實測功耗和電壓數據、邏輯折疊的關鍵工藝參數,以及未來四代麒麟處理器和昇騰AI芯片的具體性能目標。
芯片說ICTIME首席分析師林美炳在接受經濟觀察報記者采訪時表示,韜定律是對當前半導體技術演進的重新闡釋,即使沒有外部制裁限制,華為也會走這個方向,“韜定律可以說是被更快逼出來的新思路”。
麒麟2027已完成流片
何庭波在V2版本論文中首次公開了麒麟2026與上一代麒麟9030 Pro在等性能條件下的實測對比。
兩顆芯片采用同一個制程節點,9030 Pro使用傳統平面架構,麒麟2026使用邏輯折疊架構。所謂等性能對比,是指把麒麟2026的工作電壓主動降低,讓它在更低功耗下達到與9030 Pro相同的運行性能,以此衡量邏輯折疊帶來的效率提升。
在25攝氏度環境下,麒麟2026的工作電壓從9030 Pro的1.1伏降至0.9伏,功耗下降41%,芯片面積縮小37.5%,功率密度下降5.6%。這些性能差異來自架構的改變,沒有使用新的光刻工藝。
何庭波在接受媒體采訪時介紹,麒麟2026是第一個完整的“韜芯片”,相比2025年的提升是“跳躍性”的。她在論文中說明,當前方案仍然保守:混合鍵合間距(兩片晶圓縱向連接時,對齊觸點之間的距離)為1.5微米,折疊只應用于部分關鍵路徑,沒有覆蓋整顆芯片。
換句話說,目前的實測數據可能還沒有反映邏輯折疊的全部潛力。
何庭波在V2版本中新增了對邏輯折疊工藝條件的詳細論證,V1版本對此只有一句話帶過。其中一個關鍵參數叫齒比(Gear Ratio),指混合鍵合連接間距與芯片頂層金屬線路間距的比值。
齒比高意味著上下兩片晶圓之間的連接點很稀疏,設計師只能在整塊功能模塊的層面決定哪些電路放上層、哪些放下層,優化的顆粒度很粗。
何庭波在論文中提出,齒比降到3以下時,設計可以在更小的電路單元層面做跨層優化;齒比接近1時,兩片晶圓之間的連接密度與芯片內部的線路密度基本持平,上下兩層對設計師來說就像同一片晶圓上的兩個金屬層一樣,邏輯折疊的架構優勢才能充分發揮。
當前麒麟2026的混合鍵合間距為1.5微米。她在論文中設定的目標是把齒比進一步逼近1,未來鍵合間距將縮小至1微米以下,套刻精度(上下兩層晶圓對齊的偏差)控制在0.5微米以內。
關于3D堆疊的具體技術路線,論文指出華為選擇的是晶圓對晶圓混合鍵合,而非順序三維集成(在同一片晶圓上逐層制造器件)。
順序三維集成在理論上能做到更細的顆粒度,但制造過程中下層器件容易因高溫限制出現性能退化,目前仍面臨量產上的工藝瓶頸。
何庭波在論文中還首次披露了多代麒麟芯片的研發狀態。
麒麟2026和麒麟2027已完成流片(指芯片制造出樣品,進入驗證階段),麒麟2028和麒麟2029處于流片前。四代產品全部采用邏輯折疊架構。過去三年,麒麟系列采用傳統平面架構,CPU性能核心主頻從2023年Kirin 9000S的2.6GHz,到2024年Kirin 9020的2.65GHz,再到2025年Kirin 9030 Pro的2.75GHz,三年累計提升不到6%。
從麒麟2026開始轉向邏輯折疊后,主頻在今年直接升至3.1GHz,單代漲幅超過12%。此前V1的路線圖止于2029年,目標4GHz。V2延伸至2031年:2030年晶體管密度目標292 MTr/mm2(每平方毫米2.92億顆),主頻4.3GHz;2031年目標密度突破400 MTr/mm2,主頻5GHz。
何庭波曾在5月的演講中提到,400 MTr/mm2的密度水平將達到1.4納米制程的同等水平。
何庭波在接受媒體采訪時還談到對未來的判斷:“未來5年到10年,我們有信心在'韜定律'下穩步前進。這個'加速度'可以跟另外一條路徑相比,不會越來越遠,只會越來越好。“她在論文中也說明,韜定律并非放棄先進制程,而是在現有制程節點固定的條件下,通過系統性的時間優化持續提升性能。
麒麟2026和2027都已完成流片,意味著2026年秋季和2027年的產品節奏基本鎖定,不確定性主要集中在2028年之后。
在AI系統層面,何庭波在V2中首次說明了三項技術如何配合,V1對三者的介紹則是各自獨立的。
Unified Bus(統一總線)用單一協議替代傳統AI集群中PCIe、NVLink、以太網等多種通信協議之間的反復轉換。每一次協議轉換都會帶來額外的數據緩沖、序列化處理和握手確認,Unified Bus把這些中間環節去掉,將跨節點的通信延遲從數十微秒壓縮到約100納秒。
華為內部將達到這一延遲水平的集群稱為“System-as-One-Chip”(系統即芯片),意思是整個機柜在通信層面的表現接近一顆單獨的芯片。
Hi-ONE(近封裝光互連引擎,全稱High-density Optical-interconnect-Node Engine)用光信號替代銅線傳輸數據,單模塊帶寬8 Tb/s,傳輸距離從不到1米擴展到100米。
在當前AI芯片的互連帶寬要求已經達到數Tb/s量級的情況下,銅線連接在距離、功耗和布線體積上都逼近極限,光互連是解決這一問題的主要方向。
3D Folding解決的是一個封裝層面的結構性矛盾。在傳統2.5D封裝中,芯片的計算能力隨面積按平方增長,但內存帶寬、互連和供電排列在芯片邊緣,只能按邊長線性增長。
芯片做得越大,邊緣排列的資源就越跟不上中心區域的計算需求。3D Folding的做法是把這些資源從邊緣搬到芯片表面,使其也能按面積增長。昇騰AI芯片預計2030年前后引入邏輯折疊,論文預計到2035年AI硬件集成度較2026年提升100倍以上。
領先兩到三年的窗口期
華為要兌現論文中列出的性能目標,需要在封裝和散熱兩個方向上持續突破。
記者在采訪過程中了解到,邏輯折疊的3D封裝目前主要由國內封裝企業完成。
具體工藝是將芯片襯底磨除,只保留最薄的有源層和銅互連結構,然后讓兩片晶圓的銅連接點直接對齊鍵合,在300到350攝氏度的溫度下完成連接,不使用傳統的焊料凸點。這種銅對銅直接鍵合的方式寄生電阻更低、信號延遲更小。
每多堆疊一層晶圓,就要多做一輪完整的光刻、薄膜沉積和化學機械拋光流程,設備和材料用量接近翻倍。
散熱是制約3D折疊封裝量產的另一個核心難題。芯片堆疊層數增加后,單位體積內的功率密度大幅上升,傳統的被動散熱方案(依靠金屬導熱材料將熱量傳導到芯片表面,再由散熱器散出)只能支撐每平方厘米約100瓦的功率密度。
3D折疊封裝至少把兩層高功耗電路疊在一起,如果散熱跟不上,芯片的頻率和功耗都會被壓制,論文中的性能提升就無法在產品中兌現。
華為目前的方案是在封裝的上下兩層覆蓋CVD(化學氣相沉積)金剛石散熱層,中間開設微米級的液冷通道,注入氟化液。液冷在封裝內部層與層之間縱向流動,到達頂層金剛石板后轉為橫向流動,通過更大的接觸面積將熱量散出。這套方案能支撐每平方厘米約300瓦的功率密度,約為傳統被動散熱方案的三倍。
華南一家大型券商的半導體分析師告訴經濟觀察報記者,臺積電也在研發金剛石加液冷的散熱方案,但量產預計在2028到2029年。華為在散熱和折疊封裝設計上領先約2到3年。
不過臺積電在CoWoS(臺積電的2.5D先進封裝技術)的產能和產業生態上仍然更強,目前在全球先進封裝市場的份額超過八成,一旦臺積電在散熱方案上完成追趕,憑借其產能規模和客戶生態,競爭格局還會發生變化。
林美炳認為,韜定律不會改變其他廠商的技術路線選擇。臺積電、英特爾也都在各自的方向上探索3D堆疊和先進封裝,韜定律是對當前各種技術路徑的總結和闡釋。
他認為,何庭波給出的2031年達到1.4納米等效水平的目標偏保守。華為從2021年開始在邏輯折疊方向上投入,六年間做過的流片試驗遠不止381款,大量芯片在驗證過程中被淘汰。
國內從代工、封裝、材料到測試的產業鏈都已跟進,實際進度可能提前1到2年。目前制約進度的因素中,EDA(電子設計自動化,芯片設計所需的核心軟件工具)仍是最大瓶頸。
邏輯折疊要求設計工具把多層堆疊的晶圓當作一個整體來處理,在最小的電路單元層級上做跨層分配,國產EDA與海外的差距約在5到10年。何庭波在論文中也把EDA列為排在首位的未解決挑戰,并表示華為已開發初步的內部工具,方法論細節將在后續公開。
林美炳表示,韜定律已被大量產品驗證,可行性不需要懷疑。他更關注的是,在韜定律的路徑下,華為的芯片性能能否彌補國內晶圓代工的不足,甚至超過臺積電、三星的代工水平。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.