![]()
2026年5月25日,在芯片尺寸不斷縮小變得日益困難的當(dāng)下,華為提出了名為邏輯折疊(LogicFolding)的全新芯片設(shè)計方法,如同一年前DeepSeek的橫空出世,這是一種足以推動半導(dǎo)體行業(yè)繼續(xù)前行的新路線,具體論文,已發(fā)表在預(yù)印本平臺。論文作者華為半導(dǎo)體業(yè)務(wù)部總裁何庭波基于邏輯折疊,提出半導(dǎo)體領(lǐng)域的“韜(τ)定律”,在過去六年中,華為已經(jīng)運用韜定律與相關(guān)的理念,設(shè)計并量產(chǎn)了381款芯片。
你也許已經(jīng)看過很多關(guān)于這件事的報道,但邏輯折疊和之前的芯片設(shè)計有何不同之處,為什么會給芯片帶來顯著提升,相比摩爾定律,“韜”定律又會對AI產(chǎn)生哪些影響,讀完本文,你將搞清楚這些問題。
![]()
邏輯折疊
讓芯片間的通信不用繞路
在過去的六十年里,半導(dǎo)體芯片的發(fā)展史本質(zhì)上就是一部空間縮放的歷史。通過不斷縮小晶體管的物理尺寸(即“制程”,如從微米級一路縮小至如今的3nm),同等面積的硅片得以塞入更多增長的晶體管,從而帶來了算力的飛躍、能效的提升以及單位算力成本的斷崖式下降。
然而,隨著晶體管的尺寸制程逼近原子級別,單純依賴“把晶體管做小”的空間縮放,由于量子力學(xué)的量子隧穿效應(yīng)正遭遇難以逾越的物理阻礙。在7納米及更先進(jìn)的節(jié)點下,單純減少晶體管體積所帶來的邊際收益遞減,反映到日常的觀感,就是這些年芯片廠商擠牙膏,新一代芯片的性能提升有限。
而華為提出的邏輯折疊,在其論文中給出的定義是“將數(shù)字、模擬和存儲器電路分布在垂直堆疊的有源層中,以聯(lián)合優(yōu)化性能、功耗和面積。”
何庭波在論文中寫道:“數(shù)字系統(tǒng)的性能上限由相鄰觸發(fā)器級之間的關(guān)鍵路徑延遲設(shè)定,而該延遲又主要由該路徑上的互連電阻電容和邏輯門數(shù)量決定。”這句話可以理解成你在圖書館查詢資料,CPU負(fù)責(zé)列出書單,之前的空間縮放,目的是一次多列出幾本書,但你能多快查到資料,還取決于圖書管理員需要花多久去找出你列的這些書,也就是前文的關(guān)鍵延遲。
而邏輯折疊,相當(dāng)于讓之前的圖書館是一層樓,圖書管理員要找齊所有書需要走很多路,而現(xiàn)在圖書館變成了多層高樓,樓里還裝了電梯,這樣圖書管理員只需花極少的時間就能找齊你要的書。對于芯片來說,邏輯折疊顯著降低了數(shù)據(jù)傳輸用時(延遲),從而加速了數(shù)字系統(tǒng)整體的性能。
具體來看:傳統(tǒng)的芯片將晶體管放置在一個平面上,并通過上方的布線讓其連接,而邏輯折疊分布放棄了平面布線,在兩個(最終將是更多)垂直堆疊的有源層上,通過超細(xì)間距的混合鍵進(jìn)行連接(ultra-fine-pitch hybrid bonding)。而這帶來的影響是信號連接所需的線路變短,芯片在相同制程下能夠以更高的頻率運行。
首款采用“邏輯折疊”技術(shù)的2C商用產(chǎn)品將是華為為新旗艦手機(jī)準(zhǔn)備下一代“麒麟2026”移動端芯片,預(yù)計將于今年秋季晚些時候發(fā)布,不依賴先進(jìn)光刻機(jī),基于現(xiàn)有制程。華為聲稱,該技術(shù)將顯著提升性能和能效。使用邏輯折疊后,晶體管密度從155 MTr/mm2上升至238 MTr/mm2;能效提高了41%,最高時鐘頻率提高了近13%,這種幅度的改進(jìn),之前需要三年的幾何縮放才能實現(xiàn)。
![]()
上表展示了麒麟CPU工作主頻的趨勢,華為預(yù)測,最終有望在未來五年內(nèi)達(dá)到等效于先進(jìn)1.4nm工藝技術(shù)的晶體管密度,能效預(yù)計在三到五年內(nèi)至少翻一番。
需要注意的是,這并不一定意味著華為將使用傳統(tǒng)光刻方法在物理上制造出真正的1.4nm芯片。相反,該公司主張,通過更智能的芯片架構(gòu)和信號優(yōu)化,可以提供同等水平的計算能力。
而所謂的“韜”定律,就是在芯片設(shè)計時,定義一個描述信號傳遞時間參數(shù)τ(韜),將其作為優(yōu)化目標(biāo),而非摩爾定律時,只關(guān)注晶體管的大小,每一代芯片,相比前一代芯片,其信號傳遞所需的時間都成比例減少,這就是華為在其五年來381個各類芯片中發(fā)現(xiàn)的規(guī)律。
τ_{t+1} = τ_t / α
上式中的α即時間縮放因子,指的是下一代芯片的信號傳遞時間只是上一代芯片除以一個常數(shù)。在摩爾定律中,每18-24個月,同等大小的芯片中晶體管數(shù)量翻倍,而“韜”定律則意味著每一代芯片其晶體管間通信的用時將指數(shù)級下降。
從皮秒到微秒
AI數(shù)據(jù)中心中的“韜”定律
前文講述的是手機(jī)芯片中的“韜”定律,那在毫瓦級智能手機(jī)芯片中呈現(xiàn)的規(guī)律,是否能經(jīng)受住向AI訓(xùn)練和推理的吉瓦級體系的轉(zhuǎn)化?
對此,論文中寫道:“迄今為止的生產(chǎn)經(jīng)驗表明,對于功耗受限的移動設(shè)備,α ≈ 每年1.3倍;對于安全關(guān)鍵的自主系統(tǒng)(例如汽車自動駕駛芯片),α ≈ 每年1.5倍;對于AI相關(guān)的服務(wù)器芯片,α高達(dá)每年10倍”。
上述數(shù)字意味著,“韜”定律對AI數(shù)據(jù)中心尤為適用。大型AI數(shù)據(jù)中心需要數(shù)百或數(shù)千個芯片像一臺機(jī)器一樣運行,其中超過80%的能量被數(shù)據(jù)移動消耗;超過70%的系統(tǒng)成本分配給數(shù)據(jù)存儲。這意味著減少數(shù)據(jù)在芯片及機(jī)架間傳輸中花費的時間至少與減少計算花費的時間一樣重要。
在AI中應(yīng)用“韜”定律,需要讓τ被視為系統(tǒng)級目標(biāo)并應(yīng)用于整個鏈條,而不是在單個CPU內(nèi)進(jìn)行加速。華為首先用統(tǒng)一總線(一種在機(jī)箱內(nèi)部和跨機(jī)箱運行的單一協(xié)議)取代了目前英偉達(dá)顯卡采用的傳統(tǒng)多節(jié)點、多加速器架構(gòu)(即通過多個堆疊的協(xié)議移動數(shù)據(jù))。之前每一次數(shù)據(jù)轉(zhuǎn)換都會增加延遲、降低可靠性并產(chǎn)生額外成本,采用統(tǒng)一總線后,傳輸延遲從之前的幾十微秒下降到大約100納秒,系統(tǒng)的τ減少了約500倍,使得多機(jī)架AI集群可以表現(xiàn)得像一臺單一的連貫機(jī)器。
此外,華為半導(dǎo)體開發(fā)的“高密度光互連節(jié)點引擎”(Hi-ONE)——一種近封裝光學(xué)引擎,可為每個AI計算模塊提供8 Tb/s的帶寬,而之前的帶寬為400Gb/s。該方法將數(shù)據(jù)中心間的傳輸距離從不到1米延長到100米,使得分布式、吉瓦級數(shù)據(jù)中心的高密度互連在物理上成為可能。
華為何庭波的論文中寫道:使用邏輯折疊,預(yù)計到2035年,AI相關(guān)芯片的硬件集成度將增加100倍以上,τ的減少分布在數(shù)據(jù)中心的每一層硬件結(jié)構(gòu)中,而不是集中在處理器上。
未來的芯片需要更多合作者
計算機(jī)的發(fā)展過程中,內(nèi)存和處理器逐漸分開。處理器的性能沿著摩爾曲線持續(xù)進(jìn)步,而內(nèi)存供應(yīng)商則不考慮計算,獨立設(shè)計存儲芯片。于是我們看到,英特爾做出的CPU不需要考慮用的是三星還是美光的內(nèi)存,而內(nèi)存廠商則會因為供給數(shù)據(jù)中心,利潤更高的高帶寬內(nèi)存(HBM)停掉消費級內(nèi)存的生產(chǎn)線,從而導(dǎo)致內(nèi)存價格顯著增長。
AI的發(fā)展,需要芯片間進(jìn)行高帶寬通信。當(dāng)前我們談?wù)擄@卡的性能時,關(guān)注點也不只是計算能力,更多的是顯存大小,這意味著計算正與存儲開始變得密不可分,對于當(dāng)下的AI算力中心,數(shù)據(jù)移動與計算本身一樣關(guān)鍵,處理器和內(nèi)存被視為緊密的物理集成。而隨著“韜”定律強(qiáng)調(diào)減少數(shù)據(jù)傳輸?shù)难舆t,存儲和計算的關(guān)系將變得更加緊密。
這就如同工業(yè)革命初期,紡織廠將紡紗與織布分設(shè)兩地以專業(yè)化;但當(dāng)訂單規(guī)模與交付速度要求飆升,物流時間成為致命瓶頸,工廠必須將工序重新整合進(jìn)同一屋頂。AI時代,數(shù)據(jù)就是原料,延遲就是物流成本,存算融合是物理規(guī)律下的必然選擇。
對AI時代的硬件開發(fā)者,存算融合要同時關(guān)注存儲和計算。廠商不能像之前那樣,存儲廠商與計算廠商涇渭分明,而是要在計算芯片設(shè)計時就考慮存儲,這意味著更大范圍的合作與機(jī)遇。
“韜”定律的出現(xiàn),雖然在一定程度上解決了對目前被西方封鎖對EUV級紫外光刻機(jī)的依賴,但對于想要破局的國內(nèi)半導(dǎo)體行業(yè)來說,仍然需要引入外部合作,其中關(guān)鍵的一點是EDA(電子設(shè)計自動化)軟件。
之前的EDA,都是為面積、時序和功耗沿著三個獨立的軸進(jìn)行優(yōu)化的時代而開發(fā)的,傳輸時間τ不過是一個無關(guān)大局的參數(shù)。要想在未來更好地應(yīng)用“韜”定律,需要從頭開始考慮τ的自動化設(shè)計軟件。未來的EDA工具需要在標(biāo)準(zhǔn)單元級別,跨越多個垂直有源層進(jìn)行自動布局和布線,把關(guān)鍵路徑上的邏輯門像折紙一樣“折疊”到上下層,從而純粹為了壓縮信號傳輸時間而設(shè)計芯片。
當(dāng)下芯片設(shè)計的評測指標(biāo)和規(guī)范,都是為“單工作負(fù)載單標(biāo)量”設(shè)計。“韜”定律要求提出考察傳輸時間的新評測指標(biāo)。誰能建立新的評測標(biāo)準(zhǔn)及產(chǎn)業(yè)規(guī)范,誰就能在未來將直接引導(dǎo)全球研發(fā)資本的流向。
此外,需要指出的是,“韜”定律的出現(xiàn),并沒有解決AI數(shù)據(jù)中心巨大的耗能問題,一個運行速度快10倍但功耗大10倍的超級計算節(jié)點沒有違背“韜”定律,但可能會超過電網(wǎng)能夠承擔(dān)的負(fù)荷,這需要新的技術(shù)突破來應(yīng)對能源問題。
對此,華為強(qiáng)調(diào)加強(qiáng)合作的重要性,何庭波表示,沒有任何一家公司能夠獨自解決半導(dǎo)體行業(yè)面臨的挑戰(zhàn)。在“韜”定律設(shè)定的路徑下,華為期待與全球科學(xué)家、工程師及行業(yè)合作伙伴緊密合作,共同推動半導(dǎo)體和電子產(chǎn)業(yè)的持續(xù)發(fā)展。
值得注意的是,相比之前國外廠商和研究機(jī)構(gòu)類似的優(yōu)化方案,華為做到了系統(tǒng)層面的全方位優(yōu)化。“韜”定律建立了跨半導(dǎo)體器件、電路、芯片和系統(tǒng)的多級協(xié)同優(yōu)化機(jī)制,并將傳輸時間作為系統(tǒng)性優(yōu)化目標(biāo),以多種方式提升各級的性能、能效和晶體管密度。
例如美國半導(dǎo)體代工廠SkyWater和斯坦福等高校合作的3D芯片,通過創(chuàng)紀(jì)錄的垂直連接數(shù)量和緊湊布局,將內(nèi)存和計算單元緊密布置,設(shè)計避免了平面芯片中進(jìn)展受限的卡頓。類似的還有美國半導(dǎo)體公司AMD的3D V-Cache技術(shù),該技術(shù)已用在2026年新推出的工作站及消費電子級CPU芯片上,例如5600 3D和PRO系列。英特爾2025年推出的18A工藝芯片,也采用了3D封裝,從而釋放了正面的布線資源,讓邏輯門可以更緊密地排列,本質(zhì)上也是在壓縮信號傳輸?shù)臅r間常數(shù)。
然而,國外廠商多將3D堆疊看成是一種芯片封裝技術(shù),“韜”定律首次將之上升為了“替代摩爾定律的底層物理法則”。華為面對封鎖,再一次走在了全球行業(yè)的前列,而國外企業(yè)目前更多停留在模塊級的3D物理實現(xiàn)上。
對產(chǎn)業(yè)界來說,過去三十年,半導(dǎo)體領(lǐng)域風(fēng)險投資、國家基金、企業(yè)研發(fā)預(yù)算的指揮棒只有一個:先進(jìn)制程節(jié)點。誰掌握3nm,誰就掌握未來。“韜”定律對出現(xiàn)宣告:競爭不再需要永久停留在光刻機(jī)。這對受限于EUV獲取的企業(yè)是戰(zhàn)略突圍,對于全球AI產(chǎn)業(yè),長遠(yuǎn)來看是能夯實根基的重大利好。
“路線圖已經(jīng)明確,未來的挑戰(zhàn)還很多(The roadmap ahead is demanding, but the direction is unambiguous)”,就用華為何庭波論文的最后一句結(jié)束該文。
郭瑞東 | 文
內(nèi)容來源:信睿科技評論
獲取更多 AI時代的科技參考
歡迎點擊下方卡片關(guān)注 信睿科技評論
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.