網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

電費(fèi)只占5%，誰在真正吃掉算力成本？

2026-03-29 12:06:06　來源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報(bào)

分享至

近期，沐曦在行業(yè)分享中披露的一組數(shù)據(jù)中心成本分析圖表，引發(fā)了業(yè)內(nèi)人士的廣泛關(guān)注。

這張圖拆了一座1GW數(shù)據(jù)中心的賬——總擁有成本550億美元，按四年折舊攤下來，GPU芯片占了250億，供電散熱110億，網(wǎng)絡(luò)50億，存儲(chǔ)40億。電費(fèi)呢？27.5億。占比5%。

就這么一張圖，把一個(gè)在圈里流傳了小兩年的“美好敘事”推翻了。之前總有人說，中國(guó)電價(jià)比歐美便宜，AI時(shí)代這就是我們的本錢。大模型那么耗電，電價(jià)低就是持續(xù)優(yōu)勢(shì)。可沐曦這張圖告訴你的卻是另一回事：在超大規(guī)模算力中心的成本結(jié)構(gòu)里，電費(fèi)在整體TCO 中占比很低，對(duì)總成本影響有限。真正的大頭，是你根本繞不開的那塊GPU。

一座550億美元的數(shù)據(jù)中心，錢都花哪兒了

我們先把這個(gè)賬算細(xì)一點(diǎn)。

圖里的550億美元，是基于一座1GW的數(shù)據(jù)中心做的全周期測(cè)算，周期是四年。為什么是四年？因?yàn)镚PU的折舊周期就這么長(zhǎng)，甚至很多互聯(lián)網(wǎng)大廠實(shí)際折舊周期更短——三年甚至兩年半。這不是會(huì)計(jì)上的保守處理，而是技術(shù)迭代的現(xiàn)實(shí)：新一代GPU出來，老一代的單位算力成本和能效比就立刻失去競(jìng)爭(zhēng)力。

在這550億里，GPU采購250億，占比45%。這還只是買芯片的錢。供電和散熱系統(tǒng)110億，占比20%。這部分聽著像是“基礎(chǔ)設(shè)施”，但實(shí)際上一大半成本是被GPU的功耗逼出來的——一顆H100功耗700瓦，B系列下一代直奔1000瓦以上，幾萬張卡堆在一起，供電和散熱系統(tǒng)的復(fù)雜程度遠(yuǎn)超傳統(tǒng)數(shù)據(jù)中心。

網(wǎng)絡(luò)50億，存儲(chǔ)40億。這兩塊加起來90億，占比16%。超大規(guī)模集群里的網(wǎng)絡(luò)，不是咱們家里用的路由器，而是幾百公里光纖、幾十層交換機(jī)構(gòu)成的“毛細(xì)血管網(wǎng)”，成本和復(fù)雜度隨著GPU數(shù)量呈指數(shù)級(jí)增長(zhǎng)。

四大硬件板塊加起來450億，占了總成本的82%。電費(fèi)呢？27.5億，占比5%。其他運(yùn)維成本7.5億，占比不到1.5%。

所以你看，電費(fèi)便宜這件事，在這個(gè)賬本里幾乎可以忽略不計(jì)。你電價(jià)打五折，省下來的錢也就十幾億美元，在550億的總盤子里連個(gè)水花都翻不起來。真正決定你成本高低的，是你用什么GPU、用多少GPU、怎么把這些GPU連成集群、怎么給它們供電散熱——而這些，沒有一樣是靠“便宜”能解決的。

在AI算力的成本方程里，資源稟賦的權(quán)重遠(yuǎn)沒有想象中那么高，真正起決定作用的，是技術(shù)和供應(yīng)鏈。

GPU價(jià)格為什么“降不動(dòng)”

那問題來了：GPU能不能降下來？如果能，是不是成本問題就解決了一大半？

答案是：能降，但短期內(nèi)很難降太多，而且降價(jià)的空間不在中國(guó)手里。

一顆AI芯片的成本構(gòu)成，遠(yuǎn)比一般人想象的要復(fù)雜。先說最直觀的制程。目前旗艦級(jí)AI芯片清一色用4nm或5nm，臺(tái)積電的N4P和N5工藝。流一次片的費(fèi)用是多少？三到五億美元起步。這不是設(shè)計(jì)費(fèi)，是實(shí)實(shí)在在給代工廠的錢。而且這個(gè)成本是沉沒成本——你流片失敗了，錢就沒了；流片成功了，良率爬坡還需要幾個(gè)季度。

然后是HBM（高帶寬內(nèi)存）。一顆H100配80GB HBM3，光內(nèi)存的成本就占到芯片總成本的40%以上。HBM這個(gè)市場(chǎng)有多集中？海力士一家占了大半，三星緊隨其后，美光在后面追。HBM的產(chǎn)能擴(kuò)張速度遠(yuǎn)遠(yuǎn)跟不上AI芯片的需求，所以這兩年HBM一直在漲價(jià)。你GPU設(shè)計(jì)得再好，HBM拿不到貨或者拿貨貴，整顆芯片的成本就降不下來。

還有先進(jìn)封裝。現(xiàn)在AI芯片幾乎都用CoWoS，這個(gè)技術(shù)被臺(tái)積電牢牢握在手里。CoWoS產(chǎn)能的緊張程度，過去兩年是整個(gè)AI芯片供應(yīng)鏈的最大瓶頸。臺(tái)積電擴(kuò)產(chǎn)能的速度，直接決定了英偉達(dá)、AMD、以及所有自研AI芯片廠商的出貨節(jié)奏。

這三個(gè)環(huán)節(jié)——先進(jìn)制程、HBM、先進(jìn)封裝——加起來，占據(jù)了AI芯片BOM成本的大頭，而且每一個(gè)環(huán)節(jié)都被極少數(shù)供應(yīng)商壟斷。本土的GPU設(shè)計(jì)公司，即使設(shè)計(jì)能力追上了，也要面對(duì)同樣的供應(yīng)鏈現(xiàn)實(shí)。流片要找臺(tái)積電或三星（或者國(guó)內(nèi)尚在追趕的先進(jìn)制程產(chǎn)線），HBM目前基本依賴韓國(guó)廠商，先進(jìn)封裝也是臺(tái)積電的天下。這意味著，國(guó)產(chǎn)GPU的物料成本，在一段時(shí)間內(nèi)很難比英偉達(dá)低，甚至可能因?yàn)椴少徚啃　⒆h價(jià)能力弱而更高。

更關(guān)鍵的是，英偉達(dá)的GPU不僅僅是一顆芯片，而是一個(gè)完整的系統(tǒng)。從NVLink互聯(lián)到InfiniBand網(wǎng)絡(luò)，從CUDA軟件棧到整個(gè)開發(fā)者生態(tài)，英偉達(dá)用了十幾年時(shí)間構(gòu)建了一套“軟硬一體”的壁壘。你買英偉達(dá)的GPU，花的錢里很大一部分買的是“確定性”——確定能用、確定性能達(dá)標(biāo)、確定能快速部署。這個(gè)“確定性”的溢價(jià)，在初期是很難避免的。

窗口期來了，但挑戰(zhàn)更大

那國(guó)產(chǎn)GPU怎么辦？是不是就沒機(jī)會(huì)了？

恰恰相反。2025年到2026年這個(gè)時(shí)間窗口，可能是國(guó)產(chǎn)GPU這幾年來最重要的機(jī)遇期。原因很簡(jiǎn)單：美國(guó)對(duì)華出口管制在不斷加碼。

這種壓力，客觀上給國(guó)產(chǎn)GPU打開了一個(gè)“被迫導(dǎo)入”的窗口。過去，國(guó)內(nèi)的AI公司選擇英偉達(dá)是出于性能和生態(tài)的最優(yōu)解；現(xiàn)在，這個(gè)最優(yōu)解正在被人為切斷，國(guó)產(chǎn)GPU從“備選”變成了“必選”。

我們看到的是，2025年下半年以來，國(guó)內(nèi)幾家頭部互聯(lián)網(wǎng)公司和運(yùn)營(yíng)商都在加速部署國(guó)產(chǎn)算力集群。華為昇騰的910B和后續(xù)型號(hào)在一些場(chǎng)景下已經(jīng)開始規(guī)模化落地；沐曦、壁仞、天數(shù)智芯等公司也在積極推動(dòng)產(chǎn)品進(jìn)入實(shí)際生產(chǎn)環(huán)境；百度昆侖、阿里平頭哥的自研芯片也在內(nèi)部大規(guī)模應(yīng)用。

但挑戰(zhàn)同樣清晰。

第一是性能差距。國(guó)產(chǎn)GPU在單卡算力上正在快速追趕，但在集群效率、互聯(lián)帶寬、軟件棧成熟度方面，與英偉達(dá)仍有差距。一個(gè)3000卡的國(guó)產(chǎn)集群，實(shí)際有效算力可能只有同樣規(guī)模英偉達(dá)集群的60%-70%。這意味著，完成同樣的訓(xùn)練任務(wù)，需要更多的卡、更長(zhǎng)的周期、更復(fù)雜的并行優(yōu)化——這些最終都會(huì)轉(zhuǎn)化為成本。

第二是軟件生態(tài)的“隱形門檻”。CUDA經(jīng)過十幾年積累，已經(jīng)形成了一個(gè)龐大的開發(fā)者生態(tài)。算法工程師從學(xué)校里學(xué)的就是CUDA，開源社區(qū)的模型代碼默認(rèn)跑在CUDA上，各種算子庫、調(diào)優(yōu)工具、分布式框架都以CUDA為基準(zhǔn)。國(guó)產(chǎn)GPU廠商現(xiàn)在都要做自己的軟件棧——華為有CANN，沐曦有MXMACA，壁仞有BIRENSUPA——但生態(tài)建設(shè)需要時(shí)間和投入，而且需要用戶愿意“多走一步”。

第三是供應(yīng)鏈的“天花板”。國(guó)產(chǎn)GPU的制造目前主要依賴國(guó)內(nèi)先進(jìn)制程產(chǎn)線，而國(guó)內(nèi)產(chǎn)線在產(chǎn)能、良率、成熟度方面與臺(tái)積電還有差距。HBM方面，國(guó)內(nèi)目前還沒有能夠量產(chǎn)HBM2E以上產(chǎn)品的廠商，這一塊短期內(nèi)仍然依賴韓國(guó)供應(yīng)商。這意味著，即使國(guó)產(chǎn)GPU設(shè)計(jì)上去了，供應(yīng)鏈的自主可控程度仍然是有限的。

回到沐曦那張成本拆解圖，其實(shí)還有一個(gè)隱藏的信息：成本優(yōu)化的空間，不僅僅在GPU本身。供電散熱占110億，占比20%。如果能把這部分壓縮30%，那就是33億美元的節(jié)省——比電費(fèi)總額還多。怎么做？液冷是目前最確定的路徑。

傳統(tǒng)風(fēng)冷數(shù)據(jù)中心PUE在1.4-1.5之間，液冷可以做到1.1以下。這意味著不僅電費(fèi)降低，更重要的是供配電系統(tǒng)和散熱系統(tǒng)的初始投資可以大幅縮減。隨著GPU功耗突破1000瓦，風(fēng)冷已經(jīng)接近物理極限，液冷正在從“可選”變成“必選”。2025年下半年以來，國(guó)內(nèi)幾大運(yùn)營(yíng)商和云廠商新建的智算中心，液冷方案的滲透率明顯提升。這個(gè)趨勢(shì)的直接結(jié)果就是，供電散熱在TCO中的占比有望從20%降至15%甚至更低。

網(wǎng)絡(luò)占50億，占比9%。超大規(guī)模集群中，網(wǎng)絡(luò)成本隨著GPU數(shù)量增加而超線性增長(zhǎng)。為什么？因?yàn)镚PU之間需要高速互聯(lián)，而傳統(tǒng)的以太網(wǎng)在解決“大象流”和“多打一”問題上的效率不高。英偉達(dá)的NVLink和InfiniBand之所以能形成壁壘，很大程度上就是因?yàn)樗鼈冊(cè)诩夯ヂ?lián)上的優(yōu)勢(shì)。但2025年，一個(gè)值得關(guān)注的趨勢(shì)是，基于以太網(wǎng)的超大規(guī)模互聯(lián)方案正在成熟，Ultra Ethernet Consortium（UEC）的推進(jìn)讓業(yè)界看到了降低網(wǎng)絡(luò)成本的希望。如果這一路徑走通，網(wǎng)絡(luò)成本在TCO中的占比有望進(jìn)一步壓縮。

還有存儲(chǔ)占40億，占比7%。AI訓(xùn)練對(duì)存儲(chǔ)的要求是海量小文件讀寫和高帶寬吞吐，傳統(tǒng)的分布式文件系統(tǒng)在這種場(chǎng)景下效率不高。2025年以來，國(guó)內(nèi)幾家存儲(chǔ)廠商在AI原生存儲(chǔ)上的探索值得關(guān)注——通過軟硬協(xié)同優(yōu)化，可以在同等性能下降低存儲(chǔ)節(jié)點(diǎn)的配置需求，從而壓縮成本。

但這些系統(tǒng)級(jí)的優(yōu)化，有一個(gè)共同的底層邏輯：它們都需要對(duì)GPU集群有深入的理解和掌控能力。不是簡(jiǎn)單地買一堆GPU堆在一起，而是從芯片到系統(tǒng)、從硬件到軟件的垂直整合。

這正是為什么我們看到，無論是英偉達(dá)還是谷歌、亞馬遜，都在往“云-芯-端”一體化的方向走。谷歌的TPU從一開始就是為自家的深度學(xué)習(xí)框架TensorFlow設(shè)計(jì)的；亞馬遜的Trainium和Inferentia深度綁定AWS的服務(wù)；微軟雖然大量采購英偉達(dá)的GPU，但同時(shí)也在自研芯片，并與英偉達(dá)在系統(tǒng)層面深度合作。

中國(guó)的情況也類似。華為昇騰的優(yōu)勢(shì)之一，就是它同時(shí)擁有芯片設(shè)計(jì)能力和通信技術(shù)積累，能夠在芯片互聯(lián)和集群組網(wǎng)層面做深度優(yōu)化。阿里平頭哥、百度昆侖與各自的云業(yè)務(wù)深度協(xié)同，也是同樣的邏輯。

沒有捷徑可走

回看那張圖，它的價(jià)值其實(shí)不只是拆解了成本結(jié)構(gòu)，更是拆解了一種思維慣性。

“靠電價(jià)優(yōu)勢(shì)就能在 AI 算力賽道實(shí)現(xiàn)突破”——這個(gè)說法之所以有市場(chǎng)，是因?yàn)樗弦环N“資源換優(yōu)勢(shì)”的舊邏輯。在過去的一些產(chǎn)業(yè)里，確實(shí)靠資源稟賦實(shí)現(xiàn)了追趕。但AI算力這個(gè)賽道，本質(zhì)上是一個(gè)技術(shù)密集型、資本密集型、系統(tǒng)密集型的產(chǎn)業(yè)，資源稟賦的權(quán)重被大幅稀釋了。

真正的競(jìng)爭(zhēng)優(yōu)勢(shì)來自哪里？來自對(duì)GPU核心技術(shù)的突破能力，來自對(duì)先進(jìn)封裝和HBM等關(guān)鍵環(huán)節(jié)的供應(yīng)鏈掌控力，來自軟件生態(tài)的長(zhǎng)期積累，來自系統(tǒng)級(jí)架構(gòu)的創(chuàng)新能力，也來自商業(yè)模式和運(yùn)營(yíng)效率的持續(xù)進(jìn)化。

這些，沒有一樣是容易的，也沒有一樣是靠“便宜”能換來的。

過去兩三年，國(guó)內(nèi)智算中心建設(shè)發(fā)展迅速，不少項(xiàng)目在投資思路上延續(xù)了傳統(tǒng)IDC的模式——以園區(qū)建設(shè)、硬件部署、算力租賃為核心。但AI算力與傳統(tǒng)IDC的商業(yè)邏輯存在明顯差異：GPU硬件迭代快、折舊周期短，項(xiàng)目收益高度依賴算力利用率。如果僅將GPU作為標(biāo)準(zhǔn)化租賃資源，缺乏底層算法優(yōu)化、集群調(diào)度與運(yùn)營(yíng)能力，高昂的硬件投入可能難以有效轉(zhuǎn)化為持續(xù)穩(wěn)定的收益，也會(huì)帶來較大的資產(chǎn)壓力。

好在，產(chǎn)業(yè)界正在回歸理性。2025年下半年以來，我們看到的是，無論是互聯(lián)網(wǎng)大廠還是運(yùn)營(yíng)商，在算力投資上都更加務(wù)實(shí)——不再是單純的“堆卡”，而是更關(guān)注實(shí)際可用的有效算力，更關(guān)注單位算力的成本，更關(guān)注軟硬協(xié)同的優(yōu)化空間。

沒有捷徑可走。這句話聽起來老套，但在AI算力這個(gè)賽道上，它依然是殘酷而真實(shí)的底層邏輯。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.