![]()
? 文 觀察者網(wǎng)心智觀察所
中國AI基建正在從拼規(guī)模走向拼效率,這可能是最關(guān)鍵的一次轉(zhuǎn)身。
摩根大通一份報(bào)告里的一句話,最近在國內(nèi)AI圈子里傳開了。
這份名為《Beyond the Benchmarks》的報(bào)告提到,有數(shù)據(jù)估算中國多達(dá)80%的數(shù)據(jù)中心可能處于閑置狀態(tài)。這個(gè)數(shù)字太扎眼了,很多人讀完就直接跳到結(jié)論:中國的AI算力,是不是建多了?
![]()
但稍微追問一步就會(huì)發(fā)現(xiàn),這個(gè)結(jié)論下得太快了。數(shù)據(jù)中心和AI算力中心不是一回事。前者涵蓋了傳統(tǒng)IDC托管、云計(jì)算、超算中心和近兩年專門為大模型訓(xùn)練建設(shè)的智算中心,把這些完全不同類型的基礎(chǔ)設(shè)施利用率攪在一個(gè)鍋里煮,再端出一個(gè)統(tǒng)一數(shù)字,本身就不嚴(yán)謹(jǐn)。
但這不意味著這個(gè)數(shù)字毫無意義。它更像一根刺,扎在了一個(gè)敏感的位置上。真正值得追問的問題不是中國有沒有算力,而是為什么一邊還在缺高端算力,另一邊已經(jīng)出現(xiàn)了部分智算中心空轉(zhuǎn)。這才是當(dāng)前中國AI基礎(chǔ)設(shè)施最值得討論的矛盾。
到底閑了多少?
《科技日報(bào)》曾報(bào)道過一個(gè)典型案例:西部某城一個(gè)千卡規(guī)模智算中心,上架率不足50%,已上架服務(wù)器實(shí)際利用率不到30%,而年運(yùn)營成本超過3000萬元。
浪潮人工智能研究院的測算更直接:全國智算中心平均算力使用率約30%。路透社也有信源估計(jì)部分?jǐn)?shù)據(jù)中心利用率在20%到30%之間,原因包括地方建設(shè)過快、項(xiàng)目遠(yuǎn)離真實(shí)需求、不同芯片和軟件架構(gòu)難以統(tǒng)一調(diào)度。
這些公開信源指向的趨勢是一致的:部分地方智算中心低利用率已經(jīng)不是傳聞,而是正在被反復(fù)驗(yàn)證的行業(yè)現(xiàn)象。
不過在引用這些數(shù)據(jù)之前,有一件事必須先搞清楚:說利用率低的時(shí)候,說的到底是哪種利用率?業(yè)內(nèi)至少存在五種不同口徑。上架率看的是機(jī)柜里有沒有裝進(jìn)設(shè)備;開機(jī)率看的是設(shè)備裝好之后是不是持續(xù)運(yùn)轉(zhuǎn);GPU利用率看的是芯片跑起來之后負(fù)載高不高;有效訓(xùn)練利用率看的是模型訓(xùn)練的實(shí)際吞吐有多少被通信等待、故障恢復(fù)和checkpoint吞掉了;商業(yè)利用率則看這些算力有沒有變成真實(shí)訂單和現(xiàn)金流。
不同尺子量出來的數(shù)字天然有差異。但無論哪把尺子,它們指向的方向是一致的:中國AI算力的賬面規(guī)模在增長,有效供給遠(yuǎn)沒有跟上。
紙面算力和有效算力之間的鴻溝
地方在宣傳智算中心的時(shí)候喜歡強(qiáng)調(diào)投資額、機(jī)柜數(shù)、卡的數(shù)量和理論峰值算力。這些數(shù)據(jù)當(dāng)然有意義,但它們呈現(xiàn)的只是硬件采購的規(guī)模,不是系統(tǒng)產(chǎn)出的能力。
大模型訓(xùn)練不是簡單的堆卡,它是一項(xiàng)系統(tǒng)工程,對集群互聯(lián)、網(wǎng)絡(luò)帶寬、存儲系統(tǒng)、任務(wù)調(diào)度、框架兼容和通信損耗都有很高要求。一個(gè)1000卡但互聯(lián)帶寬不足、調(diào)度系統(tǒng)粗糙的集群,實(shí)際效率可能還不如一個(gè)200卡的精調(diào)集群。這就是紙面算力和有效算力之間的本質(zhì)差別——前者看理論峰值,后者看實(shí)際吞吐;前者靠投資堆得出來,后者必須靠技術(shù)、生態(tài)和運(yùn)營一步步打磨出來。
去年10月,寧夏銀川閩寧雙智算中心主體結(jié)構(gòu)封頂
所以中國的算力局面不能用簡單的過剩或不足來概括。阿里云、騰訊云、字節(jié)、華為云和三大運(yùn)營商核心AI集群的高端算力仍然緊張,高端芯片、成熟生態(tài)、穩(wěn)定集群仍然是稀缺資源。但大量新建的地方智算中心,尤其是客戶基礎(chǔ)薄弱、技術(shù)選型失準(zhǔn)、軟件生態(tài)欠缺的那一批,低利用率是切實(shí)存在的問題。更準(zhǔn)確的說法是:高質(zhì)量有效算力不足,低效率算力消化不掉。
國產(chǎn)算力的真正瓶頸在生態(tài)
芯片出口管制之下,大量智算中心建設(shè)轉(zhuǎn)向國產(chǎn)GPU和NPU。方向當(dāng)然沒問題,但國產(chǎn)算力遇到的挑戰(zhàn)不能簡單理解為芯片能不能跑模型。很多國產(chǎn)芯片不是不能運(yùn)行,問題在于能不能以接近CUDA生態(tài)的工程效率運(yùn)行。
CUDA在AI計(jì)算領(lǐng)域已是事實(shí)上的工程標(biāo)準(zhǔn)。圍繞它形成了PyTorch、cuDNN、NCCL和一整套開發(fā)工具、優(yōu)化庫與工程師習(xí)慣。這套生態(tài)的價(jià)值不僅僅是性能,更重要的是它把研發(fā)成本、遷移成本、調(diào)試成本和運(yùn)維不確定性壓到了企業(yè)可以接受的水平。
企業(yè)客戶要算一筆現(xiàn)實(shí)賬:模型遷移需要多久,算子優(yōu)化誰來做,框架適配誰負(fù)責(zé),性能損耗誰承擔(dān),工程團(tuán)隊(duì)要重新學(xué)多少東西,總研發(fā)成本會(huì)不會(huì)反而高于省下來的算力成本。芯片裝進(jìn)機(jī)房不等于算力進(jìn)入生產(chǎn)系統(tǒng),服務(wù)器點(diǎn)亮不等于客戶的業(yè)務(wù)跑起來了。硬件上架只是第一步,把它變成企業(yè)愿意長期使用的工程體系,才是真正難啃的骨頭。
這也解釋了為什么有些智算中心賬面上有算力,客戶卻不愿意大規(guī)模采用。不是完全不能用,而是可用和好用之間還隔著一段路。所以國產(chǎn)算力的挑戰(zhàn)不是單點(diǎn)芯片性能,而是整個(gè)工程生態(tài)的挑戰(zhàn)。硬件上架只完成了第一步,真正難的是把這套體系變成開發(fā)者和企業(yè)愿意長期押注的生產(chǎn)工具。
訓(xùn)練和推理的天平正在傾斜
2023到2024年各地爭建智算中心時(shí),市場的想象力錨定在大模型訓(xùn)練上。當(dāng)時(shí)的邏輯很清晰:模型越大、訓(xùn)練越貴,誰有萬卡集群誰就掐住AI產(chǎn)業(yè)入口。
但這個(gè)邏輯正在被修正。頭部公司當(dāng)然還會(huì)繼續(xù)訓(xùn)練更強(qiáng)的模型,變化在于市場開始重新評估訓(xùn)練的投入產(chǎn)出比。DeepSeek之后,行業(yè)越來越清楚地意識到不是所有企業(yè)都需要從零訓(xùn)練超級大模型,大量企業(yè)的真實(shí)需求是調(diào)用、微調(diào)、推理、私有化交付和行業(yè)Agent。
這帶來了一個(gè)結(jié)構(gòu)性的需求轉(zhuǎn)折。訓(xùn)練算力可以集中在電價(jià)低、綠電資源豐富的西部樞紐,但推理算力必須靠近用戶和業(yè)務(wù)場景。工信部2026年發(fā)布的實(shí)施意見明確提出城域算力1毫秒時(shí)延圈和樞紐—區(qū)域—邊緣三級協(xié)同,政策意圖很清楚:AI算力不能只停留在遠(yuǎn)端大集群,未來的方向是訓(xùn)練中心化、推理分布化。
換個(gè)角度來理解這件事:AI正在從一次性研發(fā)投入變成持續(xù)運(yùn)營成本。訓(xùn)練大模型是階段性的,但推理是不間斷的——每天響應(yīng)海量請求消耗的是持續(xù)不斷的token。商業(yè)化最終要落到每百萬token的成本上。過去訓(xùn)練能力決定模型上限,未來推理成本決定商業(yè)化下限。按訓(xùn)練邏輯規(guī)劃的智算中心,正面對一個(gè)尷尬的現(xiàn)實(shí):市場需求已經(jīng)移動(dòng)了,基礎(chǔ)設(shè)施還留在原地。
當(dāng)算力變成地產(chǎn)
很多地方熱衷投資智算中心,因?yàn)樗恢皇羌夹g(shù)項(xiàng)目,更是一種地方產(chǎn)業(yè)資產(chǎn)。智算中心可以作為數(shù)字基礎(chǔ)設(shè)施項(xiàng)目立項(xiàng),進(jìn)入國資平臺的資產(chǎn)負(fù)債表,承接政策性資金和銀行授信,充當(dāng)招商引資名片,未來還可能和REITs、算力券、算力交易掛鉤。
一旦項(xiàng)目的驅(qū)動(dòng)力不完全來自真實(shí)需求,而是由投資、融資、補(bǔ)貼和產(chǎn)業(yè)基金共同推動(dòng),就容易出現(xiàn)一種錯(cuò)位——資產(chǎn)先行,負(fù)載滯后。先把項(xiàng)目建起來,先把指標(biāo)報(bào)上去,先把產(chǎn)業(yè)名片做出來,再慢慢找客戶。
傳統(tǒng)基建或許等得起,但AI算力等不起。硬件折舊快、模型迭代快、芯片更新快、客戶需求變化也快。全國已投運(yùn)和在建規(guī)劃的智算中心項(xiàng)目合計(jì)超過500個(gè),2025年僅公開招投標(biāo)中億元以上的相關(guān)項(xiàng)目就超過222個(gè)。當(dāng)越來越多的地方用基建思路理解算力,算力地產(chǎn)化的風(fēng)險(xiǎn)就在悄然積聚。傳統(tǒng)基建最怕不建,AI基建最怕建錯(cuò)。
從建算力到組織算力
中國AI產(chǎn)業(yè)的核心矛盾正在轉(zhuǎn)換,從有沒有算力,變成算力能不能被有效組織起來。如果各地各建一套系統(tǒng),用不同芯片、接口、云平臺和計(jì)費(fèi)方式,最終就會(huì)形成大量割裂的算力孤島。
這正是全國一體化算力網(wǎng)要解決的問題。2023年底五部門聯(lián)合發(fā)文給出了框架,2026年政府工作報(bào)告首次將算電協(xié)同寫入新基建工程。工信部數(shù)據(jù)顯示全國已建成42個(gè)萬卡級智算集群,8大樞紐節(jié)點(diǎn)智算規(guī)模超過全國總量的80%。但真正需要流動(dòng)的不是算力本身,像水電一樣搬運(yùn)算力在物理上不現(xiàn)實(shí),真正流動(dòng)的是數(shù)據(jù)、任務(wù)、模型和調(diào)度指令。
還有一個(gè)長期被低估的變量:電力。2025年全國算力中心總用電量達(dá)到1700億千瓦時(shí),中國信通院測算高情景下2030年可能超過7000億千瓦時(shí)。沒有穩(wěn)定、低碳、可調(diào)度的電力支撐,算力成本就降不下來,AI應(yīng)用就很難規(guī)模化。算力競爭的下一階段,比的不僅是誰有GPU,也是誰能把算力、網(wǎng)絡(luò)和電力一體組織起來。
未來競爭很可能從地產(chǎn)化競爭轉(zhuǎn)向云化競爭,從比誰有機(jī)房、土地、電價(jià),轉(zhuǎn)向比誰有調(diào)度能力、SLA保障、API生態(tài)和客戶體系。運(yùn)營商和頭部云廠商可能成為最終整合者。地方智算中心如果不能接入更大的調(diào)度網(wǎng)絡(luò),變成標(biāo)準(zhǔn)化、可計(jì)費(fèi)、可調(diào)用的服務(wù)節(jié)點(diǎn),就容易淪為孤島資產(chǎn)。
分水嶺已經(jīng)到了
回到最初那個(gè)數(shù)字。80%閑置不能直接當(dāng)結(jié)論,但它指向的問題是真實(shí)的:中國AI算力建設(shè)已經(jīng)從拼規(guī)模進(jìn)入拼效率的新階段。過去的指標(biāo)是投資額、機(jī)柜數(shù)和萬卡集群數(shù)量,未來真正應(yīng)該看的是GPU利用率、有效訓(xùn)練吞吐、推理時(shí)延、單位token成本和客戶結(jié)構(gòu)是否健康。
未來智算中心會(huì)走向明確的分化。一部分成為國家級算力樞紐;一部分轉(zhuǎn)型為行業(yè)推理節(jié)點(diǎn)和企業(yè)服務(wù)平臺;一部分被整合進(jìn)更大的調(diào)度網(wǎng)絡(luò);還有一部分如果既沒有客戶也沒有生態(tài),可能會(huì)長期低利用直到成為沉沒資產(chǎn)。
這不是中國AI基建的失敗。中國在光伏、新能源車和鋰電池上都走過類似的路徑:產(chǎn)能大干快上、結(jié)構(gòu)性過剩、一輪整合出清,最終留下有效率有生態(tài)的產(chǎn)能。但AI算力不同于光伏面板,它同時(shí)涉及芯片、網(wǎng)絡(luò)、電力、云平臺、軟件生態(tài)和商業(yè)運(yùn)營。中國第一次面對一種需要把制造能力、能源能力、通信能力和軟件能力全部整合在一起的基礎(chǔ)設(shè)施類型。
過去兩年,中國在補(bǔ)算力的硬件缺口。接下來真正要補(bǔ)的,是組織算力的能力。怎么把分散在全國各地的算力、數(shù)據(jù)、模型、網(wǎng)絡(luò)和電力,編織成一個(gè)低成本、高效率、可持續(xù)運(yùn)行的系統(tǒng)。
真正稀缺的,從來不是GPU本身,而是把GPU變成生產(chǎn)力的能力。這可能是中國AI產(chǎn)業(yè)進(jìn)入下一階段的真正分水嶺。
來源|心智觀察所
禁止轉(zhuǎn)載
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.