![]()
本文將基于GPU、HBM和電力成本,反向推算出“人工智能數據中心投資的崩潰點”。
對人工智能數據中心的投資顯然已達到前所未有的水平。微軟、谷歌、亞馬遜和Meta等超大規模數據中心巨頭競相每年投資數千億美元。據TrendForce預測,到2026年,這四大超大規模數據中心巨頭的總投資額將高達7550億美元(圖1)。按1美元兌160日元的匯率計算,這相當于約120.8萬億日元,超過了日本2025財年的國家預算(一般賬戶預算總額約為115萬億日元,數據來源:日本財務省)。
![]()
圖1:前 4 大超大規模數據中心運營商對數據中心的瘋狂資本投資
之所以需要如此巨額的投資,是因為人工智能服務器中使用的AI半導體價格飛漲。以領先的AI半導體制造商NVIDIA的GPU為例,其目前的旗艦架構“Blackwell”中,單顆“B200”GPU的價格在500萬至800萬日元之間,一臺配備8顆B200 GPU的“DGX B200”服務器的價格在4000萬至7000萬日元之間,而基于該服務器的AI機架的價格則高達數億至10億日元(圖2)。由于構建AI數據中心需要大量部署這些AI機架,因此每個超大規模數據中心運營商的投資額都超過1000億至2000億美元。
![]()
圖2:NVIDIA GPU AI 服務器和數據中心(Hopper、Blackwell、Rubin)的定價結構
然而,這已經超出了“增長投資”一詞所能解釋的范疇,而更像是“為了競爭而進行的軍事建設”。
在這種情況下,有一個很少被直接討論的關鍵問題:“這項投資真的可以收回成本嗎?”雖然人工智能熱潮強調的是強勁的需求和技術創新,但對于資本密集型行業來說,最終的問題是投資能否收回成本。
本文將人工智能數據中心的成本結構分解為三個要素:GPU、寬帶內存(HBM)和電力。此外,本文利用微軟和谷歌公開的實際數據,對當前人工智能投資的收入結構進行了定量分析。基于此分析,本文試圖估算“崩潰線”,即投資無法收回的臨界點。
請注意,本分析側重于GPU基礎設施按小時計費帶來的直接收入,并不包括人工智能帶來的間接收入(例如搜索廣告質量提升或SaaS價值增加)。閱讀本文時,請牢記這一點。
直截了當地說,美國超大規模數據中心運營商在人工智能數據中心看似瘋狂的投資很可能已經注定失敗。借用動漫《北斗神拳》中健次郎的一句名言:“你已經死了。”
從微軟和谷歌的案例看投資規模的現實
圖3以量化方式展示了微軟和谷歌的實際投資規模。基于這些數據,它充分說明了微軟和谷歌(Alphabet 的子公司)在數據中心領域的投資規模之龐大令人矚目。
![]()
圖3:微軟和谷歌的實際投資規模
微軟的案例
根據微軟2025財年年度報告,資本支出(不包括固定資產和設備)預計將達到645億美元。此外,該公司表示,投資(主要用于人工智能基礎設施)預計將超過800億美元。
與微軟云業務1680億美元的營收相比,資本支出約占營收的38%,或根據公司聲明約為48%。通常情況下,在穩定的基礎設施業務中,資本支出很少超過營收的30%,因此這一比例極其罕見。
更重要的是,折舊費用已達220億美元。這意味著過去的投資負擔已經開始影響公司的損益,而且這種負擔在未來幾年可能會繼續增加。此外,如上圖1所示,微軟2026年的資本支出預計將達到1900億美元,約為上年的2.4倍。因此,微軟的利潤和虧損預計將大幅下降。
谷歌的案例
與此同時,谷歌母公司Alphabet正在進行更大規模的投資。其2025年的資本支出達到914億美元,其中大部分將用于服務器和數據中心等技術基礎設施。相比之下,谷歌云的年收入約為588億美元,營業利潤約為139億美元。
當然,這914億美元的資本支出不僅支持云計算業務,也支持公司范圍內的基礎設施,例如搜索引擎和人工智能研究平臺。然而,即使其中一半用于云計算服務,也仍然高達約457億美元,約占云計算銷售額的80%,約為營業利潤的3.3倍。即便考慮到這一點,顯然目前的投資規模與傳統的回報模式存在顯著偏差。
此外,與微軟類似,谷歌2026年的整體資本支出預計將達到1800億至1900億美元,約為上一年的2.4至2.5倍。鑒于如此高的資本支出水平,不難想象,收回對云計算業務的投資將變得更加困難。
人工智能數據中心的成本結構
這項巨額投資的原因在于人工智能數據中心獨特的成本結構。首先,我們將估算人工智能數據中心的成本結構和市場范圍(圖4)。
![]()
圖4:AI 數據中心的成本結構和市場范圍
首先,我們來看看GPU。目前的AI基礎設施幾乎完全依賴于NVIDIA的GPU。例如,H100系統的單價估計在2.5萬美元到4萬美元之間,具體價格取決于配置,而一個包含8個H100的服務器機架價格將達到約300萬美元。此外,GB200系列的機架價格預計將上漲至數百萬美元(約350萬美元到550萬美元)。
另一個重要因素是投資對象不是單個GPU,而是“集群單元”。在目前的AI數據中心,每個集群部署數千到數萬個GPU已是司空見慣,單個集群的投資額從數億美元到約7億美元不等。
其次是HBM顯存。在H100和GB200芯片中,每個GPU通常配備6到8個HBM堆棧。HBM的單價會根據代數和合約條款而有所不同,但據稱HBM3/3E的單價在1000美元到1500美元之間。因此,每個GPU的HBM成本約為10000美元,這在GPU價格中占了相當大的比例。
更重要的是供應限制。HBM市場幾乎完全由三家公司主導:SK海力士、三星電子和美光科技。特別是,據稱SK海力士在先進HBM市場占有超過50%的份額。這種供應集中度形成了一種抑制價格下降的結構。
第三,還有功耗問題。人工智能數據中心的功耗比傳統云平臺高出幾個數量級(圖5)。例如,H100 的 TDP(注:熱設計功耗,指冷卻芯片所需的估計最大發熱量)約為 700W,而 GB200 的 TDP 則在 1kW 級別。如果配置一個包含 10,000 個 GPU 的集群,僅 GPU 本身的功耗就將達到 10MW,加上網絡和冷卻等其他功耗,總功耗將達到20-30MW。
![]()
圖5:人工智能數據中心的年度功耗和總成本
回到圖5的解釋,換算成年耗電量,一個20兆瓦的系統需要20兆瓦×24小時×365天≈1.75億千瓦時/年。假設電價為0.14美元/千瓦時,則年電費約為2500萬美元。實際上,考慮到冗余配置和冷卻損耗,成本達到每年3500萬美元左右的情況并不少見。
因此,GPU(資本支出)、HBM(供應限制)和電力(運營支出)這三個要素都會隨著規模的擴大呈指數級增長。結果,人工智能基礎設施的成本仍然居高不下,而且似乎很難像過去那樣通過規模擴張來降低成本。
傳統的恢復模式不可行
傳統云基礎設施受益于規模經濟,這得益于服務器單位成本的持續下降和利用率的提高。摩爾定律和虛擬化技術的進步使得單臺服務器能夠隨著時間的推移“以更低的成本處理更多服務”,這為恢復模型提供了支持。然而,人工智能數據中心的情況則截然不同。圖6展示了其成本結構的前提條件,圖 7則展示了基于這些條件計算出的人工智能數據中心恢復線。
![]()
圖6:AI 數據中心恢復模型計算的假設
![]()
圖7:AI 數據中心投資回收期計算
假設初始投資7億美元用于建設一個擁有1萬個GPU的集群(包括GPU、服務器、網絡和冷卻系統),并出于會計目的將其攤銷在5年內,則每年的攤銷費用為1.4億美元。加上3500萬美元的電力成本和3500萬美元的運營成本(維護、人員成本、數據中心租金等),每年的總成本約為2.1億美元。
由此可知,恢復所需的每個GPU 的計費成本可以用以下公式表示。
所需計費成本= 年度總成本 ÷ (GPU 數量 × 8760 小時 × 正常運行時間)
假設運行率為70%,2.1億美元 ÷ (10,000 × 8,760 小時 × 0.7) ≈ 約 3.43 美元/GPU 小時
換句話說,除非每塊GPU在接近恒定的運行條件下每小時至少產生3.43美元的收益,否則投資無法收回。這是“下限”,而非“平均值”,如果利用率下降,所需的單位成本還會更高。
然而,在實際市場中,生成式人工智能推理的價格正在迅速下降。例如,據報道,大規模語言模型(LLM)的應用程序編程接口(API)價格在2023年至2025年間將降至原價的十分之一以下。此外,開源模型的激增進一步加劇了價格競爭。
關鍵在于,盡管API價格大幅下降,但GPU、HBM和電力成本實際上卻在上漲。此時,傳統的恢復模式已不再可行。人工智能基礎設施正在從“規模越大,優勢越明顯”的模式轉向“規模越大,固定成本風險越高”的模式。那么,恢復會在什么規模下變得不可能呢?讓我們基于微軟和谷歌的真實數據來分析恢復條件
回收線的現實
正如前文所述,微軟每年持續投資600億至800億美元,而到2025年,其折舊費用已超過200億美元。如果微軟試圖用微軟云的運營利潤來支付這220億美元的折舊費用,將會大幅降低其云業務的運營利潤率。另一方面,谷歌云業務的運營利潤為139億美元,而其僅云業務的資本支出就高達約457億美元,這意味著即使按單年計算,其投資額也超過了運營利潤的三倍。
這表明存在結構性問題。人工智能基礎設施必須保持極高的投資回報率才能盈利。然而,現實情況是,人工智能服務的價格正在下降,GPU和HBM的成本仍然很高,而電力成本卻在上升。
在上述三個因素同時作用的環境下,投資回收的條件會迅速惡化。可以說,當前的AI投資已經進入了一種結構性困境:除非同時實現極高的利用率和極高的單價,否則很難收回投資。
投資為何仍需繼續
那么,這種對資本設備的瘋狂投資會放緩嗎?答案是否定的。
微軟剩余履約義務約為3680億美元,表明市場需求仍然超過供應。谷歌也明確表示,計劃進一步擴大資本支出,以滿足人工智能和云計算的需求。關鍵在于,這兩家公司都不是因為預期能夠收回投資才進行投資的。相反,它們是被迫繼續投資的,因為停止投資就意味著在競爭中落后。
當前的人工智能投資已經從追求利潤最大化轉變為力求避免失敗。我們應該將人工智能投資視為已經進入“消耗戰”階段,而非“增長”階段。
只要這種結構持續下去,人工智能熱潮就會繼續擴張,但其內部會累積一種無法挽回的風險形式的“扭曲”。這種扭曲會在某個節點突然顯現出來。這就是下一章將要闡述的“崩潰線”。
探索崩潰線
如上所述,判斷人工智能投資的可持續性不僅需要考慮GPU的數量,還需要考慮HBM、電力以及整個電力基礎設施。本文將以一個擁有10000個GPU的集群為例,定量地展示投資回收在何種規模下將變得不可能——即所謂的“崩潰線”。
從GPU數量倒推,HBM和功耗按如下方式增加:
首先,我們假設一個由10,000 個 GPU 組成的集群。圖8顯示了每個集群所需的年功耗以及所需的等效核電站數量。
![]()
圖8:故障線所需功耗的物理規模
假設每個GPU配備8個HBM堆棧,則所需的HBM總量將達到80,000個堆棧。每個堆棧24GB,總計約為1.92PB。此外,就功耗而言,假設每個GPU的功耗為1kW,而整個設施(包括冷卻、變電站和網絡負載)的功耗約為其兩倍,則一個擁有10,000個GPU的集群的設施負載約為20MW。
年耗電量約為175.2吉瓦時(GWh),除以一座1吉瓦級核電站以90%負荷運行的年發電量,相當于約0.022座反應堆的發電量。反過來說,這意味著一座核電站只能滿足約45個地點的用電需求,如果人工智能集群大規模擴張,不新建核電站將無法滿足需求。
破產線的定義
如上所述,假設一個擁有10,000個GPU的集群,初始投資7億美元,分5年攤銷,年運營成本3500萬美元,年電力成本約為3500萬美元,則年度總成本約為2.1億美元。在這種情況下,盈虧平衡條件可以用第三章中描述的以下公式表示。
所需計費成本= 年度總成本 ÷ (GPU 數量 × 24 小時 × 365 天 × 正常運行時間)
假設利用率為70%,則每 GPU 小時的計費成本約為 3.43 美元。本文將此稱為“臨界點”。換句話說,一旦 AI 服務價格低于此水平,或者利用率低于此假設值,投資就無法收回成本。
需要注意的是,出于會計目的而采用的5年攤銷期相對于NVIDIA GPU的技術周期(通常每兩年左右更新換代一次)而言是一個較為樂觀的假設。在后文所述的崩潰情景③中,我們將分析這種縮短的攤銷期對收入結構的影響。
崩潰突然發生
在典型的基礎設施行業中,利潤率會逐漸下降。然而,在固定成本極高的AI數據中心,一旦利潤率低于某個水平,盈利能力就會迅速惡化,原因有以下三點。
第一,GPU 和 HBM 的初始投資巨大且固定。
第二,電力和冷卻負荷很高,而且不容易降低。
第三,另一方面,由于競爭,所需的計費單位價格(市場價格)將會下降。
因此,人工智能投資的惡化過程并非線性而非線性。換句話說,并非“情況逐漸惡化,然后變得更加艱難”,而是“一旦越過某個臨界點,損失就會突然變得巨大”。這就是破產線的本質。
現在,讓我們定量計算人工智能數據中心發生故障的三種場景。每種場景的共同條件如圖9所示。
![]()
圖9:計算 AI 數據中心故障線的常見條件
三種崩潰情景
圖10顯示了三種故障場景的仿真結果。
![]()
圖10:人工智能數據中心發生故障的三種場景模擬
第一,軟件崩潰。
最有可能出現的情況是人工智能公司之間展開激烈的價格競爭。如果計費價格降至每GPU小時2.90美元,利用率降至65%,則所需計費價格將上漲至3.69美元,導致每年損失約4490萬美元。然而,如圖10所示,雖然現階段并未出現徹底崩潰,但利潤已完全消失,投資復蘇也悄然走向失敗。即使表面需求得以維持,內部資本效率也在急劇下降。
第二,硬件崩潰。
下一個風險是電力、制冷和安裝等實際成本的上漲。如果3美元的計費率和55%的利用率,再加上電價上漲和設施負荷增加,所需的計費率將躍升至4.7美元,導致每年約8170萬美元的損失。圖10 顯示,在此階段,赤字急劇擴大。這是一個典型的例子,說明基礎設施成本而非需求如何摧毀盈利能力。
第三,金融崩潰。
最嚴重的后果是財務上的崩潰。即使計費率為每間3.20美元,入住率為60%,由于折舊期縮短(從5年縮短到4年)以及8%的資本成本,實際計費率也需達到每間5.73美元,導致每年虧損約1.33億美元。因此,如圖 10 底行所示,此階段的損失已達到無法承受的水平(每年 1.33 億美元)。這種情況的本質在于,資本市場在設備發生物理故障之前就認定該項投資“無法收回”。
失效以“非線性”方式發生
圖11顯示了AI 數據中心利用率與所需計費成本之間的關系。需要注意的是,這種關系并非線性關系。
![]()
圖11:AI 數據中心將出現故障的領域
入住率為70% 時,所需單位成本約為 3.43 美元;但當入住率降至 60% 時,所需單位成本將上升至近 4 美元;如果入住率進一步降至 50%,所需單位成本將躍升至近 5 美元。
圖11 所示的“崩潰區域”直觀地展示了這種非線性關系。市場價格區間(2.5 至 3.0 美元:基于 AWS、Azure、Lambda Labs 等平臺的 H100/H200 小時費率范圍)已經跌入該區域深處,目前的 AI 服務價格很可能已從結構上低于盈虧平衡點。
功耗限制:人工智能是一個國家基礎設施問題
更重要的是,人工智能投資的規模化直接依賴于電力基礎設施。如圖12所示,10,000 個 GPU 大約需要 20 兆瓦 (MW) 的電力,100,000 個 GPU 需要 200 兆瓦 (MW) 的電力,而 1,000,000 個 GPU 則需要 2,000 兆瓦 (MW)(= 2 吉瓦 (GW))。這意味著不僅需要擴建數據中心,還需要擴建電力供應基礎設施本身。
![]()
圖12:功耗從 10,000 個 GPU 到 100,000 個 GPU 再到 1,000,000 個 GPU 急劇增加
如果我們把這些電力轉化為核能:
- 10,000 個 GPU 的集群:0.02 個單位
- 100,000 GPU 集群:0.2 個單位
- 百萬GPU集群:2.2個單元
人工智能投資的擴張顯然等同于電力基礎設施的擴張。人工智能數據中心不再僅僅是IT行業的問題,而是已經演變為涉及電力、土地和建設能力的“國家供給能力問題”。
人工智能投資面臨的“崩潰”
目前對人工智能數據中心的投資不僅無利可圖,而且在物理上也難以持續。市場價格下跌、利用率下降、電力成本上漲或資本市場收緊——哪怕其中任何一個因素都可能立即導致數據中心崩潰到臨界點。而且,這種崩潰不會逐漸發生,而是在跨越某個臨界點后突然爆發。這不再僅僅是半導體行業的問題,而是關乎國家電力供應能力的問題。
2026年4月3日,日本首相高市早苗會見了美國大型超大規模數據中心運營商微軟總裁布拉德·史密斯,并對該公司在日本數據中心投資約100億美元表示歡迎。然而,正如本文所示,此類投資不僅無利可圖,而且耗電量巨大,其結構還會給國家基礎設施帶來負擔。在人工智能熱潮的背后,有必要冷靜地評估日本將要付出的代價規模。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.