如果把這輪AI浪潮拆開來看,你會發現一個正在發生的根本性轉移:衡量價值的核心,不再是GPU的算力本身,而是“每單位成本能產出多少Token”。
本篇文章試圖回答一個市場反復糾結的問題—— 為什么每一代GPU,對HBM的需求幾乎注定是指數級增長?更關鍵的是,這種增長為什么不會像過去那樣中途停滯?這也是我長期買多三星和海力士的理論基礎(憑借這個看多的論點,近一個月本人美股的收益率78%)。
![]()
一、一個被忽視的第一性原理
在當前架構下,可以把AI推理的本質簡化為一句話:
Token吞吐量 ≈ HBM容量 × HBM帶寬
這不是一個經驗結論,而是從系統結構推導出來的硬約束。
換句話說: GPU的上限,不再由算力單獨決定,而是被HBM的兩個維度“鎖死”。
二、為什么過去的內存不重要?
要理解今天,必須先回到CPU時代。
在那個階段,整個產業的核心KPI只有一個:性能(performance)。 CPU不斷通過提高頻率、超標量執行(superscalar)、亂序執行等方式去“跑得更快”。
而內存(DDR)在體系中的角色,其實非常邊緣。
為什么?
第一,CPU擅長“掩蓋延遲” 通過多級緩存(L1/L2/L3)、寄存器重命名、超大亂序窗口等機制,把對內存的依賴盡可能隱藏。
第二,絕大多數負載根本不缺帶寬 無論是本地應用還是云端任務,DDR帶寬長期處于“過剩狀態”。
結果就是: 即便內存速度翻倍,對CPU性能的提升往往不到20%。
這直接導致一個現實: 從DDR3到DDR5,技術迭代拉長到十多年,容量增長也極其溫和——十年大約3倍。
本質上,DRAM在CPU時代只是“配角”: 它的升級,對核心KPI幾乎沒有決定性影響。
三、AI時代:KPI被徹底改寫
進入生成式AI時代,一切都變了。
GPU不再圍繞“算力跑分”,而是圍繞兩個指標: ? 單位成本的Token產出(核心商業指標) ? Token生成速度(用戶體驗指標)
這就是所謂的“Token經濟學”。
在這個框架下,系統優化的目標變成一條曲線: 在吞吐量(throughput)和速度(latency)之間,盡可能逼近最優邊界(Pareto frontier)。
NVIDIA提出“AI工廠”的概念,本質就是一件事: 用最低成本,產出最多Token,同時盡可能快。
四、關鍵轉折:從單卡到系統級“Token工廠”
在早期單卡GPU時代(batch size≈1),邏輯很簡單: ? Token吞吐 ≈ HBM帶寬
但進入類似NVL72這種系統架構后,一切復雜起來: ? 72個GPU + 多CPU協同 ? 推理從“單線程”變成“系統級并行”
此時,Token吞吐被拆成兩個變量:
Token吞吐 = 批處理規模(Batch Size) × 單用戶Token速度
五、第一個瓶頸:HBM容量(Size)
為什么Batch Size受限?
因為每一個請求都會占用一塊KV Cache,而這部分數據必須常駐HBM。
隨著Batch增加:
KV Cache線性增長
所有數據必須同時駐留在HBM中
于是得到一個剛性約束:
Batch Size的上限,本質取決于HBM容量
可以把它理解成機場擺渡車:
車廂大小 = HBM容量
一次能拉多少人 = Batch Size
車太小,再多人也得分批運,吞吐上不去。
六、第二個瓶頸:HBM帶寬(Bandwidth)
再看單用戶Token速度。
在大模型的decode階段,每生成一個Token,都需要:
多次讀取權重
高頻訪問KV Cache
而這些操作的瓶頸,不在算力,而在數據搬運速度。
于是得到第二個結論:
Token生成速度 ≈ HBM帶寬
繼續用剛才的比喻:
車門寬度 = 帶寬
門越寬,上車越快
即使車很大(容量高),門太窄(帶寬低),整體效率仍然很差。
七、把兩件事合在一起
現在可以得到一個更清晰的表達:
Token吞吐 = Batch Size × Token速度 ≈ HBM容量 × HBM帶寬
這就是AI推理時代最核心的硬件公式。
也意味著一件非常重要的事:
如果Token吞吐要“每代翻倍”, 那么HBM容量 × 帶寬的乘積,也必須同步翻倍。
八、為什么這一次“周期不會重演”?
市場爭議的核心在這里:
歷史上,DRAM也是周期品—— 需求上漲 → 廠商擴產 → 供給過剩 → 周期下行
那HBM會不會重蹈覆轍?
問題在于,這次的需求結構完全不同。
過去:
DRAM需求來自設備數量增長
屬于“可波動需求”
現在:
HBM需求直接綁定Token吞吐
屬于“系統剛性需求”
只要AI系統還在追求更高吞吐:
GPU必須升級
而GPU的上限被HBM鎖死
這是一種供給側被動驅動的需求,而不是需求側自發波動。
九、軟件會不會改變這一切?
一個常見誤區是: “軟件優化可以降低對HBM的需求。”
這在邏輯上是站不住的。
原因很簡單:
軟件優化 ≠ 可以停止硬件進步
就像CPU一樣:
軟件可以更高效
但CPU每一代仍必須跑分更高
否則就沒有商業價值。
GPU也是同理:
無論軟件如何優化,Token吞吐這個KPI必須持續提升。
只要這個目標不變: ? 對HBM容量的需求不會下降 ? 對HBM帶寬的需求也不會下降
十、真正的變化:HBM走上舞臺中央
在CPU時代,內存是配角。 在AI時代,HBM成為“天花板”。
它不再是錦上添花,而是決定系統上限的核心變量。
甚至可以說:
GPU的競爭,本質正在轉化為HBM能力的競爭。
十一、最后的問題
當需求被“物理規律”鎖定為指數增長后,故事只剩下一個懸念:
過去三十年里,存儲行業反復上演同一個劇本—— 在繁榮中擴產,在擴產中崩盤。
那么這一次——
當HBM成為AI時代的剛性基礎設施, 供給側的三大玩家,還會不會再次把自己拖入周期的深淵?
關注我,我們一起埋伏在大部隊前進的路上。
這里是《邏輯與常識》,用邏輯看市場,用常識做投資。
如果這篇文章對你有幫助,轉發給同樣在投資路上摸索的朋友。
![]()
早七點準時發文
大家好,我是江南君,一個路見不平一聲吼的老boy。
做過監理,行政,金融,設計,干過培訓,超市,餐飲,投資,外貿……目前常住越南。
喜歡寫點文字,思考點人生,管管閑事。
多年后,當后人問我對社會做了哪些貢獻時,我會自豪地說,面對事實,我做了誠實的記錄和評論。
為防失聯,加好友(67932342)
投資認知類文章
10萬+文章
【社會】
【社會】
【社會】
【社會】
【社會】
【社會】
【時事】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.