網易首頁 > 網易號 > 正文申請入駐

AI推理如何創造新的內存需求

2026-06-15 20:06:40　來源: 華爾街見聞官方

上海舉報

分享至

AI推理時代的到來，正在從根本上重塑半導體存儲行業的需求格局。隨著每個問題的平均輸出Token數量以每年超過5倍的速度激增，KV緩存管理與智能體AI部署所帶來的內存需求，已成為AI基礎設施中最具挑戰性、也最具市場潛力的新興領域。

在2026年6月舉行的GTC臺北大會上，英偉達創始人兼首席執行官黃仁勛明確指出，"AI的內存系統將徹底變革存儲系統"，并將內存系統列為AI基礎設施中最具挑戰性的部分之一。這一判斷直接指向兩個結構性需求驅動力：一是推理工作負載催生的KV緩存卸載需求，二是智能體AI（Agentic AI）興起帶來的CPU內存需求擴張。

上述趨勢對存儲產業鏈的影響已開始顯現。英偉達相繼推出Dynamo軟件平臺與CMX上下文內存存儲平臺，Arm、Intel、AMD等主要芯片廠商亦在2026年密集發布面向智能體AI的新一代CPU產品，行業正加速從以吞吐量為導向的架構向以低延遲為導向的架構轉型。

推理側擴展：Token爆炸式增長重塑硬件需求

AI推理階段對硬件的要求與訓練階段存在本質差異。

根據英偉達公開數據，自2024年下半年以來，每個問題的平均輸出Token數量以每年超過5倍的速度激增，目前已達約30,000至40,000個Token。這一趨勢表明，行業已進入英偉達"三大縮放定律"中的推理側擴展"思考"階段（Test-time Scaling）。

據TrendForce分析，AI推理對硬件提出三項核心需求：更高的每秒查詢率（QPS）、更長的上下文窗口，以及更多的推理步驟和智能體循環。這三項需求分別從不同維度驅動內存需求的結構性變化，具體體現在模型權重、KV緩存與智能體AI三個層面。

模型權重屬于靜態內存分配，其占用量與模型參數規模直接掛鉤，計算公式為：模型權重總大小 = 參數量 × 每個參數的字節數。隨著模型規模持續擴大，這一靜態占用構成了推理系統內存需求的基礎底座。

KV緩存：動態膨脹催生卸載技術與SSD POD新市場

KV緩存是推理階段內存壓力的核心來源。

KV緩存存儲推理預填充階段生成的鍵值向量，以避免解碼階段的冗余計算，屬于動態內存分配。其總大小由層數、KV頭數、每個頭的維度、序列長度、批處理大小及精度共同決定，隨對話長度和批處理規模的增長呈非線性膨脹。

在長上下文、高批處理的推理場景下，當GPU的HBM容量不足時，系統將被迫丟棄KV緩存并重新執行預填充計算，導致延遲上升、總擁有成本（TCO）增加。

為解決這一瓶頸，英偉達于2025年3月發布KV緩存卸載軟件Dynamo，將訪問頻率較低的KV緩存卸載至CPU內存和SSD等容量更大、成本更低的存儲層級，確保數據在解碼階段保持可重用性。

與Dynamo配套，英偉達于2026年1月推出CMX上下文內存存儲平臺（CMX Context Memory Storage Platform），由BlueField-4 DPU管理，基于BlueField-4 STX機架構建，采用64顆BlueField-4 DPU管理每機架約9,600 TB的容量，在本地SSD（G3層）與共享存儲（G4層）之間新增G3.5層級的Pod級上下文存儲層。

值得關注的是，在COMPUTEX 2026上展示的BlueField-4 DPU結構模型中，已配備SK海力士的PEB210 E1.S和PE9010 M.2 SSD樣品。隨著英偉達、谷歌等廠商相繼推出SSD POD平臺，這一細分市場的需求預計將持續攀升。

智能體AI：CPU與GPU比例向1:1重構，LPDRAM需求隨之擴張

智能體AI的規模化部署，正在引發AI服務器架構的另一場深層變革。

在AI智能體工作流中，模型需主動執行規劃、工具調用、決策及代理操作，所有編排、數據路由與子智能體評估任務均由CPU承擔。黃仁勛指出，智能體生活在納秒級的世界中，超低延遲是首要需求，這使得CPU架構的重要性大幅提升。

TrendForce預計，隨著智能體AI部署規模擴大，CPU與GPU的工作負載比例將從傳統的1:4或1:8向約1:1轉變，為CPU市場創造顯著增量空間，并同步帶動CPU內存需求的結構性增長。

英偉達于2026年推出專為智能體AI工作負載設計的Vera CPU，根據原始規格，Vera支持高達1.5 TB的LPDDR5X內存容量，是上一代Grace CPU的三倍。

不過，TrendForce最新調查顯示，英偉達已決定將下一代Vera Rubin超級芯片模塊的SOCAMM內存容量減半，原因在于供應商2027年初步生產計劃中分配給英偉達的LPDRAM產能不足，這一調整并不反映英偉達整體內存需求的下降。

在更廣泛的CPU市場，2026年正成為面向智能體AI的全面產品換代之年。Intel推出Xeon 6+（Clearwater Forest），AMD發布EPYC Venice，Arm推出Arm AGI CPU，Ampere的AmpereOne MX亦預計于年內進入量產。多路競爭格局的形成，將進一步加速CPU內存需求的釋放。

兩大驅動力共振，存儲產業鏈迎來結構性機遇

綜合來看，AI推理正在從兩個相互獨立卻協同共振的維度重塑內存需求版圖。

其一，推理工作負載驅動KV緩存消耗迅速擴大，KV緩存卸載技術將大量數據引流至CPU內存和SSD POD，隨著相關平臺加速落地，這一細分市場的需求可見度持續提升。

其二，智能體AI正將CPU與GPU的工作負載比例推向1:1，為CPU及其配套LPDRAM創造了此前不曾有過的增量市場空間。

對于存儲產業鏈的投資者而言，上述趨勢意味著HBM之外，企業級SSD、LPDRAM及相關DPU配套存儲產品正在成為AI基礎設施投資的新焦點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.