AI推理時代的到來,正在從根本上重塑半導體存儲行業的需求格局。隨著每個問題的平均輸出Token數量以每年超過5倍的速度激增,KV緩存管理與智能體AI部署所帶來的內存需求,已成為AI基礎設施中最具挑戰性、也最具市場潛力的新興領域。
在2026年6月舉行的GTC臺北大會上,英偉達創始人兼首席執行官黃仁勛明確指出,"AI的內存系統將徹底變革存儲系統",并將內存系統列為AI基礎設施中最具挑戰性的部分之一。這一判斷直接指向兩個結構性需求驅動力:一是推理工作負載催生的KV緩存卸載需求,二是智能體AI(Agentic AI)興起帶來的CPU內存需求擴張。
上述趨勢對存儲產業鏈的影響已開始顯現。英偉達相繼推出Dynamo軟件平臺與CMX上下文內存存儲平臺,Arm、Intel、AMD等主要芯片廠商亦在2026年密集發布面向智能體AI的新一代CPU產品,行業正加速從以吞吐量為導向的架構向以低延遲為導向的架構轉型。
推理側擴展:Token爆炸式增長重塑硬件需求
AI推理階段對硬件的要求與訓練階段存在本質差異。
根據英偉達公開數據,自2024年下半年以來,每個問題的平均輸出Token數量以每年超過5倍的速度激增,目前已達約30,000至40,000個Token。這一趨勢表明,行業已進入英偉達"三大縮放定律"中的推理側擴展"思考"階段(Test-time Scaling)。
據TrendForce分析,AI推理對硬件提出三項核心需求:更高的每秒查詢率(QPS)、更長的上下文窗口,以及更多的推理步驟和智能體循環。這三項需求分別從不同維度驅動內存需求的結構性變化,具體體現在模型權重、KV緩存與智能體AI三個層面。
模型權重屬于靜態內存分配,其占用量與模型參數規模直接掛鉤,計算公式為:模型權重總大小 = 參數量 × 每個參數的字節數。隨著模型規模持續擴大,這一靜態占用構成了推理系統內存需求的基礎底座。
KV緩存:動態膨脹催生卸載技術與SSD POD新市場
KV緩存是推理階段內存壓力的核心來源。
KV緩存存儲推理預填充階段生成的鍵值向量,以避免解碼階段的冗余計算,屬于動態內存分配。其總大小由層數、KV頭數、每個頭的維度、序列長度、批處理大小及精度共同決定,隨對話長度和批處理規模的增長呈非線性膨脹。
![]()
在長上下文、高批處理的推理場景下,當GPU的HBM容量不足時,系統將被迫丟棄KV緩存并重新執行預填充計算,導致延遲上升、總擁有成本(TCO)增加。
為解決這一瓶頸,英偉達于2025年3月發布KV緩存卸載軟件Dynamo,將訪問頻率較低的KV緩存卸載至CPU內存和SSD等容量更大、成本更低的存儲層級,確保數據在解碼階段保持可重用性。
與Dynamo配套,英偉達于2026年1月推出CMX上下文內存存儲平臺(CMX Context Memory Storage Platform),由BlueField-4 DPU管理,基于BlueField-4 STX機架構建,采用64顆BlueField-4 DPU管理每機架約9,600 TB的容量,在本地SSD(G3層)與共享存儲(G4層)之間新增G3.5層級的Pod級上下文存儲層。
![]()
值得關注的是,在COMPUTEX 2026上展示的BlueField-4 DPU結構模型中,已配備SK海力士的PEB210 E1.S和PE9010 M.2 SSD樣品。隨著英偉達、谷歌等廠商相繼推出SSD POD平臺,這一細分市場的需求預計將持續攀升。
智能體AI:CPU與GPU比例向1:1重構,LPDRAM需求隨之擴張
智能體AI的規模化部署,正在引發AI服務器架構的另一場深層變革。
在AI智能體工作流中,模型需主動執行規劃、工具調用、決策及代理操作,所有編排、數據路由與子智能體評估任務均由CPU承擔。黃仁勛指出,智能體生活在納秒級的世界中,超低延遲是首要需求,這使得CPU架構的重要性大幅提升。
TrendForce預計,隨著智能體AI部署規模擴大,CPU與GPU的工作負載比例將從傳統的1:4或1:8向約1:1轉變,為CPU市場創造顯著增量空間,并同步帶動CPU內存需求的結構性增長。
英偉達于2026年推出專為智能體AI工作負載設計的Vera CPU,根據原始規格,Vera支持高達1.5 TB的LPDDR5X內存容量,是上一代Grace CPU的三倍。
不過,TrendForce最新調查顯示,英偉達已決定將下一代Vera Rubin超級芯片模塊的SOCAMM內存容量減半,原因在于供應商2027年初步生產計劃中分配給英偉達的LPDRAM產能不足,這一調整并不反映英偉達整體內存需求的下降。
在更廣泛的CPU市場,2026年正成為面向智能體AI的全面產品換代之年。Intel推出Xeon 6+(Clearwater Forest),AMD發布EPYC Venice,Arm推出Arm AGI CPU,Ampere的AmpereOne MX亦預計于年內進入量產。多路競爭格局的形成,將進一步加速CPU內存需求的釋放。
兩大驅動力共振,存儲產業鏈迎來結構性機遇
綜合來看,AI推理正在從兩個相互獨立卻協同共振的維度重塑內存需求版圖。
其一,推理工作負載驅動KV緩存消耗迅速擴大,KV緩存卸載技術將大量數據引流至CPU內存和SSD POD,隨著相關平臺加速落地,這一細分市場的需求可見度持續提升。
其二,智能體AI正將CPU與GPU的工作負載比例推向1:1,為CPU及其配套LPDRAM創造了此前不曾有過的增量市場空間。
對于存儲產業鏈的投資者而言,上述趨勢意味著HBM之外,企業級SSD、LPDRAM及相關DPU配套存儲產品正在成為AI基礎設施投資的新焦點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.