谷歌向內存開戰(zhàn),直接讓存儲巨頭們集體失眠
3月26日消息,谷歌研究院發(fā)布TurboQuant壓縮算法,可將AI推理中的KV緩存壓縮至少6倍,精度零損失。在H100顯卡上實現8倍速度提升。這將使本地AI推理能力大幅提升,支持更大的上下文窗口,并在各類設備上減輕內存壓力。論文將在ICLR 2026正式亮相。
KV緩存是大模型生成文本時,每生成一個新詞都要“回顧”之前所有詞的信息。為避免重復計算,模型會把每一層產生的Key和Value向量臨時存起來,形成一張“速查表”。這張表隨對話長度線性膨脹——上下文從4K擴展到128K時,KV緩存消耗的顯存往往反超模型參數本身,成為推理階段最大的內存瓶頸。
TurboQuant用兩步解決這個問題:先用極坐標量化(PolarQuant)把傳統XYZ坐標換成“距離+角度”的極坐標描述,省掉歸一化常數開銷;再用1比特誤差校正(QJL)抹平壓縮殘留的系統性偏差。全程無需微調和訓練數據,直接將KV緩存壓至3比特,實現無損壓縮。
消息公布后,美股存儲芯片板塊集體下挫:美光科技跌4%,西部數據跌4.4%,閃迪跌6.5%。A股存儲芯片股同樣走低,兆易創(chuàng)新、佰維存儲跌超5%。Cloudflare CEO評價這是“谷歌的DeepSeek時刻”。
網友反應兩極分化。有人調侃:“內存股崩了,內存價格能不能也崩一崩?”也有人冷靜指出:“壓縮算法存在多年,訓練環(huán)節(jié)不受影響,內存價格一時半會恐怕下不來。”還有開發(fā)者開始復現論文:“在RTX 4090上2-bit跑Gemma 3 4B,輸出與未壓縮版逐字符一致。”更有網友驚呼:“這不就是HBO美劇《硅谷》里的Pied Piper嗎?”劇中虛構創(chuàng)業(yè)公司的核心技術就是一種近乎無損的極限壓縮算法。
英偉達同場會議也將推出KVTC壓縮算法,可實現20倍壓縮,精度損失不到1個百分點。兩種技術路線同期亮相,KV緩存優(yōu)化正從研究課題走向生產級基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.