網易首頁 > 網易號 > 正文 申請入駐

谷歌TurboQuant力圖突破AI內存瓶頸

0
分享至

高帶寬內存的激增需求和供應鏈約束正在推高AI和HPC基礎設施成本,也推動了系統設計的創新需求。內存已成為當前AI周期的決定性約束之一。這種約束不僅限于硬件的可用性,還影響著現代AI模型的運行方式。


現在,谷歌的研究人員正在解決大語言模型推理中最消耗內存的組件之一:鍵值(KV)緩存。在最近的一篇研究論文中,該公司介紹了TurboQuant,這是一種新的壓縮方法,旨在在不犧牲模型準確性的情況下,減少推理期間KV緩存的內存占用。該方法旨在實現作者描述的壓縮和失真之間的近最優權衡,接近模型數據在不破壞其結構的情況下可以壓縮多少的理論極限。

KV緩存存儲先前token的中間向量表示,以便模型能夠生成響應而無需從頭開始重新計算先前的token。這些向量捕獲了token之間的關系,是注意力機制工作原理的核心,使緩存在長對話或文檔的速度和響應性方面變得至關重要。但這同時也使其成為內存消耗的主要來源。隨著上下文窗口增長到數萬或數十萬token,緩存相應擴展,即使是配置良好的系統也可能會被內存需求迅速壓倒。

谷歌的方法是以非常低的精度壓縮此緩存,同時保持使注意力機制起作用的數學特性。根據該公司的說法,TurboQuant可以將KV緩存內存使用減少大約六倍,在某些情況下將數據表示降低到每個值僅幾位。重要的是,這種壓縮不需要重新訓練模型或在校準數據上進行微調。作者聲稱,它可以在推理時直接應用,對準確性的影響最小。


高壓縮、最小準確性損失和無重訓練要求的結合,是使這項研究值得注意的原因。壓縮技術并不新鮮,量化已被廣泛用于縮小模型權重。但KV緩存壓縮已被證明更加困難。涉及的數據結構是高維的,對失真敏感。小誤差可以通過注意力計算傳遞并降低輸出質量。

TurboQuant通過兩部分方法解決了這個問題。第一步稱為PolarQuant,將向量表示轉換為一種可以以非常低精度更高效壓縮的形式。第二步應用基于Johnson-Lindenstrauss引理的輕量級校正機制,這是一種在保持高維空間中距離的數學技術。這一步驟補償了在壓縮期間引入的失真,有助于保持向量之間的相互關系,注意力機制使用這些關系來確定哪些token最重要。

結果是這個系統實現了比典型方法更高水平的壓縮,而沒有引入通常伴隨低精度的偏差或不穩定性。實際上,這允許更多token同時存儲在內存中,并使相同的工作負載能夠在更少的硬件上運行。

其影響可能不僅限于模型效率。TurboQuant方法可以在推理期間直接應用,不需要重新訓練、校準數據或更改模型架構,這一事實可能使其更容易集成到現有系統中,而無需重新設計模型的構建或服務方式。

該工作還達到了歷史上難以實現的壓縮水平。先前KV緩存壓縮的方法在非常低的比特表示下難以保持穩定性,而TurboQuant在每值約3至3.5比特的比特寬度下保持穩定的性能。


這里仍然存在明顯的限制。結果基于基準評估而非生產規模系統,且該方法僅針對整體內存占用的一部分。模型權重、激活和其他系統開銷保持不變,對高帶寬內存的需求不太可能消失。即便如此,該研究反映了推理時效率的不斷擴大關注。隨著模型規模的持續擴大,像TurboQuant這樣的技術表明,不僅可以新硬件來解決內存的一些壓力,還可以通過更高效地使用推理期間計算的中間表示。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國乒男團輸球登熱搜第一!關鍵戰決定種子簽位 王楚欽復出PK莫雷加德

國乒男團輸球登熱搜第一!關鍵戰決定種子簽位 王楚欽復出PK莫雷加德

桃葉渡春
2026-05-03 11:25:37
李小冉與徐佳寧丁克真相,網友:不是選擇丁克而是難以生育好嗎?

李小冉與徐佳寧丁克真相,網友:不是選擇丁克而是難以生育好嗎?

小娛樂悠悠
2026-05-02 10:45:13
場均23分7板8助,又打破NBA紀錄!41歲詹姆斯,季后賽什么水平?

場均23分7板8助,又打破NBA紀錄!41歲詹姆斯,季后賽什么水平?

老梁體育漫談
2026-05-03 00:03:29
大腦“餓”了竟會變笨?清華大學:每天50微克這種常見維生素,癡呆風險降21%-26%

大腦“餓”了竟會變笨?清華大學:每天50微克這種常見維生素,癡呆風險降21%-26%

梅斯醫學
2026-05-03 07:54:16
炸鍋!ESPN曝熱火驚天交易,梭哈倫納德,萊利這次賭太大了

炸鍋!ESPN曝熱火驚天交易,梭哈倫納德,萊利這次賭太大了

體育大朋說
2026-05-02 15:00:03
因盜播英超且無力歸還違法所得,一盜播團隊面臨額外10年監禁

因盜播英超且無力歸還違法所得,一盜播團隊面臨額外10年監禁

懂球帝
2026-05-02 18:20:09
2026北京車展:113.98萬起!4.0T V8!爆500馬力!全新奧迪SQ8上市!

2026北京車展:113.98萬起!4.0T V8!爆500馬力!全新奧迪SQ8上市!

聊聊車生活
2026-05-03 10:09:48
22歲張本智和麻了!0-3遭世界第10橫掃 多次高調宣稱奪金慘遭打臉

22歲張本智和麻了!0-3遭世界第10橫掃 多次高調宣稱奪金慘遭打臉

風過鄉
2026-05-03 06:35:16
75歲張愛玲死在行軍床上,滿屋是用過的衛生紙,遺囑:不許看遺體

75歲張愛玲死在行軍床上,滿屋是用過的衛生紙,遺囑:不許看遺體

抽象派大師
2026-03-09 15:35:32
失蹤135年!上次出現還是清光緒十一年,2020年浙江山區發現5棵

失蹤135年!上次出現還是清光緒十一年,2020年浙江山區發現5棵

阿訊說天下
2026-05-02 18:03:20
四月一過熟悉的阿森納回來了!3-0富勒姆6分領跑,壓力回歸曼城

四月一過熟悉的阿森納回來了!3-0富勒姆6分領跑,壓力回歸曼城

里芃芃體育
2026-05-03 12:00:22
高盛一季度減持105股!最大減倉81.19%,這些股遭清倉式拋售

高盛一季度減持105股!最大減倉81.19%,這些股遭清倉式拋售

慧眼看世界哈哈
2026-05-03 12:12:17
養蝦大爆炸!蘋果停產廉價版Mac Mini,現價799美元

養蝦大爆炸!蘋果停產廉價版Mac Mini,現價799美元

鞭牛士
2026-05-03 13:25:48
曾經爆火的高端牛奶,連中產都放下了?

曾經爆火的高端牛奶,連中產都放下了?

新浪財經
2026-05-03 09:30:42
豆包又更新了!一鍵生成王炸PPT,10分鐘搞定半天工作量!

豆包又更新了!一鍵生成王炸PPT,10分鐘搞定半天工作量!

秋葉PPT
2026-05-03 08:22:37
隊史首次3-1被翻盤!3名首發合計得0分,馬祖拉不會用人害死綠軍

隊史首次3-1被翻盤!3名首發合計得0分,馬祖拉不會用人害死綠軍

聽我說球
2026-05-03 10:48:33
軍權、財權、外交權一把抓,穆尼爾強勢登頂,巴基斯坦徹底變天了

軍權、財權、外交權一把抓,穆尼爾強勢登頂,巴基斯坦徹底變天了

溫讀史
2026-05-01 04:50:30
馮提莫停播原因公開,患甲狀腺癌晚期,醫生斷言:這輩子別想唱歌

馮提莫停播原因公開,患甲狀腺癌晚期,醫生斷言:這輩子別想唱歌

草莓解說體育
2026-05-03 05:32:06
法國人講述如何一眼區分“中國人”“日本人”“韓國人”的?

法國人講述如何一眼區分“中國人”“日本人”“韓國人”的?

日本物語
2026-03-15 20:34:37
“蘇超”最新積分榜公布:鹽城隊3場皆勝9分領跑,南京隊1勝1負位居第9,鎮江隊2戰全負位居榜尾

“蘇超”最新積分榜公布:鹽城隊3場皆勝9分領跑,南京隊1勝1負位居第9,鎮江隊2戰全負位居榜尾

揚子晚報
2026-05-02 22:12:44
2026-05-03 14:00:49
Ai時代前沿
Ai時代前沿
人工智能新聞動態及應用案例。
1726文章數 512關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

牛彈琴:比網紅還網紅 快80歲的特朗普一晚上發8張圖

頭條要聞

牛彈琴:比網紅還網紅 快80歲的特朗普一晚上發8張圖

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

手機
親子
旅游
公開課
軍事航空

手機要聞

小米13全系電池升級服務上線:容量更大 149元再戰兩年

親子要聞

勞動小能手節日快樂

旅游要聞

昆明藍花楹盛景登上人民日報頭版

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗公布伊方最新談判方案

無障礙瀏覽 進入關懷版