網易首頁 > 網易號 > 正文申請入駐

當AI的"記憶倉庫"塞不下時，它們是怎么聰明騰地方的？

2026-04-22 22:39:48　來源: 科技行者

北京舉報

分享至

這項由西蒙弗雷澤大學與哈佛大學聯合開展的研究，發表于2026年國際學習表征會議（ICLR 2026），論文編號為arXiv:2604.10539，有興趣深入了解的讀者可以通過該編號查詢完整論文。

每當你用ChatGPT或類似的AI工具進行長對話、讓它寫一篇長文章，或者要求它分析一份長達幾十頁的合同時，AI其實正在悄悄承受一種你看不見的壓力——它的"工作記憶"正在以驚人的速度膨脹。西蒙弗雷澤大學與哈佛大學的研究團隊注意到了這個被大多數人忽視的瓶頸，并為此提出了一套他們稱之為"IceCache"的解決方案。

以一個非常直觀的比喻來理解這個問題：AI在處理長文本時，就像一位速記員坐在一張書桌前，每讀完一個詞，就要在桌上放一張小紙條，記下這個詞的相關信息，以便稍后參考。對話越長，桌上的紙條就越多，很快就會堆滿整張桌子，甚至溢出到地板上。這張"書桌"，在真實的AI系統中，就是GPU顯存——圖形處理器上那塊速度極快但容量有限的高速內存。而那些紙條，專業上叫做"KV緩存"（Key-Value Cache），是AI在處理每一個詞時生成并保存的中間計算結果。

這個KV緩存的麻煩在于，它的大小和文本長度成正比，文本翻倍，緩存就翻倍。當處理幾萬個詞的長文本時，僅僅這個緩存就能把高端AI服務器的顯存完全塞滿，讓系統要么崩潰報錯，要么急劇變慢。這不是理論上的擔憂，而是工程師們每天都在面對的實際挑戰。

IceCache的思路是：既然桌子（顯存）有限，我們就必須智慧地管理那些紙條——把暫時不需要的搬到旁邊的文件柜（CPU內存）里，需要時再取回來。但取回這個動作本身也需要時間，關鍵是如何知道"哪張紙條最有可能被用到"，以及"如何最快地找到并取回它"。這兩個問題，正是這篇論文最核心的貢獻所在。

一、為什么以前的方法總是不夠用

在IceCache出現之前，研究者們已經在努力解決這個問題，但各有局限。一部分方法選擇"永久刪除"那些看起來不重要的紙條，這叫做"驅逐"策略。比如有一種叫H2O的方法，只保留那些在過去被頻繁參考的詞的記錄；還有StreamingLLM，它總是保留最開頭的幾張紙條和最新的幾張紙條，中間的全部丟棄。這些方法速度很快，因為刪掉的東西就真的不見了，不需要取回操作。但代價是，一旦某張被刪掉的紙條在后面突然變得重要，AI就只能憑著模糊的殘缺記憶工作，準確性自然會下降。

另一部分方法更保守，它們把不常用的紙條搬到文件柜（CPU內存）里暫存，而不是徹底丟棄，這叫做"卸載"策略。MagicPiG、OmniKV、PQCache都屬于這一類。它們保留的信息更完整，但問題出在如何決定"搬哪些紙條回書桌"這個環節上。這些方法通常按照紙條在桌上擺放的原始順序來管理，就像圖書館按照書的進館時間而不是書的內容來排列書架一樣。當你要找一本關于某個主題的書時，可能需要翻遍整個書架，順便把大量無關的書也搬下來翻看一遍。

這種低效還帶來另一個問題：在AI進行長文本生成時，比如寫一篇推理分析、做多步驟的數學題或者總結超長報告，需要反復參考分散在文本各處的相關信息。如果緩存的組織方式不合理，每次需要某類信息時，系統要加載大量無關內容，速度慢，準確率也低。研究團隊引用了一項對這些方法的綜合評測，顯示在長文本生成任務上，現有方法的性能下降相當明顯，這是整個領域公認的痛點。

IceCache的思路是從根本上改變紙條的整理方式：不按時間順序放，而是按內容相似性聚在一起放。這個看似簡單的改變，帶來了一系列連鎖反應式的改進。

二、核心創新：按"內容相關性"而非"時間順序"整理記憶

理解IceCache的核心，需要先理解"頁"這個概念。在計算機的內存管理中，就像超市倉庫里的貨架是按固定大小的格子劃分的一樣，內存也被劃分成一個個固定大小的"頁"。每次取用數據，都是以"頁"為單位進行的——你不能只取一頁中的一個詞，必須把整頁都取出來。這套管理方式叫做"PagedAttention"，是業界廣泛使用的成熟技術。

在傳統方法里，AI按照詞的出現順序把紙條填進格子，第一格裝第1到第16個詞，第二格裝第17到第32個詞，以此類推。這種方式整齊，但語義上毫無關聯——一頁里可能同時裝著"蘋果公司的季報"和"蘋果的營養成分"，它們在內容上沒有任何關系，只是碰巧在文本里位置相近。

IceCache做的事情是：在處理文本的初始階段，仔細分析每個詞對應的"key向量"——這是AI內部對每個詞語義信息的數學表達，可以理解為每張紙條上凝練的"內容標簽"——然后把內容標簽相似的紙條歸攏到同一格子里。如果文章里多處都在討論"財務數據"，那些詞的紙條就會被放在同一格。如果多處在討論"產品技術"，相關紙條也聚在一起。

這種按內容聚類的方式，讓IceCache在決定"取哪一格"時精準得多。當AI正在生成關于"財務分析"的內容，需要參考之前的相關背景時，它只需要取出那幾格專門裝著財務信息的頁面，而不是把整個書架都搬出來翻找。檢索命中率大幅提升，無效數據傳輸大幅減少。

三、DCI樹：讓記憶整理既快又能隨時更新

僅僅把相似內容放在一起還不夠，還需要一套高效的機制來管理這些聚類，并在AI持續生成新內容時隨時維護這個結構。為此，研究團隊設計了一個叫做"DCI樹"的層級數據結構，這是整套方案的技術骨架。

DCI樹可以用圖書館的分類體系來理解。頂層是最寬泛的大類，比如"科學"；向下一層分成更細的中類，比如"物理"、"化學"、"生物"；再向下是小類，比如"量子物理"、"有機化學"等；最底層才是具體的書（詞的紙條）。當你要找一本關于"量子糾纏"的書時，不需要從第一本書翻到最后一本，而是先找到"科學"大類，再找到"物理"，再找到"量子物理"，最后在這個小范圍內精確定位。每一層都大幅縮小了搜索范圍。

在技術實現上，這套結構基于一種叫做"多層動態連續索引"（M-DCI）的算法，是研究團隊在前人工作（P-DCI算法）基礎上的擴展。構建樹的時候，首先把所有詞的內容標簽（key向量）做一個數學變換，讓原本計算內積相似度的問題轉化成計算歐幾里得距離的問題，這樣更容易利用各種高效的近鄰搜索算法。然后，通過一種隨機"晉升"機制構建層級：所有詞先放在最底層，然后隨機抽取一部分詞晉升到上一層，再從這部分中隨機抽取更少的詞晉升到再上一層，如此類推，形成一個金字塔結構。每個詞都被分配了一個"父節點"，就是上一層中和它內容最相似的那個詞。這種層級關系形成的聚類，在物理內存上直接對應到一個個"頁"——同一個父節點下的詞，被存儲在同一頁里。

這套結構還有一個關鍵特性：它支持高效的動態更新。當AI生成了新的詞，這個詞的紙條也要被加入到體系中。DCI樹不需要推倒重建，只需要根據新詞的內容標簽，用同樣的隨機晉升機制決定它放在哪一層，然后在該層找到內容最相似的父節點，把它掛上去就好了。這種增量更新的能力，解決了之前方法在長文本生成任務中隨著時間推移性能越來越差的問題——舊方法的組織結構是靜態的，新生成的內容無法有效融入，導致越往后找到相關內容的概率越低。IceCache的樹結構則始終保持語義上的有序性。

四、兩項工程優化：批量傳輸與流水線并行

搞清楚"怎么找到需要的紙條"之后，還有一個同樣重要的工程問題：怎么把紙條從文件柜（CPU內存）搬回書桌（GPU顯存）的速度盡量快。

第一項優化叫做"批量加載"。CPU和GPU之間的數據傳輸通道（PCIe總線）就像一條高速公路，每次啟動一次傳輸都有固定的"過路費"（延遲開銷）。如果每次只搬一張紙條，來回折騰的開銷會把實際傳輸的收益全部吞噬。IceCache的做法是：先把所有需要的紙條集中到一個臨時集中區（CPU預加載緩沖區），打包成一個整體，通過一次高吞吐量的傳輸送到GPU的緩沖區，再從那里散開分配到各自的位置。這就像搬家時不是一件件家具來回跑，而是把所有東西裝進一輛大卡車一次性運過去，大幅提升了傳輸效率。

第二項優化叫做"流水線并行"。在沒有優化的情況下，AI處理文本的流程是串行的：先計算一層，再把這層的緩存傳到CPU，再建立索引，再計算下一層，如此往復，等待時間層層疊加。IceCache重新設計了這個流程，讓不同的操作同時進行。具體來說，當GPU正在計算第i+1層的注意力時，CPU同時在對第i層剛剛傳來的KV數據建立DCI樹索引，而PCIe通道同時在傳輸第i層的數據。三條流水線并行推進，把原本需要串行等待的時間大幅壓縮。研究論文中專門用圖示對比了串行工作流和流水線工作流，后者的端到端處理延遲明顯更短。

五、實驗數據說話：IceCache在多項測試中表現如何

研究團隊在四個不同的語言模型上測試了IceCache，涵蓋了不同規模和不同架構：70億參數量級的Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2、LongChat-7B-v1.5，以及320億參數量級的Qwen3-32B。測試使用了A100和H100兩種高端GPU，軟件環境包括CUDA 12.2和PyTorch 2.4.1。

第一項測試叫做"密鑰檢索"，是一個專門考驗長程記憶的任務：在一段長達十萬個詞的文本里，隨機某個位置藏了一串密碼，AI需要找出來。這是對緩存管理能力最極端的考驗，因為密碼可能藏在文本的任何位置，AI必須保留對全文任意位置的有效訪問。測試了10000詞到100000詞不同長度，以及256、128、64三種不同的緩存預算大小（即最多保留多少個詞的緩存）。結果是：無論哪種預算大小，無論密碼藏在哪個位置，IceCache都實現了100%的檢索準確率。這意味著即便只保留64個詞的緩存預算，IceCache依然能精準找到藏在十萬詞文本里的任何一串密碼。

第二項測試是LongBench，一個業界標準的長文本理解綜合評測，涵蓋了單文檔問答、多文檔問答、文本摘要、少樣本學習、合成任務、代碼生成六大類共十六個子任務。在Llama-3.1-8B模型上，使用256的緩存預算，IceCache平均得分49.0分，而同等預算下最強的競爭對手PQCache只有47.3分。更引人注目的是，即便IceCache只用64的緩存預算（是PQCache預算的四分之一），得分依然達到47.8，超過了用256預算的PQCache。換個角度理解：IceCache用四倍更省的資源，取得了更好的結果。而完整緩存（不做任何壓縮）的得分是49.5，IceCache以256預算距離這個上限只差0.5分，接近于"理論最優"的性能。在Mistral-7B模型上也觀察到類似規律，256預算下IceCache得41.7分，比最強基線MagicPiG（39.1分）高出2.6分。

對于更大規模的Qwen3-32B，64預算下的平均分42.2是完整緩存43.4分的97.2%，256預算下則達到43.1分，保留了99.3%的性能。對于使用標準多頭注意力（而非更先進的分組查詢注意力）的LongChat-7B-v1.5，64預算保留了96.3%，256預算保留了99.4%。這兩項額外測試，驗證了IceCache在不同模型規模和不同架構上都能有效工作。

第三項測試是GSM8K數學推理，用的是"鏈式思維"提示方式：讓AI一步步展示解題思路，而不是直接給答案。這類任務特別考驗長文本生成能力，因為AI需要始終保持對前面推理步驟的一致性和記憶。使用10%的緩存預算，IceCache在Mistral-7B上達到47.4%的準確率，最強基線PQCache是46%，完整緩存是48.2%。IceCache填補了壓縮緩存與完整緩存之間超過90%的性能差距。

在延遲表現方面，研究團隊在36000詞的序列上進行了詳細測量。在第二個詞的生成時間（TT2T，反映初始處理速度）上，IceCache需要7.7秒，引入層間索引復用技巧后的加速版本IceCache(reuse)降到5.9秒，與OmniKV的5.8秒相當，優于PQCache的13.3秒，而精度更高。每個生成詞的平均時間（TPOT）上，IceCache(reuse)是0.06秒，PQCache是0.13秒，OmniKV是0.05秒，IceCache在速度和精度之間的平衡點上表現突出，準確率（相對完整緩存）達到99%，同時速度遠快于PQCache。對TPOT的詳細分解顯示，在總共0.11秒的延遲中，DCI查詢占0.05秒，LLM解碼本身占0.04秒，CPU到GPU的數據傳輸只占0.015秒，其余雜項開銷0.005秒——傳輸開銷被高效的批量加載壓縮到了相當低的水平。

第四項測試在超長上下文場景下進行，使用RULER基準測試，在150000詞、200000詞、250000詞三個極端長度下測試了單針查找、多鍵查找和問答三類任務，使用的模型是Qwen3-4B-Instruct。結果顯示，IceCache和加速版IceCache(reuse)在所有任務和長度下的準確率都與完整緩存持平，甚至在部分任務上略有超出（例如250000詞時多鍵查找，IceCache得93分，完整緩存得91分）。更重要的是，隨著序列長度從150000增長到300000詞，完整緩存的每詞解碼延遲急劇攀升，而IceCache和IceCache(reuse)的延遲增長則平緩得多，展現出更好的可擴展性。

研究團隊還專門在LongGenBench上進行了測試，這是一個專注于長文本生成質量的基準（區別于長文本理解）。使用Llama-3.1-8B配合256預算，IceCache的平均準確率0.331，完整緩存是0.324，PQCache是0.273。IceCache不僅顯著優于PQCache，甚至在這個指標上略微超過了完整緩存，表明語義聚類的組織方式在某些生成任務上確實帶來了質量上的提升。

六、一些值得了解的技術細節

研究團隊將文本中的詞分成三類：最開頭的"錨點詞"（sink tokens，通常是特別受注意力關注的開頭標記）、最新生成的"窗口詞"，以及中間所有其他詞。錨點頁和窗口頁始終保留在GPU上不做卸載，確保AI在生成時對最近的上下文有即時訪問能力。只有中間大量的歷史詞的緩存會被搬到CPU，并由DCI樹管理。

對于使用"分組查詢注意力"（GQA）架構的模型（如Llama和Mistral），多個查詢頭共享同一組key，IceCache會計算同一組內所有查詢頭選出的頁面的并集，統一使用，減少重復加載。

索引的數學變換（TK和TQ公式）是一個經過精心設計的技巧：通過對key向量做歸一化處理，增加一個額外維度，使得原本的內積相似度計算等價于歐幾里得距離計算，從而能夠利用DCI算法高效完成近似最近鄰搜索，避免了暴力遍歷所有詞的高計算代價。

IceCache的流水線設計注意到了一個重要的隱藏機會：DCI樹的構建是CPU密集型操作，而注意力計算是GPU密集型操作，兩者使用的硬件資源不同，天然可以并行。通過精心安排操作順序，研究團隊讓構建索引的CPU操作與GPU的計算完全重疊，使得索引構建的時間開銷幾乎完全被隱藏掉。

說到底，這項研究做的事情，是把一個看似是工程優化的問題，用更聰明的數學結構來解決。以前的方法把效率問題交給更快的傳輸速度或更激進的刪減策略，而IceCache的回答是：在信息還沒丟失之前，先把它們整理成更容易被找到的形式。這個思路的轉變，使得用更少的資源維持更高質量成為可能。

對于普通用戶來說，這意味著未來的AI助手在處理你給它的長篇報告、法律文件、學術論文或者長對話時，可以用更小的內存占用維持更高的準確性，響應速度更快，在資源有限的設備上也能有更好的表現。對于AI服務提供商來說，這意味著同樣的硬件可以同時服務更多用戶，或者在相同成本下處理更長的任務。

歸根結底，讓AI變得更聰明有兩條路：一是讓它的大腦更強，二是讓它更會利用現有的大腦空間。IceCache走的是第二條路，而且走得相當扎實。如果你對技術細節感興趣，可以通過arXiv:2604.10539找到完整論文。

Q&A

Q1：KV緩存是什么，為什么會成為AI的瓶頸？

A：KV緩存是AI在處理文本時生成并保存的中間計算結果，相當于AI的工作記憶。它的問題在于大小和文本長度成正比，文本越長占用的顯存越多。處理幾萬個詞的長文本時，KV緩存可能把整個GPU顯存塞滿，導致系統崩潰或速度急劇下降。這是當前長文本AI推理的核心瓶頸之一。

Q2：IceCache和以前的KV緩存管理方法有什么本質區別？

A：最核心的區別在于組織方式。以前的方法按詞在文本中的原始出現順序存儲緩存，導致語義相關的詞分散在各處，查找時要加載大量無關內容。IceCache通過DCI樹結構，把內容語義相似的詞的緩存聚集在同一個內存頁里，查找時精準命中，減少了無效數據傳輸，用更少的緩存預算維持了更高的準確率。

Q3：IceCache在實際測試中能節省多少顯存，準確率損失大嗎？

A：根據論文的測試結果，IceCache使用僅64個詞的緩存預算（是對比方法的四分之一），在LongBench評測上的得分仍然超過使用256預算的最強競爭對手PQCache。使用256預算時，準確率達到完整緩存的99%以上。在超長文本（25萬詞）場景下，準確率與完整緩存持平，但解碼延遲增長速度遠低于完整緩存方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.