網易首頁 > 網易號 > 正文 申請入駐

LCA:DeepSeek 長文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

0
分享至



近日,琶洲實驗室、華南理工大學、蔻町(AIGCode)等單位科研團隊聯合提出潛在空間壓縮注意力(Latent-Condensed Attention,LCA),研究成果入選 ACL 2026。

作為面向大語言模型長上下文場景的通用高效推理技術,LCA 突破傳統注意力機制效率瓶頸,以輕量化、無侵入、高性能的架構設計,為長文本大模型工業化部署提供通用解決方案。在 128K 超長上下文場景下,LCA 實現2.5 倍預填充加速、90% KV 緩存縮減、1.8 倍解碼延遲降低,同時保持原有性能。

該技術可通用適配 MiniCPM、Qwen 等不同規模、不同注意力架構的大模型,具備極強的擴展性與落地性,能夠顯著降低長上下文大模型的硬件門檻、推理成本與部署難度,全面提升推理效率與用戶體驗。

目前,LCA 論文與代碼已開源,歡迎學術界與產業界共同推進技術迭代與落地應用。



  • 論文標題:Latent-Condensed Transformer for Efficient Long Context Modeling
  • 論文鏈接:https://arxiv.org/abs/2604.12452
  • 代碼開源:https://github.com/bolixinyu/LCA
  • 作者:Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan
  • 機構:琶洲實驗室、華南理工大學、蔻町(AIGCode)等單位

一、當大模型遇到長文本:兩大痛點待解決

在使用 DeepSeek、Qwen 等大語言模型處理長文檔、進行深度對話時,我們常常遇到兩個令人頭疼的問題:

  • 痛點一:顯存占用太多。模型處理長文本時,需要存儲大量中間信息(KV 緩存,相當于 AI 的「記憶」),導致顯存占用隨文本長度線性增加。處理一篇萬字文檔?可能需要數 GB 顯存!這不僅對硬件要求高,也讓成本直線上升。
  • 痛點二:速度跑不起來。傳統的注意力機制計算量隨文本長度呈平方增長,就像讓一個人同時記住整本書再進行思考:不僅大腦負擔重(顯存占用大),思考速度也會明顯下降(計算復雜度高)。長文本處理變成「耐心測試」。

二、現有方案為何「治標不治本」?

為了應對這些挑戰,先前的研究提出了兩條技術路線:

  • 多頭潛在注意力(MLA):DeepSeek 采用的技術,其將 token 投影到低維潛在空間,顯著減少每個 token 的 KV 緩存大小。
  • 稀疏注意力:通過跳過部分 Attention 計算塊來降低計算復雜度。

然而,現有方案往往「顧此失彼」。MLA 成功省下了顯存,卻未能擺脫計算量隨上下文平方級增長的困境;稀疏注意力雖能跳過冗余計算,卻依賴完整的 Q/K/V 矩陣。如果強行將兩者拼湊,就必須先把 MLA 壓縮的數據「解壓」還原,無異于「先壓縮再解壓」,白白浪費了 MLA 輕量化設計的紅利。

在長上下文高效注意力領域,近期業界也提出了多項優秀方案,如 DeepSeek 發布的稀疏注意力(DSA)和 Kimi 提出的 KDA。但與這些方法相比,LCA 在技術設計上具有三個關鍵差異點:



三、LCA:智能壓縮的新思路



圖 1. LCA 架構示意圖

為了解決上述問題,本文提出潛在空間壓縮注意力(Latent-Condensed Attention,LCA),如圖 1 所示。LCA 的核心思想是:直接在 MLA 的「壓縮空間」中進行信息精簡,而不是先解壓再篩選。

1. 關鍵信息壓縮三步走

  • 第一步:智能分組

將長文本分成多個小組,每個小組 16 個 token。最近 1024 個 token 會完整保留,確保最新信息不丟失細節。

  • 第二步:語義壓縮

采用「智能加權」方法:根據當前查詢的重要性,對組內信息進行加權合并,突出最相關的內容。就像根據考試重點做筆記,重點內容更詳細。具體而言,對于每個分組內的語義潛在向量,LCA 采用加權池化的方式生成一個代表性向量:





  • 第三步:位置錨定(像在書中貼索引標簽)

對于位置鍵向量,選擇每個組中注意力得分最高的 token 作為「位置錨點」:





2. 保留細粒度局部上下文

除了長距離上下文的壓縮外,LCA 還保留一個局部窗口(默認 1024 個 token)的完整潛在向量,確保最近的關鍵信息不被壓縮,維持模型對局部細節的敏感性。

3. 理論保證:長度無關的誤差上界

本文從理論上證明了 LCA 的近似誤差具有與上下文長度無關的均勻上界:





四、實驗效果

1. 效率提升



圖 2. Triton 內核加速效果對比

作者通過 Triton 進行了硬件友好的高效實現,相比 PyTorch 實現,在 64K 上下文能夠實現 24.4 倍加速。



圖 3. 不同上下文長度下的效率表現

在 128K 上下文長度下,高效 LCA 相比原始 MLA 實現了 2.5 倍預填充加速,減少了 90% KV 緩存,每 token 解碼延遲降低 1.8 倍。

2. 長上下文性能保持



長上下文基準測試性能對比

在 LongBench-E、RULER 等長上下文基準測試中,LCA 在獲得顯著效率提升的同時,保持了與原始 MLA 相當的性能。其中 LongBench-E 性能與標準 MLA 幾乎持平,RULER 128K 結果上甚至略有提升。

3. 短上下文任務無損



短上下文標準任務性能對比

在 MMLU、GSM8K、MBPP 等短上下文標準測試中,LCA 的性能與原始 MLA 幾乎相同,表明其壓縮機制不會損害模型的基礎能力。

4. 兼容不同模型規模



MiniCPM3-4B 模型擴展性驗證

LCA 在 MiniCPM3-4B 模型上同樣有效,實現 2.2 倍預填充加速和 93% KV 緩存減少,驗證了其在不同規模模型上的通用性。

5. 適配其他注意力變體



GQA 架構適配驗證

LCA 的設計不依賴于 MLA,可推廣到其他注意力機制。實驗表明,將其適配到分組查詢注意力(GQA)后,在 DeepSeek-R1-Distill-Qwen-7B 模型上仍能實現 3.25 倍推理加速和 93% 緩存減少。

五、實際意義

LCA 為長上下文 LLM 的實際部署提供了重要支持:

  • 減少部署成本:無需增加任何額外參數和模塊,即插即用替換現有模型中的 MLA/GQA 模塊。
  • 降低硬件門檻:減少 90% 的 KV 緩存意味著在相同顯存下可處理數倍長的上下文。
  • 提升響應速度:2.5 倍的預填充加速顯著改善用戶體驗,特別是在需要實時交互的應用中。
  • 保持模型能力:在獲得效率提升的同時,不犧牲模型在各類任務上的性能。

六、總結

LCA 通過直接在潛在空間進行上下文壓縮,巧妙地將 KV 緩存減少與計算復雜度降低統一到一個框架中。其解耦的語義-位置處理策略、理論保證的近似誤差界,以及廣泛的實驗驗證,使其成為長上下文高效建模的一個有力解決方案。這項工作已被 ACL 2026 接收,期待更多研究者與開發者在此基礎上進一步推動長上下文技術的發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2026俄烏戰爭走到懸崖邊,俄羅斯主動求談背后,3大死局鎖死退路

2026俄烏戰爭走到懸崖邊,俄羅斯主動求談背后,3大死局鎖死退路

手里有讀
2026-04-29 10:12:09
日本牽頭,28國在聯合國圍攻中國,中方有仇當場就報,審判已開始

日本牽頭,28國在聯合國圍攻中國,中方有仇當場就報,審判已開始

安珈使者啊
2026-04-29 09:59:28
終于,一位接地氣的專家說了大實話:中國老百姓的負擔太重了

終于,一位接地氣的專家說了大實話:中國老百姓的負擔太重了

巢客HOME
2026-04-28 05:25:03
我們絕不能中計,特朗普正在賭,賭中國不敢強扣美國運臺軍火船!

我們絕不能中計,特朗普正在賭,賭中國不敢強扣美國運臺軍火船!

南山塔的姑娘
2026-04-28 01:21:28
文班7+4!馬刺65-45開拓者,看數據:他就是頭號功臣!

文班7+4!馬刺65-45開拓者,看數據:他就是頭號功臣!

運籌帷幄的籃球
2026-04-29 10:48:20
黃一鳴自曝將起訴王思聰做親子鑒定,為女兒正名 坦言不全是為了

黃一鳴自曝將起訴王思聰做親子鑒定,為女兒正名 坦言不全是為了

小正說娛樂
2026-04-29 03:33:57
親戚一家五口旅游要求接待,咋拒絕?網友:直接表達的態度

親戚一家五口旅游要求接待,咋拒絕?網友:直接表達的態度

帶你感受人間冷暖
2026-04-19 23:11:39
憋了72小時!文旅部掀桌子,12個5A要被摘牌?

憋了72小時!文旅部掀桌子,12個5A要被摘牌?

離離言幾許
2026-04-29 07:17:58
曼聯新帝星加薪續約全談妥,最快本周官宣!曝阿莫林也欣賞其進步

曼聯新帝星加薪續約全談妥,最快本周官宣!曝阿莫林也欣賞其進步

羅米的曼聯博客
2026-04-29 10:24:26
俄軍被迫從馬里的要塞撤出!烏克蘭反攻延伸至非洲

俄軍被迫從馬里的要塞撤出!烏克蘭反攻延伸至非洲

項鵬飛
2026-04-27 18:51:13
美國發芽馬鈴薯將可輸臺?國臺辦:民進黨當局把犧牲民眾生命健康,作為獻媚美國的“投名狀”

美國發芽馬鈴薯將可輸臺?國臺辦:民進黨當局把犧牲民眾生命健康,作為獻媚美國的“投名狀”

紅星新聞
2026-04-29 11:45:18
46歲湯唯挺二胎出席活動,身穿黑色連衣裙加黑色風衣,孕肚明顯

46歲湯唯挺二胎出席活動,身穿黑色連衣裙加黑色風衣,孕肚明顯

君笙的拂兮
2026-04-28 13:19:47
中央定調!2026年養老金調整新方向,工齡低于20年的會多漲嗎?

中央定調!2026年養老金調整新方向,工齡低于20年的會多漲嗎?

社保小達人
2026-04-29 11:45:10
世錦賽:吳宜澤遭瓦菲兩連鞭戰平,霍金斯領先艾倫斬獲晉級先機!

世錦賽:吳宜澤遭瓦菲兩連鞭戰平,霍金斯領先艾倫斬獲晉級先機!

世界體壇觀察家
2026-04-29 00:31:31
為何老人去世后,有2件遺物不能燒?留下就是福,有何道理

為何老人去世后,有2件遺物不能燒?留下就是福,有何道理

老范談史
2026-04-28 15:17:53
反轉!科爾拒千萬年薪,不是嫌少,而是不想陪庫里“浪費時間”?

反轉!科爾拒千萬年薪,不是嫌少,而是不想陪庫里“浪費時間”?

體育大朋說
2026-04-28 10:20:32
兩場英超+足總杯決賽,曼城將在6天內進行三場比賽

兩場英超+足總杯決賽,曼城將在6天內進行三場比賽

懂球帝
2026-04-28 22:24:14
三星Galaxy S27或迎重大改動:相機重新布局 磁吸充電有望上線

三星Galaxy S27或迎重大改動:相機重新布局 磁吸充電有望上線

環球網資訊
2026-04-29 11:42:04
恩德里克20歲當爸爸,妻子曬懷孕照迎接人生新階段

恩德里克20歲當爸爸,妻子曬懷孕照迎接人生新階段

懂球帝
2026-04-28 14:07:06
5月轉運時機正好!這三生肖入夏起財運飆升,有意外之喜臨門!

5月轉運時機正好!這三生肖入夏起財運飆升,有意外之喜臨門!

毅談生肖
2026-04-29 10:48:25
2026-04-29 12:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12886文章數 142639關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

頭條要聞

40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

體育要聞

巴黎5-4拜仁夜:身價1.55億的“足壇笑話”,成了最硬的底牌

娛樂要聞

單依純演唱會再唱“區區三萬天”宣戰

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

時尚
本地
數碼
旅游
軍事航空

劉浩存:明媚中綻放

本地新聞

用青花瓷的方式,打開西溪濕地

數碼要聞

LABUBU冰箱炒到9萬元溢價14倍! 泡泡瑪特首款家電將上市

旅游要聞

“五五購物節”上海佛羅倫薩小鎮解鎖“百花之城”

軍事要聞

德國總理默茨:美國正遭受伊朗領導層的羞辱

無障礙瀏覽 進入關懷版