網易首頁 > 網易號 > 正文申請入駐

英偉達MIT出手！華人團隊重磅開源，大模型推理內存暴降10倍

2026-05-14 15:59:29　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導讀】一張普通的24G家用顯卡，竟然能讓一個32B的超大模型一口氣讀完6份長文檔、自動寫出周報？英偉達、MIT、浙大華人研究者聯(lián)合出新招，讓內存消耗直接暴降10倍，不降智也不爆顯存，徹底擊穿硬件天花板。

一張RTX 4090，24GB顯存，跑一個32B參數(shù)的大模型做agent任務。

不做任何KV壓縮，顯存直接爆掉，連模型都跑不起來。

換上TriAttention，模型穩(wěn)穩(wěn)跑起來，順利讀完6份文檔，自動生成了一份完整周報。

這不是社區(qū)大神的魔改，而是一篇來自MIT、英偉達、浙大的聯(lián)合論文。

https://arxiv.org/pdf/2604.04921

核心思路是在pre-RoPE空間里，用Q/K的三角集中度來估計每個KV token到底有多重要，然后只保留真正重要的那些。

打個比方來說，別的方法壓KV cache像是把所有行李都塞進壓縮袋，不管里面是羽絨服還是磚頭一律壓扁。

TriAttention是先翻一遍行李箱，把磚頭扔掉，只給羽絨服打包。

TriAttention demo演示，展示單張RTX 4090上Qwen3-32B完成OpenClaw agent任務的完整過程

作者之一Yukang Chen在X上發(fā)布了這組對比，左邊不壓縮，顯存直接報錯；右邊開了TriAttention，agent一路讀完6份文檔，周報完整輸出。

2.5倍吞吐

10.7倍內存縮減

效果怎么樣？數(shù)字說話。

在AIME25數(shù)學推理任務上，TriAttention在匹配Full Attention準確率（40.8%）的前提下，吞吐量提升了2.5倍。

再看內存：KV cache內存縮減10.7倍。

在AIME25（Qwen3-8B）上的性能權衡。(A) 在相同準確率（40.8%）下，TriAttention的吞吐量比Full Attention高2.5倍。(B) TriAttention在保持與Full Attention相同準確率的同時，將KV緩存內存減少了10.7倍。

注意，這里說的是KV cache memory，不是整機顯存，也不是模型參數(shù)占用的總內存。

但就算只是KV cache這一項，對長序列推理場景來說，KV cache往往就是壓垮顯存的最后一根稻草。

砍掉這一項，就是能跑和不能跑的分界線。

主實驗是在Qwen3-8B上做的，覆蓋AIME24、AIME25、MATH500等任務。

在32K token的生成長度條件下，TriAttention幾乎沒有犧牲精度，但把推理效率拉到了一個新臺階。

單張4090跑通32B大模型

這篇論文附錄中提到了一個真實部署案例。

場景是OpenClaw，一個多輪agent工作流。任務是讀6份markdown文檔，生成一份周報。

模型是Qwen3-32B，用了AWQ INT4量化，跑在一張RTX 4090（24GB）上。

不壓縮KV cache直接跑這個任務？顯存當場爆掉。

長系統(tǒng)提示加上多輪文檔讀取，KV cache膨脹到顯存根本兜不住。

TriAttention接管之后，agent順利讀完所有文檔，生成了完整報告。

模型用的是Qwen3-32B AWQ INT4量化版，不是原始FP16滿血版；跑的是OpenClaw agent工作流，不是通用長文本benchmark。

但它剛好證明了「一個完整的、有實際生產價值的agent任務，可以在消費級硬件上跑通」。

vLLM插件已就位

MLX實驗性起步

TriAttention不只停在論文里。

作者已經在GitHub倉庫中提供了vLLM集成，README明確寫到TriAttention包含一個vLLM插件，并給出了OpenAI兼容API的server mode、Python API以及OpenClaw接入說明。

相比論文中的實驗結果，這屬于倉庫層面的工程化擴展。

這意味著，你不需要改模型架構，不需要重新訓練，只需要掛上這個插件，就能在現(xiàn)有的vLLM推理管線上獲得KV壓縮收益。

在Apple Silicon方向上，官方倉庫里單獨放了一份docs/mlx.md，覆蓋M1到M4全系芯片，基于MLX框架和mlx-lm運行，附帶示例代碼和硬件benchmark。

TriAttention官方倉庫已提供MLX實驗性支持文檔，覆蓋M1-M4芯片https://github.com/WeianMao/triattention/blob/main/docs/mlx.md

不過，官方文檔標題中也標注了這還是實驗性支持，這說明他們已經在早期試水MLX了，但離成熟的Mac本地部署還有距離。

KV壓縮賽道的兩條路線

KV cache壓縮賽道存在兩條路線。

一條是量化派。

Google Research在3月24日發(fā)布了TurboQuant，官方博客中的定位是「在零精度損失下實現(xiàn)極致壓縮」的方案，主打把KV cache和向量搜索的bit數(shù)壓到極低。

Google Research官方博客中LongBench基準測試圖，TurboQuant在LongBench基準測試中，相較于多種壓縮方法，在Llama-3.1-8B-Instruct模型上展現(xiàn)出穩(wěn)健的KV緩存壓縮性能

社區(qū)已經有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。

另一條是選擇性保留派。

TriAttention就是這條路線的新代表，不壓bit，而是直接判斷哪些token的KV值得留、哪些可以扔。

兩條路線的終點其實一樣：讓大模型跑在消費級硬件上，顯存不炸，精度不掉。

但方法論完全不同。

量化是把每個行李都壓扁，選擇性保留是直接減少行李數(shù)量。

理論上，兩者甚至可以疊加使用。

目前還沒有嚴格的同模型、同硬件、同任務的head-to-head對比，所以「誰碾壓誰」還說不了。

但可以確定的是，這兩條路線正在加速向消費級部署推進。

一年前，「本地跑大模型」還是極客圈的行為藝術，跑個7B都要折騰半天。

現(xiàn)在，32B模型在單張消費級卡上完成agent任務，Apple Silicon上的MLX生態(tài)一周一個新倉庫，vLLM插件讓KV壓縮變成「掛上就用」的一鍵方案。

KV cache壓縮這條賽道，正在從論文里的消融實驗，變成每個開發(fā)者都能觸碰到的工程現(xiàn)實。

作者簡介

Weian Mao

Weian Mao

Weian Mao現(xiàn)為MIT CSAIL博士后研究員，博士畢業(yè)于阿德萊德大學AIML，師從沈春華教授。其當前研究聚焦大語言模型，尤其關注推理效率與長上下文推理中的KV cache壓縮；此前也從事過計算機視覺與蛋白質設計等方向研究。

Xi Lin

Xi Lin

Xi Lin是浙江大學計算機科學與技術專業(yè)高年級本科生，研究興趣集中在高效AI的算法—系統(tǒng)協(xié)同設計，尤其關注面向硬件友好的稀疏與量化模塊設計，以及高效推理策略。其工作與高性能計算、機器學習系統(tǒng)等方向密切相關。

Wei Huang

Wei Huang

Wei Huang現(xiàn)為香港大學博士生，研究聚焦Efficient AI與大型視覺/語言模型。

目前，他在NVIDIA Research實習，與Yukang Chen等研究者合作，并在Song Han 指導下開展相關研究，參與了QeRL、LongLive等工作。

參考資料：

https://arxiv.org/abs/2604.04921

https://x.com/yukangchen_/status/2041366586423165152

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

領先于Transformer！

機器之心Pro 2026-05-06 17:01:48
0 跟貼 0
中國九章4.0量子計算機再破世界紀錄，比超算快10的54次方倍

DeepTech深科技 2026-05-14 10:43:56
6 跟貼 6

聯(lián)發(fā)科押注“智能體化”

華爾街見聞官方 2026-05-14 15:45:47
0 跟貼 0

先進封裝是AI時代高性能計算的關鍵推動因素

每日經濟新聞 2026-04-04 04:59:30
0 跟貼 0
“最大硅光客戶”13億美元鎖定產能！英偉達合作商股價暴漲

財聯(lián)社 2026-05-14 11:54:06
0 跟貼 0

PS6還沒定上市時間，索尼先被內存卡住了

固件更新中 2026-05-13 08:58:26
1 跟貼 1

內存正在毀掉一切，所有的AI都要算力

愛范兒 2026-05-13 09:43:34
0 跟貼 0
GTA3塞進PS2的32MB內存，這事現(xiàn)在看還是離譜

隊友祭天法力無邊 2026-05-13 21:20:14
3 跟貼 3

媒體：白宮未讓黃仁勛隨訪旨在向中國釋放政治信號

南風窗 2026-05-14 12:21:15
6 跟貼 6
Switch 2漲價50刀，任天堂說內存太貴了

隊友祭天法力無邊 2026-05-14 09:59:28
1 跟貼 1
PS6定價懸了：索尼因內存危機不敢官宣，Steam Machine同陷僵局

別打我我投降 2026-05-14 10:08:44
1 跟貼 1
Xbox要漲價？內存缺貨把老玩家整不會了

渡川5 2026-05-14 10:18:00
0 跟貼 0
他們站在芯片戰(zhàn)爭的最前線，然后一起跟特朗普來了北京

人間像素 2026-05-14 13:44:50
0 跟貼 0
將多教師沖突轉化為動態(tài)約束，破解多模態(tài)大模型推理對齊難題

機器之心Pro 2026-05-14 13:39:30
0 跟貼 0
英偉達黃仁勛“壓哨”登機訪華

一見財經 2026-05-14 13:07:45
0 跟貼 0
Linux玩家終于站起來了？NVIDIA云游戲這波操作有點意思

晚星歸航2 2026-05-14 10:16:49
2 跟貼 2
美國最厲害的這一招，終于被中國學會了！聽聽楊主任的詳細分析

洛天依 2026-05-11 00:26:58
18 跟貼 18
GeForce NOW六周年：生化危機新作入云，RTX 5080級恐怖體驗

隊友祭天法力無邊 2026-05-14 10:17:26
0 跟貼 0
一條視頻了解為何光通信cpo 不停漲漲不停？

北大研哥 2026-05-12 20:43:29
23 跟貼 23
熊媽媽帶四只幼崽過馬路，網友：嘴里那只一定最調皮

南陽日報 2026-05-13 19:44:30
485 跟貼 485
說好要退休的

智遠同學 2026-05-14 09:03:45
2 跟貼 2
MIT計算學院迎11位新教授：從民主參與到衛(wèi)星遙感的跨界拼圖

科學邊界哦 2026-05-14 10:10:11
0 跟貼 0
偶遇世界首富英偉達老板黃仁勛，到陸家嘴菜市場體驗風土人情

搞怪的秋秋 2026-05-14 10:28:47
1 跟貼 1
MIT"暖心教授"名單出爐：18人入選，學生說了算

歷史的塵埃發(fā) 2026-05-14 10:08:38
0 跟貼 0
美股收盤：光通信、存儲芯片大漲高通、美光科技、英特爾、英偉達創(chuàng)新高

財聯(lián)社 2026-05-13 07:12:43
0 跟貼 0
MIT憑什么能霸榜12個學科第一？

萬物皆可科普啊 2026-05-14 10:06:14
0 跟貼 0
英偉達開源個量子AI

機器之心Pro 2026-04-15 12:05:50
0 跟貼 0
滴普科技趙杰輝：本體大模型，企業(yè)級智能體落地的產品化探索

財聯(lián)社 2026-05-14 11:57:05
0 跟貼 0
師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
3 跟貼 3
4月汽車銷量發(fā)布前十名僅剩一款燃油車

每日經濟新聞 2026-05-13 16:52:04
9293 跟貼 9293
廣汽豐田×地平線合資智駕終于支棱起來了？

引擎YQ 2026-05-13 19:02:15
0 跟貼 0
為了逃避考試，他發(fā)明了最好的壓縮算法，zip的歷史可謂一波三折

量子位 2026-04-29 06:41:21
0 跟貼 0
《低智商犯罪》：紫金陳說悲劇是有共性的，笑點卻每個人不同

澎湃新聞 2026-05-14 12:04:27
0 跟貼 0
全球看中國，靈初智能用10萬小時人類數(shù)據(jù)寫下具身智能的中國答案

機器之心Pro 2026-05-14 12:44:08
0 跟貼 0
這個Harness普通人可用！

機器之心Pro 2026-04-21 15:47:04
0 跟貼 0
港大團隊開源FASTER，讓VLA模型真正實現(xiàn)「即刻響應」

機器之心Pro 2026-05-14 15:10:56
0 跟貼 0
CerebrasIPO：深度綁定OpenAI，以“Fast Tokens”重塑AI芯片市場預期

華爾街見聞官方 2026-05-14 14:43:17
0 跟貼 0
這推理也太硬核了

泠泠剪輯 2026-05-13 17:25:23
1 跟貼 1
金融市場小作文零容忍倆自媒體運營者編造傳播芯片虛假信息遭重罰! 合計賺293元被罰45萬！

國+社區(qū) 2026-05-13 17:13:11
0 跟貼 0
李想自曝第一代理想L9有三大遺憾核心卡在底盤、芯片、電芯上

快科技 2026-05-12 16:57:33
0 跟貼 0

新智元

AI產業(yè)主平臺領航智能+時代

15209文章數(shù) 66867關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

本地

游戲

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數(shù)碼

房產 / 家居

英偉達MIT出手！華人團隊重磅開源，大模型推理內存暴降10倍

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

重慶一棟百年古建筑以399萬公開拍賣 僅限中國人競買

重慶一棟百年古建筑以399萬公開拍賣 僅限中國人競買

登海報！哈登30+8+6創(chuàng)多項紀錄 第8次贏天王山

何九華官宣當爸！全程不提孩子媽

習近平同美國總統(tǒng)特朗普會談

新時代傳統(tǒng)豪華是什么樣？ 上汽奧迪E7X給出了自己的答案

態(tài)度原創(chuàng)

專家揭秘干細胞回輸?shù)陌踩L險

華羅庚競賽題，解法太巧妙了，學霸想不到

用蘇繡的方式，打開江西婺源

索尼緊急撤回！PS5重大功能慘遭下架 原因成謎

馬斯克說會談很順利黃仁勛點贊庫克比耶

重慶一棟百年古建筑以399萬公開拍賣僅限中國人競買

重慶一棟百年古建筑以399萬公開拍賣僅限中國人競買

登海報！哈登30+8+6創(chuàng)多項紀錄第8次贏天王山

新時代傳統(tǒng)豪華是什么樣？上汽奧迪E7X給出了自己的答案

索尼緊急撤回！PS5重大功能慘遭下架原因成謎