无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

英偉達MIT出手!華人團隊重磅開源,大模型推理內存暴降10倍

0
分享至


新智元報道

編輯:元宇

【新智元導讀】一張普通的24G家用顯卡,竟然能讓一個32B的超大模型一口氣讀完6份長文檔、自動寫出周報?英偉達、MIT、浙大華人研究者聯(lián)合出新招,讓內存消耗直接暴降10倍,不降智也不爆顯存,徹底擊穿硬件天花板。

一張RTX 4090,24GB顯存,跑一個32B參數(shù)的大模型做agent任務。

不做任何KV壓縮,顯存直接爆掉,連模型都跑不起來。

換上TriAttention,模型穩(wěn)穩(wěn)跑起來,順利讀完6份文檔,自動生成了一份完整周報。

這不是社區(qū)大神的魔改,而是一篇來自MIT、英偉達、浙大的聯(lián)合論文。


https://arxiv.org/pdf/2604.04921

核心思路是在pre-RoPE空間里,用Q/K的三角集中度來估計每個KV token到底有多重要,然后只保留真正重要的那些。

打個比方來說,別的方法壓KV cache像是把所有行李都塞進壓縮袋,不管里面是羽絨服還是磚頭一律壓扁。

TriAttention是先翻一遍行李箱,把磚頭扔掉,只給羽絨服打包。

TriAttention demo演示,展示單張RTX 4090上Qwen3-32B完成OpenClaw agent任務的完整過程

作者之一Yukang Chen在X上發(fā)布了這組對比,左邊不壓縮,顯存直接報錯;右邊開了TriAttention,agent一路讀完6份文檔,周報完整輸出。


2.5倍吞吐

10.7倍內存縮減

效果怎么樣?數(shù)字說話。

在AIME25數(shù)學推理任務上,TriAttention在匹配Full Attention準確率(40.8%)的前提下,吞吐量提升了2.5倍。

再看內存:KV cache內存縮減10.7倍。


在AIME25(Qwen3-8B)上的性能權衡。(A) 在相同準確率(40.8%)下,TriAttention的吞吐量比Full Attention高2.5倍。(B) TriAttention在保持與Full Attention相同準確率的同時,將KV緩存內存減少了10.7倍。

注意,這里說的是KV cache memory,不是整機顯存,也不是模型參數(shù)占用的總內存。

但就算只是KV cache這一項,對長序列推理場景來說,KV cache往往就是壓垮顯存的最后一根稻草。

砍掉這一項,就是能跑和不能跑的分界線。

主實驗是在Qwen3-8B上做的,覆蓋AIME24、AIME25、MATH500等任務。

在32K token的生成長度條件下,TriAttention幾乎沒有犧牲精度,但把推理效率拉到了一個新臺階。

單張4090跑通32B大模型

這篇論文附錄中提到了一個真實部署案例。

場景是OpenClaw,一個多輪agent工作流。任務是讀6份markdown文檔,生成一份周報。

模型是Qwen3-32B,用了AWQ INT4量化,跑在一張RTX 4090(24GB)上。

不壓縮KV cache直接跑這個任務?顯存當場爆掉。

長系統(tǒng)提示加上多輪文檔讀取,KV cache膨脹到顯存根本兜不住。

TriAttention接管之后,agent順利讀完所有文檔,生成了完整報告。

模型用的是Qwen3-32B AWQ INT4量化版,不是原始FP16滿血版;跑的是OpenClaw agent工作流,不是通用長文本benchmark。

但它剛好證明了「一個完整的、有實際生產價值的agent任務,可以在消費級硬件上跑通」。

vLLM插件已就位

MLX實驗性起步

TriAttention不只停在論文里。

作者已經在GitHub倉庫中提供了vLLM集成,README明確寫到TriAttention包含一個vLLM插件,并給出了OpenAI兼容API的server mode、Python API以及OpenClaw接入說明。

相比論文中的實驗結果,這屬于倉庫層面的工程化擴展。

這意味著,你不需要改模型架構,不需要重新訓練,只需要掛上這個插件,就能在現(xiàn)有的vLLM推理管線上獲得KV壓縮收益。

在Apple Silicon方向上,官方倉庫里單獨放了一份docs/mlx.md,覆蓋M1到M4全系芯片,基于MLX框架和mlx-lm運行,附帶示例代碼和硬件benchmark。


TriAttention官方倉庫已提供MLX實驗性支持文檔,覆蓋M1-M4芯片https://github.com/WeianMao/triattention/blob/main/docs/mlx.md

不過,官方文檔標題中也標注了這還是實驗性支持,這說明他們已經在早期試水MLX了,但離成熟的Mac本地部署還有距離。

KV壓縮賽道的兩條路線

KV cache壓縮賽道存在兩條路線。

一條是量化派。

Google Research在3月24日發(fā)布了TurboQuant,官方博客中的定位是「在零精度損失下實現(xiàn)極致壓縮」的方案,主打把KV cache和向量搜索的bit數(shù)壓到極低。


Google Research官方博客中LongBench基準測試圖,TurboQuant在LongBench基準測試中,相較于多種壓縮方法,在Llama-3.1-8B-Instruct模型上展現(xiàn)出穩(wěn)健的KV緩存壓縮性能

社區(qū)已經有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。

另一條是選擇性保留派。

TriAttention就是這條路線的新代表,不壓bit,而是直接判斷哪些token的KV值得留、哪些可以扔。

兩條路線的終點其實一樣:讓大模型跑在消費級硬件上,顯存不炸,精度不掉。

但方法論完全不同。

量化是把每個行李都壓扁,選擇性保留是直接減少行李數(shù)量。

理論上,兩者甚至可以疊加使用。

目前還沒有嚴格的同模型、同硬件、同任務的head-to-head對比,所以「誰碾壓誰」還說不了。

但可以確定的是,這兩條路線正在加速向消費級部署推進。

一年前,「本地跑大模型」還是極客圈的行為藝術,跑個7B都要折騰半天。

現(xiàn)在,32B模型在單張消費級卡上完成agent任務,Apple Silicon上的MLX生態(tài)一周一個新倉庫,vLLM插件讓KV壓縮變成「掛上就用」的一鍵方案。

KV cache壓縮這條賽道,正在從論文里的消融實驗,變成每個開發(fā)者都能觸碰到的工程現(xiàn)實。

作者簡介

Weian Mao


Weian Mao

Weian Mao現(xiàn)為MIT CSAIL博士后研究員,博士畢業(yè)于阿德萊德大學AIML,師從沈春華教授。其當前研究聚焦大語言模型,尤其關注推理效率與長上下文推理中的KV cache壓縮;此前也從事過計算機視覺與蛋白質設計等方向研究。

Xi Lin


Xi Lin

Xi Lin是浙江大學計算機科學與技術專業(yè)高年級本科生,研究興趣集中在高效AI的算法—系統(tǒng)協(xié)同設計,尤其關注面向硬件友好的稀疏與量化模塊設計,以及高效推理策略。其工作與高性能計算、機器學習系統(tǒng)等方向密切相關。

Wei Huang


Wei Huang

Wei Huang現(xiàn)為香港大學博士生,研究聚焦Efficient AI與大型視覺/語言模型。

目前,他在NVIDIA Research實習,與Yukang Chen等研究者合作,并在Song Han 指導下開展相關研究,參與了QeRL、LongLive等工作。

參考資料:

https://arxiv.org/abs/2604.04921

https://x.com/yukangchen_/status/2041366586423165152

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
收評|我的天啊!A股全線跳水!怎么了?

收評|我的天啊!A股全線跳水!怎么了?

龍行天下虎
2026-05-14 15:13:45
快訊丨中美元首會談結束

快訊丨中美元首會談結束

新京報
2026-05-14 12:59:13
柳巖持股光線傳媒

柳巖持股光線傳媒

雷達財經
2026-05-14 10:13:50
網傳某地事業(yè)編欠薪10個月,社保斷繳已鬧上百姓呼聲!

網傳某地事業(yè)編欠薪10個月,社保斷繳已鬧上百姓呼聲!

燈錦年
2026-05-13 19:39:30
王少杰正式離隊廣東隊,驅車離開基地無人送行暗示不再回歸

王少杰正式離隊廣東隊,驅車離開基地無人送行暗示不再回歸

七七自駕游
2026-05-14 13:39:35
何穗這些年變化也太大了,今昔對比,簡直不敢相信竟是同一個人

何穗這些年變化也太大了,今昔對比,簡直不敢相信竟是同一個人

草莓信箱
2026-05-14 10:04:37
不少女網約車司機宣布退出女性友好計劃,直言不想接女乘客

不少女網約車司機宣布退出女性友好計劃,直言不想接女乘客

映射生活的身影
2026-05-12 20:56:00
人民大會堂中式美學圈粉,美國國務卿魯比奧頻贊

人民大會堂中式美學圈粉,美國國務卿魯比奧頻贊

澎湃新聞
2026-05-14 14:11:15
贏天王山破客場不勝魔咒!哈登30+8+6又刷7紀錄:誰言不能打硬仗

贏天王山破客場不勝魔咒!哈登30+8+6又刷7紀錄:誰言不能打硬仗

顏小白的籃球夢
2026-05-14 11:10:36
4-3創(chuàng)造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

4-3創(chuàng)造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

老侃侃球
2026-05-14 16:28:08
午盤|瘋狂!A股大跳水!發(fā)生什么了?

午盤|瘋狂!A股大跳水!發(fā)生什么了?

龍行天下虎
2026-05-14 11:54:07
海頓·潘妮蒂爾自曝18歲被迫與名人發(fā)生關系

海頓·潘妮蒂爾自曝18歲被迫與名人發(fā)生關系

娛圈觀察員
2026-05-12 13:14:49
“降噪耳機受害者出現(xiàn)”,沖上熱搜

“降噪耳機受害者出現(xiàn)”,沖上熱搜

觀察者網
2026-05-13 09:31:15
中美兩個大國說好了,霍爾木茲海峽不準收費,革命衛(wèi)隊能聽懂嗎?

中美兩個大國說好了,霍爾木茲海峽不準收費,革命衛(wèi)隊能聽懂嗎?

臨云史策
2026-05-14 11:24:13
太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養(yǎng)31歲“小鮮肉”

太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養(yǎng)31歲“小鮮肉”

未曾青梅
2026-05-11 22:14:44
A股:今天收在4177了,明天,周五股市走勢分析!

A股:今天收在4177了,明天,周五股市走勢分析!

明心
2026-05-14 15:03:03
武田制藥將裁員約4500人

武田制藥將裁員約4500人

財聯(lián)社
2026-05-14 12:24:06
日媒:給中國50年造不出日系發(fā)動機,馬斯克直言中國車企值得尊重

日媒:給中國50年造不出日系發(fā)動機,馬斯克直言中國車企值得尊重

劉森森
2026-05-14 08:15:55
14號收評:滬指失守4200點,所有人都注意了,大盤后市開始這樣看

14號收評:滬指失守4200點,所有人都注意了,大盤后市開始這樣看

春江財富
2026-05-14 15:27:52
中美會晤倆小時,謠言不攻自破,特朗普親自推銷,向中國做了保證

中美會晤倆小時,謠言不攻自破,特朗普親自推銷,向中國做了保證

爆笑大聰明阿衿
2026-05-14 16:20:05
2026-05-14 16:48:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
15209文章數(shù) 66867關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

重慶一棟百年古建筑以399萬公開拍賣 僅限中國人競買

頭條要聞

重慶一棟百年古建筑以399萬公開拍賣 僅限中國人競買

體育要聞

登海報!哈登30+8+6創(chuàng)多項紀錄 第8次贏天王山

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

習近平同美國總統(tǒng)特朗普會談

汽車要聞

新時代傳統(tǒng)豪華是什么樣? 上汽奧迪E7X給出了自己的答案

態(tài)度原創(chuàng)

健康
教育
本地
游戲
公開課

專家揭秘干細胞回輸?shù)陌踩L險

教育要聞

華羅庚競賽題,解法太巧妙了,學霸想不到

本地新聞

用蘇繡的方式,打開江西婺源

索尼緊急撤回!PS5重大功能慘遭下架 原因成謎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版