无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

MiniMax M3稀疏注意力:一張圖看懂百萬token加速

0
分享至

五月二十六日,MiniMax研發負責人Skyler Miao在X上貼出一張圖。畫面配色克制,信息卻很密集。標題寫著MiniMax Sparse Attention,右側兩條曲線直接亮出兩個數字:在100萬token上下文下,預填充加速9.7倍,解碼加速15.6倍。這張圖迅速在社區傳開,幾乎所有人都把它讀作M3的預熱信號。

如果只把M3看成又一個長上下文模型,那就錯過了更重要的東西。去年十月,MiniMax發過一篇技術博文,標題直白得少見——《Why Did M2 End Up as a Full Attention Model?》。文章坦率承認,M2沒有繼承M1的Lightning Attention,原因是“高效注意力機制當時還沒達到生產就緒的標準”。六個月后,M3帶著這張圖浮出水面,潛臺詞只有一句:這一次,它準備好了。


那么,“準備好了”具體長什么樣?這張圖本質上是一個注意力模塊的內部展開。它把“看哪些KV”和“怎么算注意力”拆成了兩個涇渭分明的步驟。在進入真正的注意力計算之前,先用一條輕量級的索引分支給所有位置打一遍分,選出最相關的若干個KV塊。這個思路在硬件上極為友好:同一組查詢頭共享相同的塊選擇,整個組只需裝載一批KV塊,就能在SRAM里跑完一次完整的FlashAttention核。

第一步:索引分支——用幾乎免費的代價完成粗篩

圖的上半部分就是這條索引分支。它獨立運行,不做最終的輸出,唯一的任務就是告訴下游的稀疏分支:這一層、這一組GQA頭該關注哪些塊。每個GQA組共享一個索引查詢向量。原型圖里展示了三組真實的查詢頭,每組對應一個索引查詢。KV那一側則被刻意降維:所有的頭都共享同一套索引鍵,因此點積Q_idx·K_idx?的開銷幾乎可以忽略不計。隨后,塊最大池化把token級別的分數壓縮到塊級別,再由TopK決定保留哪些KV塊,輸出塊索引I?、I?。

這里的核心思想是“選前先打一遍便宜的分”。索引分支不用承載精度要求,只需要給出一個序:哪些塊更可能包含當前查詢需要的信息。因為這個序的獲取成本極低,整個模塊才能在百萬token的超長序列上維持線性的速度。

第二步:稀疏分支——用真實的K/V跑注意力

圖的下半部分是真正的注意力計算發生的地方。Q、K、V還是標準的GQA形狀,但不再遍歷全部KV,而是只取I?、I?所指向的那幾個塊。注意力公式照常運行,只是范圍大大縮小。

一個關鍵的約束是:同一個GQA組內的所有查詢頭共享同一組top?k選擇。圖上,Q1/Q2/Q3都使用I?,Q4/Q5/Q6都使用I?。這正是DeepSeek在NSA論文里反復強調的硬件對齊原則——一組查詢裝載一組KV塊,單次傳進SRAM,復用未改動的FlashAttention核。整條管線無需引入新的訪存模式,直接從全注意力接軌到稀疏注意力,幾乎沒有軟件側的額外負擔。

三個刻意的減法:與DeepSeek路線的對比

社區幾乎第一時間就把這套設計放到DeepSeek的NSA、DSA、CSA三線旁邊平鋪對比。用@eliebakouch的一句總結就是:“GQA而不是MLA,類似CSA的塊級選擇,但注意力是跑在真實的K/V上。”展開成表格,能看得更清楚。

第一條減法:基座選GQA,不碰MLA。MLA通過低秩壓縮把KV緩存壓到極小,但它的注意力計算本身需要對壓縮表示進行解壓或投影。MiniMax選擇了完全不同的方向:保留原始的GQA結構,注意力直接操作真實的高維K/V,只是引入了一個極為輕量的索引分支來做篩選。這樣做的好處是,所有已有的GQA加速算子都可以無縫遷移,完全沒有精度與速度之間的折中風險。

第二條減法:塊級選擇,但不走CSA的壓縮注意力路徑。DeepSeek的CSA同樣在塊級別做選擇,但注意力本身是跑在壓縮過的KV上的。MiniMax則堅持跑在未壓縮的K/V上,這保證了注意力質量的零退化。選塊邏輯只影響覆蓋范圍,不影響實際計算時的保真度。

第三條減法:索引分支完全解耦。NSA把選擇邏輯嵌在注意力計算的主路徑里,而MiniMax把它徹底抽離成獨立的上游分支,完全不影響下游的FlashAttention核。這種解耦意味著,主路徑可以維持最高吞吐,索引分支可以獨立調優,互不掣肘。

社區沖擊與深層信號

這張圖放出來后,很多人第一反應是“又一個變種稀疏注意力”。但如果你把時間軸拉長,就能看到一條更清晰的軌跡。MiniMax沒有在M2上強推Lightning Attention,而是老老實實回到全注意力,把模型訓到可用,再花半年把高效注意力做到生產級。M3這張圖就是成果驗收單:一個在1M token下同時壓榨預填充和解碼效率的方案,而且沒有犧牲計算精度。

有研究者將其與2024年頭部模型實驗室走的路做過粗略比對:多數團隊要么在模型體量上做減法,要么把KV緩存壓到極致,要么在流水線上加粗過濾。MiniMax選了第四條路:保留全部注意力的表達能力,僅在調度層面插入一個極輕的“預讀”步驟,用盡可能簡單的機制換取盡可能大的加速比。9.7倍預填充、15.6倍解碼,這兩個數字背后,是把“不看無用塊”這件事做到了能用且好用的程度。

當然,保守聲音也在。有人認為,這仍然只是塊稀疏的一種工程化落地,并未觸碰注意力的根本難題;面對更極端的千萬級token場景,塊大小和選擇策略仍需重新摸索。但從M2的坦誠回避到M3的直接亮劍,MiniMax給出的答卷已經足夠有說服力:高效注意力終于踏過了生產就緒的紅線。對依賴長上下文推理的應用來說,這條線一旦踏過,后續的優化曲線會遠比此前陡峭。

如果非要只從這張圖上取走一個洞察,那就是:稀疏注意力不再只是論文里的玩具,它正在以最小的精度代價,成為大模型進入百萬token時代的標配路徑。而MiniMax這次沒有多說一句話,只拿了一張圖、兩排數字,就讓整個社區讀懂了它的潛臺詞。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
性壓抑已經變態至此了嗎!

性壓抑已經變態至此了嗎!

燈錦年
2026-05-31 11:39:51
曹操撩寡婦說的金句,如今成約會開場白,男人常掛在嘴邊

曹操撩寡婦說的金句,如今成約會開場白,男人常掛在嘴邊

小豫講故事
2026-05-29 06:00:19
47℃極端高溫硬卡進口!印度強硬逼中企建廠,為何國內廠商拒絕?

47℃極端高溫硬卡進口!印度強硬逼中企建廠,為何國內廠商拒絕?

老特有話說
2026-05-30 17:09:16
毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

路醫生健康科普
2026-05-30 20:15:03
江蘇太倉一飛行營地墜機致死案續:獲賠256.8萬元,家屬稱將上訴

江蘇太倉一飛行營地墜機致死案續:獲賠256.8萬元,家屬稱將上訴

澎湃新聞
2026-05-31 13:40:27
文班全票獲西決MVP:首次季后賽率馬刺重返總決賽 賽后抱頭痛哭

文班全票獲西決MVP:首次季后賽率馬刺重返總決賽 賽后抱頭痛哭

醉臥浮生
2026-05-31 11:00:47
唐山大地震來臨前的詭異征兆,災難現場比影視中更慘烈

唐山大地震來臨前的詭異征兆,災難現場比影視中更慘烈

史政先鋒
2026-05-30 17:08:06
我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

涼州辭
2026-05-30 10:15:03
鹽堿地種出的海水稻,口感難吃卻越種越多,國家為何要大力發展?

鹽堿地種出的海水稻,口感難吃卻越種越多,國家為何要大力發展?

向航說
2026-05-30 00:30:03
異常熱浪在法國造成7人死亡,中國留學生:當地普遍不裝空調,這幾天很崩潰,連續一周沒怎么睡好覺

異常熱浪在法國造成7人死亡,中國留學生:當地普遍不裝空調,這幾天很崩潰,連續一周沒怎么睡好覺

極目新聞
2026-05-31 12:55:56
廣州女孩清華碩士畢業做紋眉師一年,曾最高月入10萬元,回應關注:在廣州創業太便利,用上所學知識就不算浪費學歷

廣州女孩清華碩士畢業做紋眉師一年,曾最高月入10萬元,回應關注:在廣州創業太便利,用上所學知識就不算浪費學歷

環球網資訊
2026-05-31 14:41:18
阿森納痛失歐冠!名嘴黃健翔賽后犀利點評:輸球純屬自作自受!

阿森納痛失歐冠!名嘴黃健翔賽后犀利點評:輸球純屬自作自受!

田先生籃球
2026-05-31 09:29:01
釋永信被判24年,為啥不是無期?盤點他的錢色人生

釋永信被判24年,為啥不是無期?盤點他的錢色人生

大江看潮
2026-05-30 10:48:52
衛冕失敗!亞歷山大空砍35+9功虧一簣 兩連莊MVP卻無緣兩連冠

衛冕失敗!亞歷山大空砍35+9功虧一簣 兩連莊MVP卻無緣兩連冠

醉臥浮生
2026-05-31 10:49:15
判了!釋永信四罪并罰,資產私生子多,還有3位家喻戶曉明星徒弟

判了!釋永信四罪并罰,資產私生子多,還有3位家喻戶曉明星徒弟

動漫里的童話
2026-05-31 01:11:33
別墅搜出23件國寶,全家集體失聯!整整17年,徐湖平案終于落幕

別墅搜出23件國寶,全家集體失聯!整整17年,徐湖平案終于落幕

鑒史錄
2026-05-31 12:57:55
浙江男子向好兄弟借錢沒借到,妻子出面借卻成功了,懷疑妻子出軌,男子在她車上裝定位,“大師讓我留意她的動向!”

浙江男子向好兄弟借錢沒借到,妻子出面借卻成功了,懷疑妻子出軌,男子在她車上裝定位,“大師讓我留意她的動向!”

臺州交通廣播
2026-05-30 12:21:28
巴拿馬總統攤牌:沒收中國港口不是美國逼的,準備和中國續簽協議

巴拿馬總統攤牌:沒收中國港口不是美國逼的,準備和中國續簽協議

基斯默默
2026-05-31 07:14:35
打贏黑哨!文班亞馬淚流滿面進總決賽!哈珀牛逼,亞歷山大35+4+9

打贏黑哨!文班亞馬淚流滿面進總決賽!哈珀牛逼,亞歷山大35+4+9

Tracy的籃球博物館
2026-05-31 11:01:53
大爆冷!雷霆3-4馬刺恥辱出局,誰是輸球罪魁禍首?數據不會說謊

大爆冷!雷霆3-4馬刺恥辱出局,誰是輸球罪魁禍首?數據不會說謊

籃球掃地僧
2026-05-31 12:11:28
2026-05-31 16:08:49
野生運營
野生運營
懂點產品,懂點AI,正在努力給平淡日子搞點新花樣。
4238文章數 44關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
時尚
本地
家居
軍事航空

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

梓渝:慢下來,也很好

本地新聞

用剪紙的方式,打開江蘇揚州

家居要聞

云棲 舒展如流云

軍事要聞

解放軍代表質問日防衛大臣:日本何時道歉

無障礙瀏覽 進入關懷版