網易首頁 > 網易號 > 正文申請入駐

MiniMax M3稀疏注意力：一張圖看懂百萬token加速

2026-05-30 04:08:51　來源: 野生運營

北京舉報

分享至

五月二十六日，MiniMax研發負責人Skyler Miao在X上貼出一張圖。畫面配色克制，信息卻很密集。標題寫著MiniMax Sparse Attention，右側兩條曲線直接亮出兩個數字：在100萬token上下文下，預填充加速9.7倍，解碼加速15.6倍。這張圖迅速在社區傳開，幾乎所有人都把它讀作M3的預熱信號。

如果只把M3看成又一個長上下文模型，那就錯過了更重要的東西。去年十月，MiniMax發過一篇技術博文，標題直白得少見——《Why Did M2 End Up as a Full Attention Model?》。文章坦率承認，M2沒有繼承M1的Lightning Attention，原因是“高效注意力機制當時還沒達到生產就緒的標準”。六個月后，M3帶著這張圖浮出水面，潛臺詞只有一句：這一次，它準備好了。

那么，“準備好了”具體長什么樣？這張圖本質上是一個注意力模塊的內部展開。它把“看哪些KV”和“怎么算注意力”拆成了兩個涇渭分明的步驟。在進入真正的注意力計算之前，先用一條輕量級的索引分支給所有位置打一遍分，選出最相關的若干個KV塊。這個思路在硬件上極為友好：同一組查詢頭共享相同的塊選擇，整個組只需裝載一批KV塊，就能在SRAM里跑完一次完整的FlashAttention核。

第一步：索引分支——用幾乎免費的代價完成粗篩

圖的上半部分就是這條索引分支。它獨立運行，不做最終的輸出，唯一的任務就是告訴下游的稀疏分支：這一層、這一組GQA頭該關注哪些塊。每個GQA組共享一個索引查詢向量。原型圖里展示了三組真實的查詢頭，每組對應一個索引查詢。KV那一側則被刻意降維：所有的頭都共享同一套索引鍵，因此點積Q_idx·K_idx?的開銷幾乎可以忽略不計。隨后，塊最大池化把token級別的分數壓縮到塊級別，再由TopK決定保留哪些KV塊，輸出塊索引I?、I?。

這里的核心思想是“選前先打一遍便宜的分”。索引分支不用承載精度要求，只需要給出一個序：哪些塊更可能包含當前查詢需要的信息。因為這個序的獲取成本極低，整個模塊才能在百萬token的超長序列上維持線性的速度。

第二步：稀疏分支——用真實的K/V跑注意力

圖的下半部分是真正的注意力計算發生的地方。Q、K、V還是標準的GQA形狀，但不再遍歷全部KV，而是只取I?、I?所指向的那幾個塊。注意力公式照常運行，只是范圍大大縮小。

一個關鍵的約束是：同一個GQA組內的所有查詢頭共享同一組top?k選擇。圖上，Q1/Q2/Q3都使用I?，Q4/Q5/Q6都使用I?。這正是DeepSeek在NSA論文里反復強調的硬件對齊原則——一組查詢裝載一組KV塊，單次傳進SRAM，復用未改動的FlashAttention核。整條管線無需引入新的訪存模式，直接從全注意力接軌到稀疏注意力，幾乎沒有軟件側的額外負擔。

三個刻意的減法：與DeepSeek路線的對比

社區幾乎第一時間就把這套設計放到DeepSeek的NSA、DSA、CSA三線旁邊平鋪對比。用@eliebakouch的一句總結就是：“GQA而不是MLA，類似CSA的塊級選擇，但注意力是跑在真實的K/V上。”展開成表格，能看得更清楚。

第一條減法：基座選GQA，不碰MLA。MLA通過低秩壓縮把KV緩存壓到極小，但它的注意力計算本身需要對壓縮表示進行解壓或投影。MiniMax選擇了完全不同的方向：保留原始的GQA結構，注意力直接操作真實的高維K/V，只是引入了一個極為輕量的索引分支來做篩選。這樣做的好處是，所有已有的GQA加速算子都可以無縫遷移，完全沒有精度與速度之間的折中風險。

第二條減法：塊級選擇，但不走CSA的壓縮注意力路徑。DeepSeek的CSA同樣在塊級別做選擇，但注意力本身是跑在壓縮過的KV上的。MiniMax則堅持跑在未壓縮的K/V上，這保證了注意力質量的零退化。選塊邏輯只影響覆蓋范圍，不影響實際計算時的保真度。

第三條減法：索引分支完全解耦。NSA把選擇邏輯嵌在注意力計算的主路徑里，而MiniMax把它徹底抽離成獨立的上游分支，完全不影響下游的FlashAttention核。這種解耦意味著，主路徑可以維持最高吞吐，索引分支可以獨立調優，互不掣肘。

社區沖擊與深層信號

這張圖放出來后，很多人第一反應是“又一個變種稀疏注意力”。但如果你把時間軸拉長，就能看到一條更清晰的軌跡。MiniMax沒有在M2上強推Lightning Attention，而是老老實實回到全注意力，把模型訓到可用，再花半年把高效注意力做到生產級。M3這張圖就是成果驗收單：一個在1M token下同時壓榨預填充和解碼效率的方案，而且沒有犧牲計算精度。

有研究者將其與2024年頭部模型實驗室走的路做過粗略比對：多數團隊要么在模型體量上做減法，要么把KV緩存壓到極致，要么在流水線上加粗過濾。MiniMax選了第四條路：保留全部注意力的表達能力，僅在調度層面插入一個極輕的“預讀”步驟，用盡可能簡單的機制換取盡可能大的加速比。9.7倍預填充、15.6倍解碼，這兩個數字背后，是把“不看無用塊”這件事做到了能用且好用的程度。

當然，保守聲音也在。有人認為，這仍然只是塊稀疏的一種工程化落地，并未觸碰注意力的根本難題；面對更極端的千萬級token場景，塊大小和選擇策略仍需重新摸索。但從M2的坦誠回避到M3的直接亮劍，MiniMax給出的答卷已經足夠有說服力：高效注意力終于踏過了生產就緒的紅線。對依賴長上下文推理的應用來說，這條線一旦踏過，后續的優化曲線會遠比此前陡峭。

如果非要只從這張圖上取走一個洞察，那就是：稀疏注意力不再只是論文里的玩具，它正在以最小的精度代價，成為大模型進入百萬token時代的標配路徑。而MiniMax這次沒有多說一句話，只拿了一張圖、兩排數字，就讓整個社區讀懂了它的潛臺詞。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.