五月二十六日,MiniMax研發負責人Skyler Miao在X上貼出一張圖。畫面配色克制,信息卻很密集。標題寫著MiniMax Sparse Attention,右側兩條曲線直接亮出兩個數字:在100萬token上下文下,預填充加速9.7倍,解碼加速15.6倍。這張圖迅速在社區傳開,幾乎所有人都把它讀作M3的預熱信號。
如果只把M3看成又一個長上下文模型,那就錯過了更重要的東西。去年十月,MiniMax發過一篇技術博文,標題直白得少見——《Why Did M2 End Up as a Full Attention Model?》。文章坦率承認,M2沒有繼承M1的Lightning Attention,原因是“高效注意力機制當時還沒達到生產就緒的標準”。六個月后,M3帶著這張圖浮出水面,潛臺詞只有一句:這一次,它準備好了。
![]()
那么,“準備好了”具體長什么樣?這張圖本質上是一個注意力模塊的內部展開。它把“看哪些KV”和“怎么算注意力”拆成了兩個涇渭分明的步驟。在進入真正的注意力計算之前,先用一條輕量級的索引分支給所有位置打一遍分,選出最相關的若干個KV塊。這個思路在硬件上極為友好:同一組查詢頭共享相同的塊選擇,整個組只需裝載一批KV塊,就能在SRAM里跑完一次完整的FlashAttention核。
第一步:索引分支——用幾乎免費的代價完成粗篩
圖的上半部分就是這條索引分支。它獨立運行,不做最終的輸出,唯一的任務就是告訴下游的稀疏分支:這一層、這一組GQA頭該關注哪些塊。每個GQA組共享一個索引查詢向量。原型圖里展示了三組真實的查詢頭,每組對應一個索引查詢。KV那一側則被刻意降維:所有的頭都共享同一套索引鍵,因此點積Q_idx·K_idx?的開銷幾乎可以忽略不計。隨后,塊最大池化把token級別的分數壓縮到塊級別,再由TopK決定保留哪些KV塊,輸出塊索引I?、I?。
這里的核心思想是“選前先打一遍便宜的分”。索引分支不用承載精度要求,只需要給出一個序:哪些塊更可能包含當前查詢需要的信息。因為這個序的獲取成本極低,整個模塊才能在百萬token的超長序列上維持線性的速度。
第二步:稀疏分支——用真實的K/V跑注意力
圖的下半部分是真正的注意力計算發生的地方。Q、K、V還是標準的GQA形狀,但不再遍歷全部KV,而是只取I?、I?所指向的那幾個塊。注意力公式照常運行,只是范圍大大縮小。
一個關鍵的約束是:同一個GQA組內的所有查詢頭共享同一組top?k選擇。圖上,Q1/Q2/Q3都使用I?,Q4/Q5/Q6都使用I?。這正是DeepSeek在NSA論文里反復強調的硬件對齊原則——一組查詢裝載一組KV塊,單次傳進SRAM,復用未改動的FlashAttention核。整條管線無需引入新的訪存模式,直接從全注意力接軌到稀疏注意力,幾乎沒有軟件側的額外負擔。
三個刻意的減法:與DeepSeek路線的對比
社區幾乎第一時間就把這套設計放到DeepSeek的NSA、DSA、CSA三線旁邊平鋪對比。用@eliebakouch的一句總結就是:“GQA而不是MLA,類似CSA的塊級選擇,但注意力是跑在真實的K/V上。”展開成表格,能看得更清楚。
第一條減法:基座選GQA,不碰MLA。MLA通過低秩壓縮把KV緩存壓到極小,但它的注意力計算本身需要對壓縮表示進行解壓或投影。MiniMax選擇了完全不同的方向:保留原始的GQA結構,注意力直接操作真實的高維K/V,只是引入了一個極為輕量的索引分支來做篩選。這樣做的好處是,所有已有的GQA加速算子都可以無縫遷移,完全沒有精度與速度之間的折中風險。
第二條減法:塊級選擇,但不走CSA的壓縮注意力路徑。DeepSeek的CSA同樣在塊級別做選擇,但注意力本身是跑在壓縮過的KV上的。MiniMax則堅持跑在未壓縮的K/V上,這保證了注意力質量的零退化。選塊邏輯只影響覆蓋范圍,不影響實際計算時的保真度。
第三條減法:索引分支完全解耦。NSA把選擇邏輯嵌在注意力計算的主路徑里,而MiniMax把它徹底抽離成獨立的上游分支,完全不影響下游的FlashAttention核。這種解耦意味著,主路徑可以維持最高吞吐,索引分支可以獨立調優,互不掣肘。
社區沖擊與深層信號
這張圖放出來后,很多人第一反應是“又一個變種稀疏注意力”。但如果你把時間軸拉長,就能看到一條更清晰的軌跡。MiniMax沒有在M2上強推Lightning Attention,而是老老實實回到全注意力,把模型訓到可用,再花半年把高效注意力做到生產級。M3這張圖就是成果驗收單:一個在1M token下同時壓榨預填充和解碼效率的方案,而且沒有犧牲計算精度。
有研究者將其與2024年頭部模型實驗室走的路做過粗略比對:多數團隊要么在模型體量上做減法,要么把KV緩存壓到極致,要么在流水線上加粗過濾。MiniMax選了第四條路:保留全部注意力的表達能力,僅在調度層面插入一個極輕的“預讀”步驟,用盡可能簡單的機制換取盡可能大的加速比。9.7倍預填充、15.6倍解碼,這兩個數字背后,是把“不看無用塊”這件事做到了能用且好用的程度。
當然,保守聲音也在。有人認為,這仍然只是塊稀疏的一種工程化落地,并未觸碰注意力的根本難題;面對更極端的千萬級token場景,塊大小和選擇策略仍需重新摸索。但從M2的坦誠回避到M3的直接亮劍,MiniMax給出的答卷已經足夠有說服力:高效注意力終于踏過了生產就緒的紅線。對依賴長上下文推理的應用來說,這條線一旦踏過,后續的優化曲線會遠比此前陡峭。
如果非要只從這張圖上取走一個洞察,那就是:稀疏注意力不再只是論文里的玩具,它正在以最小的精度代價,成為大模型進入百萬token時代的標配路徑。而MiniMax這次沒有多說一句話,只拿了一張圖、兩排數字,就讓整個社區讀懂了它的潛臺詞。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.