網易首頁 > 網易號 > 正文 申請入駐

MiniMax和Kimi為了“注意力”,隔空交手

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

10月29日,月之暗面研究員周昕宇(Zhou Xinyu)在X上轉發了MiniMax M2 Tech Blog的推文,并評論道:“Minimax don't worry, Kimi got your back ”。不僅如此,他還在知乎的同一篇博文下留下了同樣的評論,這種帶有調侃意味的公開“示好”,既像挑逗,也像挑釁。


在M2發布兩天后,MiniMax的預訓練負責人孫浩海(Haohai Sun)在知乎和X發布了一篇技術博客,罕見地坦誠地說明了團隊為什么放棄efficient attention,“為什么不做linear/sparse attention”?“一直在做,但是在工業系統里真的打過Full Attention還有些距離”

周昕宇的評論顯然有所指,但“got your back”究竟是什么意思?答案在24小時后揭曉。10月30日,月之暗面發布了Kimi Linear,一個48B參數的混合注意力模型,聲稱在長上下文任務中KV Cache減少75%,吞吐量提升6倍。

技術報告的Abstract寫道:“for the first time, outperforms full attention under fair comparisons across various scenarios”(首次在公平對比下全面超越全注意力)。

從MiniMax M2發布到Kimi Linear發布,恰好72小時。這種技術路線扽差異是大模型行業在效率與性能之間的路線探索,爭論仍未塵埃落定。

MiniMax M2:回歸Full Attention

MiniMax此前的M1 Lightning采用Softmax + MoE的混合式架構,支持百萬級上下文。到了M2,MiniMax選擇了回歸Full Attention。

M2的定位是Agent和代碼生成,強調"大巧若拙"的產品哲學。在價格上,M2僅為Claude Sonnet 4.5的8%(每百萬Token輸入0.3美元),推理速度快近2倍(TPS約100)。MiniMax在官方發布文章中表示,這是通過"高效的激活參數設計"實現的"智能、速度與成本的最佳平衡"。


《為什么M2是Full Attention》這篇文章在知乎和X都獲得了不少好評。X上的評論者認為這是“難得的工程視角分享”,“對行業非常有價值”。一位名為@TensorTemplar的評論者說:“難得見到如此詳盡公開分享模型架構的整體工程視角。關于稀疏注意力尾部風險的論述非常精彩!在復雜多輪使用場景中尚未證明其等效性前,我暫不愿稱之為‘高效’。”


Haohai詳細闡述了三個核心困難。第一個是工程鏈路復雜性爆炸。用他的話說,“需要同時滿足code/math、agent、多模態、Long CoT、RL、低精度運算、緩存、speculative decoding等眾多場景”。翻譯成人話就是,現代大模型不只是做一件事,而是要同時支持十幾種不同的應用場景。每增加一種efficient attention機制,就要在所有這些場景下驗證,工程復雜度呈指數級增長。

第二個困難是評測體系局限。“小規模實驗的結論無法外推,復雜多跳推理任務的缺陷只在大規模時暴露。”在小模型上測試效果好,不代表在大模型上也好。很多問題只有在訓練到一定規模時才會暴露,但那時候已經投入了大量資源,來不及調整。Haohai在評論區補充說,復雜多跳推理任務可以參考KorBench、BBEH等榜單,以及BBH里的dyck language任務。

有評論者問“你們是否嘗試過其他線性注意力變體,比如門控Delta Net或Mamba2?"Haohai回復:”GDN混合模型表現尚可,Mamba2 < Mamba2 + qknorm ≈ GDN。但與全注意力模型相比,這些模型在推理密集型基準測試(如BBH)中表現相對較弱。“MiniMax在實際測試中發現了問題。

第三個困難是基建不完善。“Linear Attention的訓練是訪存bound,推理需要解決低精度存儲、Prefix Cache、投機解碼等問題。”即使理論上linear attention更快,但實際工程中需要解決很多基礎設施問題。訓練時內存帶寬成為瓶頸,推理時需要支持各種優化技術,這些都還沒有成熟的解決方案。

這篇博客的評論區也透露了一些重要信息。一位名為silicon的開發者評論道:“我自己都開發了近百種Transformer變體了,但‘驗證新變體是否先進’所花的時間遠遠大于開發算法的時間”。Benchmark困境不只是MiniMax的問題,而是整個行業的痛點。

另一個問題是關于成本和時延的澄清。當有網友問“Agent場景下Full Attention會成為瓶頸嗎”時,Haohai回答是:“GPU的進步非常快,對Full Attention來說目前只有成本問題,沒有時延問題。”也就是說核心矛盾不是速度慢,而是成本高。MiniMax的策略是等待GPU進步解決成本問題,同時通過工程優化(如“高效的激活參數設計”)來平衡性能和成本。

月暗的“挑逗”和Kimi Linear的發布

Zhou Xinyu是月之暗面的研究員,也是MoBA(Mixture of Block Attention)論文的核心作者之一,他的“挑逗”背后藏著一個大招。10月30日晚,月之暗面發布了Kimi Linear,一個48B總參數、3B激活參數的MoE模型,訓練數據達5.7T tokens,支持1M tokens的上下文長度。模型權重、代碼和技術報告全部開源。從M2發布到Kimi Linear發布,72小時。


Kimi Linear有三個值得注意的點。

第一個是Kimi Delta Attention (KDA)。KDA基于Gated DeltaNet,引入了fine-grained gating機制。具體來說,它從scalar gate(標量門控)升級到channel-wise gate(通道級門控),讓每個特征維度都有獨立的遺忘因子。用人話說,就像給模型裝了更精細的"記憶開關"。傳統的門控機制是一個總開關,要么全記住,要么全忘記。而KDA可以針對不同類型的信息分別控制記憶強度,比如對代碼語法記得牢一點,對臨時變量忘得快一點。這個改進帶來了顯著的性能提升,相比標準DPLR實現,KDA的計算效率提升了約100%。

第二個是3:1的混合比例。Kimi Linear采用了Hybrid架構,將KDA(線性注意力)和MLA(Multi-head Latent Attention)混合使用。MLA是DeepSeek在V2/V3中使用的技術,通過將注意力輸入壓縮成低維潛在向量,然后在需要計算注意力時映射回高維空間,顯著減少了內存需求。關鍵問題是混合的比例應該是多少?Kimi團隊通過系統性的ablation study找到了答案:3:1,也就是每3層KDA配1層MLA。

實驗結果顯示,3:1是平衡性能和效率的最佳點。純MLA(0:1)的validation PPL是5.77,3:1是5.65,1:1是5.66,7:1是5.70,15:1是5.82。太多全注意力(1:1)浪費資源,太少(7:1、15:1)影響性能。


Kimi Linear 模型架構示意圖。該模型由一系列堆疊的模塊組成,每個模塊包含一個 token 混合層(token mixing layer),其后接一個 MoE 通道混合層(channel-mixing layer)。

第三個是No Position Encoding (NoPE)。Kimi Linear的MLA層不使用位置編碼(如RoPE),所有的位置信息完全由KDA層負責。這個設計帶來三個好處:推理效率更高(MLA可以轉換為更高效的MQA)、訓練更簡單(避免了RoPE參數調整)、長上下文泛化更好。

Kimi Linear的性能數據很亮眼。技術報告顯示,Kimi Linear"顯著減少了高達75%的KV cache需求",這意味著內存占用降低4倍,直接降低了部署成本。在1M tokens的長上下文場景中,Kimi Linear的解碼吞吐量比MLA(全注意力)快6.3倍。具體數據是TPOT(Time Per Output Token)從11.48ms降到1.84ms。

在RULER基準測試(128k context)上,Kimi Linear達到84.3的性能,同時速度是MLA的3.98倍。技術報告稱這是"Pareto-optimal",性能和速度都是最優,沒有trade-off。


Kimi團隊用1.4T tokens的訓練驗證了scaling law。MLA的Loss是2.3092 × C^(-0.0536),Kimi Linear是2.2879 × C^(-0.0527)。技術報告總結:“Kimi Linear achieves ~ 1.16× computational efficiency”。大規模訓練中,Kimi Linear仍然優于Full Attention。

為了驗證理論正確性,Kimi團隊在三個合成任務上測試了KDA:Palindrome(回文任務)、MQAR(多查詢關聯回憶)、Stack(棧追蹤)。KDA在所有任務上都達到100%準確率,而GDN和Mamba2在長序列上失敗。這些任務測試的正是復雜多跳推理能力。

這也是Linear attention首次在公平對比下全面超越Full Attention。不是特定任務,而是"across various scenarios"(各種場景),包括short-context、long-context、RL scaling。

Kimi Linear的工程化成熟度還體現在vLLM集成上。vLLM是UC Berkeley開發的開源LLM推理框架,是全球最主流的推理引擎之一。Kimi Delta Attention(KDA)算子已被vLLM官方整合進主代碼庫。這意味著vLLM用戶只要升級到最新版本,就可以直接使用Kimi的注意力實現。

MiniMax向左,Kimi向右

MiniMax和Kimi的選擇,代表了兩種不同的技術路線。整個行業也都在探索,DeepSeek用MLA 改造/壓縮KV-cache,Mistral引入滑動窗口稀疏模式,OpenAI與Anthropic的具體注意力實現未公開,業內普遍認為其以Full Attention的工程化加速為主。

不同選擇反映了效率與性能的不同權衡。MiniMax選擇Full Attention,核心邏輯是等待GPU進步解決成本問題,同時通過工程優化來平衡性能和成本。Full Attention是經過多年驗證的技術,不需要擔心在某些場景下的隱藏弱點。

Kimi選擇KDA + MLA,核心邏輯是主動優化架構降低成本,系統性解決工程化問題。這種選擇的優勢是效率更高、成本更低、長期可能競爭力更強,但也面臨更大的工程挑戰,需要在多個場景下驗證穩定性。Kimi Linear的發布證明,至少在月之暗面的技術體系中,他們找到了可能的解決方案。

兩種選擇都有其合理性。MiniMax的策略是時間換空間,賭GPU進步會解決成本問題。Kimi的策略是空間換時間,通過技術創新主動降低成本。哪種路線更好?目前還沒有定論。

不過,這種不同路線的探索和公開的技術討論,對整個行業都是一件好事。它讓外界看到了大模型技術演進的真實圖景,沒有正確答案,而是多條路徑的并行探索。MiniMax和Kimi的坦誠和創新,都在推動行業進步。

但在技術探討之外,兩家公司在實際層面的競爭也不容忽視。月之暗面和MiniMax都定位于中國頭部通用大模型,在長上下文、代碼/Agent、開源推理生態等方面同場競跑。技術路線的選擇不僅關乎技術本身,也關乎資本市場的認可和長期競爭力。

這是Full Attention和Efficient Attention兩種技術路線的較量,也是MiniMax和Kimi兩家公司的角力,兩件事情都會持續下去。這場關于Attention機制的技術之爭,本身也成了一場“注意力之爭”

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天才股神坦言:新一輪牛市來臨,如果本金30W內,建議死磕520戰法

天才股神坦言:新一輪牛市來臨,如果本金30W內,建議死磕520戰法

股經縱橫談
2026-04-23 20:37:06
最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

項鵬飛
2026-04-25 22:56:08
奔馳快養不起北京汽車了

奔馳快養不起北京汽車了

汽車K線
2026-04-24 07:30:06
美國如今徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

美國如今徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

夢史
2026-04-26 06:48:11
舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

懂球帝
2026-04-26 10:17:08
現代級魔改,估計俄羅斯娘家也看傻眼了吧

現代級魔改,估計俄羅斯娘家也看傻眼了吧

三叔的裝備空間
2026-04-24 23:53:16
今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

阿龍美食記
2026-04-12 15:01:18
身價暴漲!季后賽這5位球員打出了價值

身價暴漲!季后賽這5位球員打出了價值

舟望停云
2026-04-25 21:09:48
DeepSeek V4背后,梁文鋒的轉身

DeepSeek V4背后,梁文鋒的轉身

豹變
2026-04-26 09:13:15
蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

福建睿平
2026-04-25 11:54:44
馬正勇,已從廣東赴四川履新!畢紹剛,任昆明市委常委、市政府黨組副書記!

馬正勇,已從廣東赴四川履新!畢紹剛,任昆明市委常委、市政府黨組副書記!

蘭妮搞笑分享
2026-04-26 11:01:21
不甘心的羅玉鳳,令人敬佩

不甘心的羅玉鳳,令人敬佩

廖保平
2026-03-22 10:49:24
深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

大張的自留地
2026-04-26 08:52:35
美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

混沌錄
2026-04-25 16:42:06
耳朵長有佛耳,是前世在佛門修行的證明?不是所有人都具備

耳朵長有佛耳,是前世在佛門修行的證明?不是所有人都具備

老紅點評社
2025-08-21 15:16:36
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
殘陣森林狼112-96掘金3-1奪賽點,多森姆替補43分,約基奇24+15+9遭驅逐

殘陣森林狼112-96掘金3-1奪賽點,多森姆替補43分,約基奇24+15+9遭驅逐

懂球帝
2026-04-26 11:31:13
閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
2026-04-26 12:15:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

時尚
旅游
親子
藝術
軍事航空

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

旅游要聞

臺兒莊古城國潮文化季正式啟動 五一“入夢臺城”拉開帷幕

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版