![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
北京時間3月20日,AI編程工具Cursor發(fā)布了自研模型Composer 2,宣稱是公司首次對基座模型進行“繼續(xù)預(yù)訓(xùn)練結(jié)合強化學(xué)習(xí)”的成果。發(fā)布博客里沒提基座模型的來源,措辭像是在說,這是Cursor自己從頭煉出來的。
不到兩小時,一個名叫Fynn的開發(fā)者在調(diào)試Cursor的API時,截獲了Composer 2的真實模型ID,kimi-k2p5-rl-0317-s515-fast。拆開來看,kimi-k2p5指向Kimi K2.5,rl是強化學(xué)習(xí)(Reinforcement Learning),后面是日期和版本號。
![]()
月之暗面預(yù)訓(xùn)練負責(zé)人杜宇倫第一時間發(fā)推,稱團隊測試了Composer 2的tokenizer,發(fā)現(xiàn)與Kimi的tokenizer“完全一致”,幾乎可以確認“這是對我們模型的進一步微調(diào)”。他直接@了Cursor聯(lián)合創(chuàng)始人Michael Truell,質(zhì)問為什么不遵守許可證,也沒有支付任何費用。這條推文隨后被刪除。
![]()
但火已經(jīng)燒起來了。馬斯克在Fynn推文下面回復(fù)了一句“Yeah, it's Kimi 2.5”,直接把事情拱上了熱搜。
![]()
1
從“套殼”到“合作”,反轉(zhuǎn)只用了幾個小時
Kimi K2.5采用修改版MIT許可證,明確要求月營收超過2000萬美元或月活超過1億的商業(yè)產(chǎn)品,必須在用戶界面上醒目標注“Kimi K2.5”。Cursor的年化收入約20億美元,超出這條門檻8倍有余。
但就在輿論發(fā)酵的同一天,劇情反轉(zhuǎn)了。月之暗面官方賬號@Kimi_Moonshot發(fā)帖,口吻從質(zhì)疑變成祝賀,稱“我們很自豪看到Kimi K2.5為Composer 2提供了基礎(chǔ)”,并澄清Cursor通過推理服務(wù)商Fireworks AI獲得了授權(quán)使用。
![]()
Cursor聯(lián)合創(chuàng)始人Aman Sanger隨后解釋說,團隊對多個基座模型做了評估,Kimi K2.5是“最強的”,之后在此基礎(chǔ)上做了額外預(yù)訓(xùn)練和4倍規(guī)模的強化學(xué)習(xí)。他承認沒有在發(fā)布博客中提及Kimi K2.5是一個失誤。
![]()
從開源協(xié)議爭議到官宣合作,整個過程不到24小時。
1
Cursor為什么“失誤”
這也不是Cursor第一次被發(fā)現(xiàn)“底座來自中國”。2025年11月Composer 1發(fā)布時,社區(qū)通過tokenizer分析推測它與DeepSeek高度一致,推理時偶爾還會輸出中文。當時Cursor同樣沒有回應(yīng)。
從DeepSeek到Kimi,Cursor自研模型的底座換了一輪,都指向同一個事實,全球編程能力最強的底座模型,出自中國的開源社區(qū)。
Cursor不愿公開底座來源,背后有一個更深層的結(jié)構(gòu)性問題。Cursor一直以來依賴Anthropic和OpenAI的模型來驅(qū)動產(chǎn)品,但這兩家公司現(xiàn)在正親自下場做編程工具,Claude Code和Codex都在迅速鋪開,不少開發(fā)者已經(jīng)開始遷移。Cursor面臨的悖論是,它必須依賴頂級模型來滿足用戶需求,但模型廠商同時也是它的直接競爭對手。如果沒有自己可控的模型底座,Cursor就永遠受制于人。
從這個角度看,選擇中國開源模型微調(diào)幾乎是一個必然的邏輯,既夠強,又不會變成自己的競爭對手。但這同時也是Cursor不愿公開講的原因,2025年它是AI編程賽道最炙手可熱的明星,估值沖到293億美元,3月12日Bloomberg報道新一輪融資目標估值約500億美元。在這個節(jié)骨眼上承認核心模型來自中國開源社區(qū),對估值敘事并不友好。
Composer 2在Cursor自己設(shè)計的CursorBench上拿到了61.3分,超過了Claude Opus 4.6的58.2分,不過這畢竟是一份自家出題自家考的成績單。反過來看,如果一個基于開源模型微調(diào)的產(chǎn)品能在編程任務(wù)上和巨頭打得有來有回,這件事本身可能比Cursor的披露失誤更有意思。Hugging Face聯(lián)合創(chuàng)始人Clément Delangue就此評價說,“中國開源現(xiàn)在是塑造全球AI技術(shù)棧的最大力量”。
而對月之暗面來說,這場風(fēng)波的結(jié)果幾乎是一次完美的品牌事件,從“被侵權(quán)方”到“合作方”,在全球開發(fā)者社區(qū)里刷了一輪存在感,最后還讓Cursor親口確認“選了Kimi K2.5因為它最強”。
1
Kimi的“黃金一周”
往前倒推幾天,Kimi剛經(jīng)歷了一個密度極高的曝光周期。
3月16日,月之暗面發(fā)布了一篇純架構(gòu)層面的技術(shù)論文“Attention Residuals”(注意力殘差),試圖替換掉Transformer架構(gòu)中一個自2015年ResNet以來就幾乎沒人動過的基礎(chǔ)組件,殘差連接。過去每一層的輸出和輸入直接相加、無差別傳遞,Kimi團隊讓每一層可以“回頭看”,動態(tài)選擇從前面哪些層提取信息。實驗顯示訓(xùn)練效率提升約25%,推理延遲增加不到2%。論文的共同一作之一是一位17歲的深圳高中生,和Kimi的關(guān)鍵研究者蘇劍林、張宇并列。
![]()
論文發(fā)出當晚,馬斯克在X上評價“Impressive work from Kimi”,Kimi官方回了一句“你的火箭造得也不錯”。Andrej Karpathy說,“看來我們還沒把'Attention is All You Need'這句話按字面意思理解透”。前OpenAI強化學(xué)習(xí)VP Jerry Tworek稱之為“深度學(xué)習(xí)2.0”的開端。
第二天,3月17日,黃仁勛在GTC 2026的Keynote中多次提及中國開源模型。Kimi K2.5代替了去年的DeepSeek ,成為黃仁勛用來對全世界展示推理重要性的時候,那個作為標桿的模型。
3月18日,楊植麟更是直接登上GTC的分論壇演講。他是嘉賓名單中唯一來自獨立大模型創(chuàng)業(yè)公司的代表,與特斯拉AI總監(jiān)、DeepMind核心架構(gòu)師同列。演講現(xiàn)場也座無虛席,他系統(tǒng)披露了Kimi K2.5背后的技術(shù)路線,將模型進化歸納為Token效率、長上下文和智能體集群三個維度。
而在DeepSeek徹底走紅之前,在GTC上做分享最多的中國開源模型團隊,曾經(jīng)是DeepSeek。
論文、GTC、Cursor,三件事在一周內(nèi)接連落地,且這些亮眼的高光里都有與DeepSeek“時代更替”的意味:曾經(jīng)是DeepSeek 每篇論文都被全球技術(shù)社區(qū)和KOL大佬追捧轉(zhuǎn)發(fā),曾經(jīng)GTC幾乎是DeepSeek的“非官方”發(fā)布會,甚至Cursor以前“悄悄套殼”的也是DeepSeek ,而一瞬間,全部變成了月之暗面Kimi。
1
站在DeepSeek的位置上
這讓很多人開始意識到,Kimi正在占據(jù)DeepSeek在全球AI社區(qū)中的位置。
DeepSeek R1在2025年初的爆發(fā)重塑了整個行業(yè)的認知,讓“中國AI”從一個模糊的概念變成了具體的、可以運行的模型權(quán)重。但自那之后,DeepSeek相對沉寂了。社區(qū)期待已久的V4/R2一直沒有發(fā)布,V3.1、V3.2等版本持續(xù)在更新,但那種“一出手就改寫規(guī)則”的沖擊感暫時沒有重現(xiàn)。
Kimi恰好踩進了這個窗口期。
2025年春節(jié)后,Kimi日活一度承壓,月之暗面砍掉了大筆營銷預(yù)算,閉門做模型。7月,Kimi K2發(fā)布,萬億參數(shù)MoE架構(gòu)。K2發(fā)布后在Hugging Face上線首日下載量超過平臺上所有其他模型,Anthropic聯(lián)合創(chuàng)始人Jack Clark評價其為“全球最好的開源權(quán)重模型”。
2026年1月底,K2.5發(fā)布,原生多模態(tài)加Agent集群架構(gòu),在多項Agent評測中拿下全球開源最佳。OpenClaw熱潮到來后,Kimi Claw迅速上線。據(jù)報道,K2.5發(fā)布不到一個月,Kimi近20天累計收入就超過了2025年全年。Stripe數(shù)據(jù)顯示,Kimi個人訂閱用戶1月支付訂單環(huán)比增長8280%。
資本層面的節(jié)奏也在加快。2025年底5億美元C輪,投后估值43億美元;2026年2月超7億美元,估值升至100億美元;3月中旬新一輪10億美元正在推進,估值已到180億美元。同期港股上市的智譜和MiniMax,市值在3月中旬分別站上了3300億和3800億港元的量級,月之暗面還沒進二級市場,以當前AI板塊的溢價看,上市后的想象空間不小。
![]()
Kimi就這樣用DeepSeek的方式奪走了DeepSeek的光環(huán)。
Kimi K2的架構(gòu)直接脫胎于DeepSeek V3,MLA注意力機制、MoE專家混合框架都是DeepSeek首創(chuàng)或率先大規(guī)模驗證的。Kimi的崛起本身就是DeepSeek技術(shù)影響力的一種繼續(xù)。DeepSeek的開源策略也更為徹底,采用純MIT許可證,沒有任何營收門檻限制,這讓它在全球開發(fā)者生態(tài)中積累了極高的滲透率。Kimi的修改版MIT許可證在商業(yè)使用上多了一層約束,這次Cursor事件就是一個例子。
在DeepSeek相對安靜的這段時間里,Kimi接過了“中國AI開源代表”的話筒。無論是黃仁勛的演講臺、Cursor的模型底座,還是學(xué)術(shù)論文和開發(fā)者社區(qū),Kimi正在填補一個需要持續(xù)有新鮮內(nèi)容的敘事空間。
而且Kimi做的也不只是出模型,Attention Residuals論文觸碰的是深度學(xué)習(xí)十年沒有實質(zhì)性變化的底層結(jié)構(gòu),這和DeepSeek當年做MLA是一個路數(shù),都是在嘗試重新定義行業(yè)的基礎(chǔ)設(shè)施。
中國AI開源的故事,正在從“一個DeepSeek”變成一個不停有新的奪走光環(huán)的玩家出現(xiàn)的故事,這和硅谷的節(jié)奏越來越像,OpenAI之后是Google,Google之后Anthropic,然后循環(huán)。
由中國的開源模型們交替接管全球開發(fā)者們的時間線,模型能力螺旋式上升的同時,話語權(quán)不旁落:等到DeepSeek 新模型出現(xiàn)時,Kimi的注意力會不會被奪走;MiniMax、Qwen、智譜、階躍以及同樣來勢洶洶新入局的小米們的新工作,會不會再突然奪走它們倆的主角位置,這些都在讓這種螺旋交替繼續(xù)下去,而這對每個中國AI參與者都是好事。
![]()
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.