Cursor套殼、黃仁勛坐上賓，DeepSeek的光環(huán)現(xiàn)在都是Kimi的了

2026-03-22 11:11:58　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

北京時間3月20日，AI編程工具Cursor發(fā)布了自研模型Composer 2，宣稱是公司首次對基座模型進行“繼續(xù)預(yù)訓(xùn)練結(jié)合強化學(xué)習(xí)”的成果。發(fā)布博客里沒提基座模型的來源，措辭像是在說，這是Cursor自己從頭煉出來的。

不到兩小時，一個名叫Fynn的開發(fā)者在調(diào)試Cursor的API時，截獲了Composer 2的真實模型ID，kimi-k2p5-rl-0317-s515-fast。拆開來看，kimi-k2p5指向Kimi K2.5，rl是強化學(xué)習(xí)（Reinforcement Learning），后面是日期和版本號。

月之暗面預(yù)訓(xùn)練負責(zé)人杜宇倫第一時間發(fā)推，稱團隊測試了Composer 2的tokenizer，發(fā)現(xiàn)與Kimi的tokenizer“完全一致”，幾乎可以確認“這是對我們模型的進一步微調(diào)”。他直接@了Cursor聯(lián)合創(chuàng)始人Michael Truell，質(zhì)問為什么不遵守許可證，也沒有支付任何費用。這條推文隨后被刪除。

但火已經(jīng)燒起來了。馬斯克在Fynn推文下面回復(fù)了一句“Yeah, it's Kimi 2.5”，直接把事情拱上了熱搜。

從“套殼”到“合作”，反轉(zhuǎn)只用了幾個小時

Kimi K2.5采用修改版MIT許可證，明確要求月營收超過2000萬美元或月活超過1億的商業(yè)產(chǎn)品，必須在用戶界面上醒目標注“Kimi K2.5”。Cursor的年化收入約20億美元，超出這條門檻8倍有余。

但就在輿論發(fā)酵的同一天，劇情反轉(zhuǎn)了。月之暗面官方賬號@Kimi_Moonshot發(fā)帖，口吻從質(zhì)疑變成祝賀，稱“我們很自豪看到Kimi K2.5為Composer 2提供了基礎(chǔ)”，并澄清Cursor通過推理服務(wù)商Fireworks AI獲得了授權(quán)使用。

Cursor聯(lián)合創(chuàng)始人Aman Sanger隨后解釋說，團隊對多個基座模型做了評估，Kimi K2.5是“最強的”，之后在此基礎(chǔ)上做了額外預(yù)訓(xùn)練和4倍規(guī)模的強化學(xué)習(xí)。他承認沒有在發(fā)布博客中提及Kimi K2.5是一個失誤。

從開源協(xié)議爭議到官宣合作，整個過程不到24小時。

Cursor為什么“失誤”

這也不是Cursor第一次被發(fā)現(xiàn)“底座來自中國”。2025年11月Composer 1發(fā)布時，社區(qū)通過tokenizer分析推測它與DeepSeek高度一致，推理時偶爾還會輸出中文。當時Cursor同樣沒有回應(yīng)。

從DeepSeek到Kimi，Cursor自研模型的底座換了一輪，都指向同一個事實，全球編程能力最強的底座模型，出自中國的開源社區(qū)。

Cursor不愿公開底座來源，背后有一個更深層的結(jié)構(gòu)性問題。Cursor一直以來依賴Anthropic和OpenAI的模型來驅(qū)動產(chǎn)品，但這兩家公司現(xiàn)在正親自下場做編程工具，Claude Code和Codex都在迅速鋪開，不少開發(fā)者已經(jīng)開始遷移。Cursor面臨的悖論是，它必須依賴頂級模型來滿足用戶需求，但模型廠商同時也是它的直接競爭對手。如果沒有自己可控的模型底座，Cursor就永遠受制于人。

從這個角度看，選擇中國開源模型微調(diào)幾乎是一個必然的邏輯，既夠強，又不會變成自己的競爭對手。但這同時也是Cursor不愿公開講的原因，2025年它是AI編程賽道最炙手可熱的明星，估值沖到293億美元，3月12日Bloomberg報道新一輪融資目標估值約500億美元。在這個節(jié)骨眼上承認核心模型來自中國開源社區(qū)，對估值敘事并不友好。

Composer 2在Cursor自己設(shè)計的CursorBench上拿到了61.3分，超過了Claude Opus 4.6的58.2分，不過這畢竟是一份自家出題自家考的成績單。反過來看，如果一個基于開源模型微調(diào)的產(chǎn)品能在編程任務(wù)上和巨頭打得有來有回，這件事本身可能比Cursor的披露失誤更有意思。Hugging Face聯(lián)合創(chuàng)始人Clément Delangue就此評價說，“中國開源現(xiàn)在是塑造全球AI技術(shù)棧的最大力量”。

而對月之暗面來說，這場風(fēng)波的結(jié)果幾乎是一次完美的品牌事件，從“被侵權(quán)方”到“合作方”，在全球開發(fā)者社區(qū)里刷了一輪存在感，最后還讓Cursor親口確認“選了Kimi K2.5因為它最強”。

Kimi的“黃金一周”

往前倒推幾天，Kimi剛經(jīng)歷了一個密度極高的曝光周期。

3月16日，月之暗面發(fā)布了一篇純架構(gòu)層面的技術(shù)論文“Attention Residuals”（注意力殘差），試圖替換掉Transformer架構(gòu)中一個自2015年ResNet以來就幾乎沒人動過的基礎(chǔ)組件，殘差連接。過去每一層的輸出和輸入直接相加、無差別傳遞，Kimi團隊讓每一層可以“回頭看”，動態(tài)選擇從前面哪些層提取信息。實驗顯示訓(xùn)練效率提升約25%，推理延遲增加不到2%。論文的共同一作之一是一位17歲的深圳高中生，和Kimi的關(guān)鍵研究者蘇劍林、張宇并列。

論文發(fā)出當晚，馬斯克在X上評價“Impressive work from Kimi”，Kimi官方回了一句“你的火箭造得也不錯”。Andrej Karpathy說，“看來我們還沒把'Attention is All You Need'這句話按字面意思理解透”。前OpenAI強化學(xué)習(xí)VP Jerry Tworek稱之為“深度學(xué)習(xí)2.0”的開端。

第二天，3月17日，黃仁勛在GTC 2026的Keynote中多次提及中國開源模型。Kimi K2.5代替了去年的DeepSeek ，成為黃仁勛用來對全世界展示推理重要性的時候，那個作為標桿的模型。

3月18日，楊植麟更是直接登上GTC的分論壇演講。他是嘉賓名單中唯一來自獨立大模型創(chuàng)業(yè)公司的代表，與特斯拉AI總監(jiān)、DeepMind核心架構(gòu)師同列。演講現(xiàn)場也座無虛席，他系統(tǒng)披露了Kimi K2.5背后的技術(shù)路線，將模型進化歸納為Token效率、長上下文和智能體集群三個維度。

而在DeepSeek徹底走紅之前，在GTC上做分享最多的中國開源模型團隊，曾經(jīng)是DeepSeek。

論文、GTC、Cursor，三件事在一周內(nèi)接連落地，且這些亮眼的高光里都有與DeepSeek“時代更替”的意味：曾經(jīng)是DeepSeek 每篇論文都被全球技術(shù)社區(qū)和KOL大佬追捧轉(zhuǎn)發(fā)，曾經(jīng)GTC幾乎是DeepSeek的“非官方”發(fā)布會，甚至Cursor以前“悄悄套殼”的也是DeepSeek ，而一瞬間，全部變成了月之暗面Kimi。

站在DeepSeek的位置上

這讓很多人開始意識到，Kimi正在占據(jù)DeepSeek在全球AI社區(qū)中的位置。

DeepSeek R1在2025年初的爆發(fā)重塑了整個行業(yè)的認知，讓“中國AI”從一個模糊的概念變成了具體的、可以運行的模型權(quán)重。但自那之后，DeepSeek相對沉寂了。社區(qū)期待已久的V4/R2一直沒有發(fā)布，V3.1、V3.2等版本持續(xù)在更新，但那種“一出手就改寫規(guī)則”的沖擊感暫時沒有重現(xiàn)。

Kimi恰好踩進了這個窗口期。

2025年春節(jié)后，Kimi日活一度承壓，月之暗面砍掉了大筆營銷預(yù)算，閉門做模型。7月，Kimi K2發(fā)布，萬億參數(shù)MoE架構(gòu)。K2發(fā)布后在Hugging Face上線首日下載量超過平臺上所有其他模型，Anthropic聯(lián)合創(chuàng)始人Jack Clark評價其為“全球最好的開源權(quán)重模型”。

2026年1月底，K2.5發(fā)布，原生多模態(tài)加Agent集群架構(gòu)，在多項Agent評測中拿下全球開源最佳。OpenClaw熱潮到來后，Kimi Claw迅速上線。據(jù)報道，K2.5發(fā)布不到一個月，Kimi近20天累計收入就超過了2025年全年。Stripe數(shù)據(jù)顯示，Kimi個人訂閱用戶1月支付訂單環(huán)比增長8280%。

資本層面的節(jié)奏也在加快。2025年底5億美元C輪，投后估值43億美元；2026年2月超7億美元，估值升至100億美元；3月中旬新一輪10億美元正在推進，估值已到180億美元。同期港股上市的智譜和MiniMax，市值在3月中旬分別站上了3300億和3800億港元的量級，月之暗面還沒進二級市場，以當前AI板塊的溢價看，上市后的想象空間不小。

Kimi就這樣用DeepSeek的方式奪走了DeepSeek的光環(huán)。

Kimi K2的架構(gòu)直接脫胎于DeepSeek V3，MLA注意力機制、MoE專家混合框架都是DeepSeek首創(chuàng)或率先大規(guī)模驗證的。Kimi的崛起本身就是DeepSeek技術(shù)影響力的一種繼續(xù)。DeepSeek的開源策略也更為徹底，采用純MIT許可證，沒有任何營收門檻限制，這讓它在全球開發(fā)者生態(tài)中積累了極高的滲透率。Kimi的修改版MIT許可證在商業(yè)使用上多了一層約束，這次Cursor事件就是一個例子。

在DeepSeek相對安靜的這段時間里，Kimi接過了“中國AI開源代表”的話筒。無論是黃仁勛的演講臺、Cursor的模型底座，還是學(xué)術(shù)論文和開發(fā)者社區(qū)，Kimi正在填補一個需要持續(xù)有新鮮內(nèi)容的敘事空間。

而且Kimi做的也不只是出模型，Attention Residuals論文觸碰的是深度學(xué)習(xí)十年沒有實質(zhì)性變化的底層結(jié)構(gòu)，這和DeepSeek當年做MLA是一個路數(shù)，都是在嘗試重新定義行業(yè)的基礎(chǔ)設(shè)施。

中國AI開源的故事，正在從“一個DeepSeek”變成一個不停有新的奪走光環(huán)的玩家出現(xiàn)的故事，這和硅谷的節(jié)奏越來越像，OpenAI之后是Google，Google之后Anthropic，然后循環(huán)。

由中國的開源模型們交替接管全球開發(fā)者們的時間線，模型能力螺旋式上升的同時，話語權(quán)不旁落：等到DeepSeek 新模型出現(xiàn)時，Kimi的注意力會不會被奪走；MiniMax、Qwen、智譜、階躍以及同樣來勢洶洶新入局的小米們的新工作，會不會再突然奪走它們倆的主角位置，這些都在讓這種螺旋交替繼續(xù)下去，而這對每個中國AI參與者都是好事。

點個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.