網易首頁 > 網易號 > 正文申請入駐

聊聊 Token 出海的生意經：模型開源給世界，中國賺什么？

2026-03-26 12:19:19　來源: 后廠村的劉飛

浙江舉報

分享至

本周末有一條 AI 新聞挺有意思，跟大家聊聊。

AI 編程工具 Cursor 在 3 月 19 日發布了新模型 Composer 2，官網上寫的是「自有模型」。

Cursor 是目前全球最火的 AI 編程工具，本質上是一個深度集成了 AI 能力的 VS Code 修改版（國內類似的是字節的 TRAE）。從 2024 年 10 月 Composer 1 發布以來，外界就一直懷疑它的模型是套殼的，但找不到證據。

這次證據來了。發布不到 24 小時，一位開發者 @fynnso 想了個巧妙的辦法：自己架一臺服務器充當模型接口，然后在本地 Cursor 里把模型地址指向自己的服務器。這樣 Cursor 發出的請求就暴露了：模型 ID 是 kimi-k2p5-rl-0317-s515-fast。

Composer 2 的底座，是月之暗面的 Kimi K2.5。

截圖傳開后，Cursor 第一時間堵了漏洞，但沒什么用了。馬斯克也轉發確認。

Cursor 的一位負責人最終回應，承認使用了 K2.5，但強調是通過合作伙伴 Fireworks AI 獲得的合法授權。Kimi 官方也確認了這條授權鏈。從法律層面看，Cursor 并沒有侵權。

關于這件事的討論其實很多了，但我想聊另一個視角。

過去兩年，AI 領域有一條暗線。

2023 年，國內 AI 創業的主流姿態是拿 Meta 的 Llama 做微調。那時候行業的共識是「落后硅谷兩個世代」。

2024 年 5 月，DeepSeek 發布了 V2。這家從量化基金幻方孵化出來的公司，用 MoE（混合專家模型）和 MLA（多模態學習架構）兩項技術把模型的調用成本大幅壓低。MoE 的邏輯我在之前的 DeepSeek 小傳里寫過，簡單說就是不讓大模型當全才，而是讓它成為一個專家團，需要誰就喚醒誰。MLA 則大幅降低了內存占用，顯存壓力比傳統架構降低了 67%-90%。

當時大家對 DeepSeek 的印象主要還是「便宜」。到 12 月 V3 發布，疊加了 FP8 低精度訓練等新技術，官方披露的完整訓練成本是 557.6 萬美元，大約是 Meta Llama 3.1 訓練成本的十分之一，性能卻跟 GPT-4 基本持平。

然后是 2025 年 1 月，R1 發布。

R1 為什么重要，我在小傳里也講過。最核心的一點：它用純強化學習（pure RL）達到了 OpenAI o1 的推理水平，不需要人工標注的題庫，不需要有監督的微調，讓模型自己跟自己博弈，自己評估什么是好的答案。這不是「我用更少的錢做了你做過的事」，而是「我走了一條沒人走過的路」。

R1 之后，OpenAI 的奧特曼從最初暗諷 DeepSeek「只是復制已知工作」，到后來承認「DeepSeek 的出現改變了過去幾年 OpenAI 遙遙領先的情況」。Meta 據報道成立了多個專項小組拆解 DeepSeek 的方法。

這是第一波。

第二波來自 Kimi。2026 年 1 月底，K2.5 發布。萬億參數的 MoE 模型，原生多模態，在代碼生成、視覺理解和 Agent 工具調用上表現都不錯。關鍵是它開源了，采用 Modified MIT 協議。

發布后不久，K2.5 在 OpenRouter（一個全球開發者用來選擇和調用 AI 模型的聚合平臺）的調用量沖到了第一名，排在 Gemini 3 Flash 和 Claude Sonnet 4.5 前面。當然，當時 K2.5 在 OpenClaw 生態里可以免費調用，這對調用量的拉動作用不小。

三年前，國內公司拿著 Llama 做微調。現在，硅谷的頭部工具拿著 K2.5 做微調。這個變化的速度，超出了大多數人的預期。也是我們很多人之前沒想到的。

講到這里就要說到一個更基礎的問題了：開源模型的「供應鏈」到底是什么？

大多數人對「開源」的理解停留在：免費下載，自己用。會認為 DeepSeek 和 Kimi 的價值就是「幫家人們把價格打下來了」。

首先，這當然沒錯，但真實的商業世界里，開源模型的流轉路徑遠不止于此。

以 Cursor 這個案例為例，完整的鏈條是這樣的：

Kimi 開源 K2.5 → 硅谷的推理服務商 Fireworks AI 獲得授權，做托管、微調和強化學習訓練 → Fireworks AI 轉授權給 Cursor → Cursor 包裝成 Composer 2 提供給全球開發者。

中間每一層都有技術服務、有授權協議、有商業利益分配。這依然是商業行為，不是公益行為。

作為商業行為，開源模型的供應鏈正在像過去實體制造領域的中國供應鏈一樣，在全球產生影響。

一件優衣庫的衣服，從紗線到面料到成衣，供應鏈也在中國。新能源汽車的電池、光伏組件、稀土加工，全球市場對中國供應鏈的依賴程度很深。

這種依賴的形成是靠幾十年積累出來的成本優勢、工程能力和規模效應。全球品牌選擇中國供應鏈，跟喜歡跟誰交朋友關系不大，還是一筆經濟賬，即同樣的品質，成本更低；同樣的成本，交付更快。

AI 領域正在出現一個結構上有些類似的現象，原材料不是鋼鐵和棉花，是模型權重和推理算力。全球的 AI 應用層公司開始選擇中國的開源模型做底座，驅動力也很樸素，就是好用，便宜。

其實在科技領域是有知名的先例的： Android。Google 開源 AOSP，高通做芯片適配，三星華為做設備定制，運營商做渠道。用戶手里拿到的是一臺三星手機，但操作系統的底層邏輯、API 規范和生態標準是 Google 定義的。供應鏈上每一層都在賺錢，定義底座的那一層，話語權也相當大。

當然這還只是一個可能的方向，不是既成事實。還有很遠的路要走。

說到 AI 供應鏈，自然就要提到 2026 年開年的第一個 AI 大火的領域，養龍蝦。

OpenClaw 是一個開源 Agent 框架，奧地利開發者 Peter Steinberger 的作品。龍蝦需要一個大腦，或者說需要喂養飼料。OpenClaw 本身是框架，不提供模型，用戶得自己選。【可以參考我之前的這篇：】

K2.5 成了 OpenClaw 官方推薦的主力模型。大廠跟進，字節的 ArkClaw、騰訊的 QClaw、智譜的 AutoClaw、MiniMax 的 MaxClaw、阿里的 CoPaw……2026 年 3 月密集上線。其中底層調用量最大的模型里就包括了 K2.5、DeepSeek、Qwen 系列、MiniMax。開源模型持續占據了 token 流量的主流。

這條鏈路跟實體供應鏈也有一些相似之處。富士康給蘋果代工，也給華為代工，也給小米代工。誰的手機賣得好，富士康都賺錢，因為它在供應鏈的位置足夠底層。

如果說 Cursor 事件暴露的是 B 端供應鏈里的故事，龍蝦生態展示的是 C 端供應鏈里的故事。兩條鏈路指向同一個事實：底座模型的位置，越來越像基礎設施了。

從龍蝦也能看得出，基礎設施的敘事也逐步變成現實。token 即未來 AI 時代的水電煤。

這個「水電煤」的市場到底有多大？有一組數據可以參考。

據華泰柏瑞基金的統計，中國整體日均 Token 消耗從 2024 年初的大約 1000 億，到 2025 年年中突破 30 萬億，2026 年 2 月已經到了 180 萬億的量級。龍蝦這類 Agent 應用每天全天候運行，消耗的 Token 量比過去的 Chatbot 對話高出幾個數量級。

3 月 16 日，阿里宣布成立 Alibaba Token Hub（ATH）事業群，跟電商、云智能并列，由 CEO 吳泳銘直接帶隊。整個事業群圍繞一件事：創造 Token、輸送 Token、應用 Token。通義實驗室造模型，MaaS 業務線搭平臺，千問做 C 端，新成立的悟空事業部做 B 端。

Token 這個詞以前只在技術社區里用，現在被一家萬億市值的公司拿來命名核心事業群。

如果 Token 真的在變成 AI 時代的水電煤，那誰能穩定、低成本地提供大量 Token，誰就在這個生態里有位置。開源模型在這件事上有天然優勢：部署靈活、成本可控、不依賴單一供應商。DeepSeek 和 Kimi 這類把成本打下來同時保持性能的開源模型，就相當于這個市場里的低成本發電廠。他們會是這個市場里非常重要的一類玩家。

為什么中國的開源模型會受歡迎？

Cloudflare 做過實測，在 Workers AI 平臺上用 K2.5 替代其他模型，推理成本降低了 77%。Cursor 自己披露的數據也說明了選擇邏輯：Composer 2 性能略低于 GPT-5.4，但生成速度更快，成本最低。對一家年化收入 20 億美元的公司來說，這筆賬很好算。

再看龍蝦生態。K2.5 在 OpenRouter 的定價大約是每百萬輸入 token 0.5 美元、輸出 2.8 美元。Claude Sonnet 4.5 是 3 美元和 15 美元。差六到七倍。龍蝦的使用場景是高頻調用，一個復雜任務可能要跑上百步甚至上千步。在這種場景下，六倍的成本差異不是「省一點」的問題，是「能不能供養它跑得起來」的問題。

這跟 DeepSeek 當年打下來的價格基礎一脈相承。V3 把每百萬 token 的價格打到了人民幣個位數，R1 更是把推理模型的價格拉到了 OpenAI o1 的幾十分之一。當時我寫 DeepSeek 小傳的時候提過，任何一個市場里出現這樣的價差，都會引起劇烈震蕩。2.6 萬塊錢的手機現在只賣 1000 塊錢，試想這種沖擊力。

光便宜恐怕也不行。

DeepSeek 用那個價格提供的，是跟行業頂尖產品同等水平的服務。K2.5 也是一樣，Cursor 的 Composer 2 在 Cursor 自己官方的測試 CursorBench 上的得分超過了 Claude Opus 4.6，而它的底座就是 K2.5。

這聽起來似乎在說 K2.5 比 Claude 更強，當然也不能這么說。畢竟跟多數人用 ChatBot 的體感應該是不一樣的。

Cursor 副總裁 Lee Robinson 在回應中提到，最終模型只有大約 1/4 的算力來自底座，剩下 3/4 是 Cursor 自己做的繼續預訓練和大規模強化學習。

聯合創始人 Aman Sanger 進一步解釋，團隊在多個底座上做了評估，K2.5 在編程相關的指標上表現最強，然后在此基礎上做了針對編程場景的繼續預訓練（調整任務分布和能力側重）和 4 倍算力的強化學習訓練。經過這些處理之后，Composer 2 在各項 benchmark 上的表現跟原始的 K2.5「已經非常不同了」。

換句話說，Cursor 選 K2.5 不是因為它「比 Claude 聰明」，而是因為它作為底座在編程方向上的潛力最好，經過大量定向訓練之后能達到很高的性價比，能接近頂尖閉源模型，但成本低得多。

這其實也是整個開源生態的價值所在：不需要從零訓練一個千億參數的模型，拿一個強底座做垂直場景的深度優化，就能在特定任務上跟閉源巨頭打得有來有回。Cursor 不是唯一這么做的，Cognition 的 Windsurf 也采用了類似路徑。

DeepSeek 在成本端打開的空間，K2.5 在 Agent 和代碼兩個關鍵場景里進一步延伸了，構成了中國 AI 供應鏈的基本敘事。Kimi 的 K2.5 發布后得到了極高的關注，20 天收入超過 2025 全年。海外收入首次反超國內。三個月內估值從 43 億美元漲到 180 億。

說到估值，有一個對比值得想想。

Cursor 的新一輪融資傳言估值 500 億美元。它的估值歷程是：2023 年 10 月 5000 萬，2024 年 8 月 4 億，12 月 26 億，2025 年 11 月 293 億。火箭式增長。

支撐這個增長的敘事很重要，「我們有自己的模型研發能力」。Composer 1 和 Composer 2 都在強化這個故事。

而提供底座的 Kimi，估值 180 億美元，大約是 Cursor 目標估值的三分之一。放在供應鏈的語境里看，這就好比一個品牌商的市值是核心供應商的三倍，但品牌商的產品核心來自這個供應商。不是說這個比例一定不合理，Cursor 的產品力、用戶粘性和商業模式確實有自身的價值，但至少說明市場對「底座」和「殼」的定價，可能還存在一些認知上的時間差。

類似的情況不止 Cursor 一家。前段時間很火的 Manus，主打 AI Agent，也沒有自己的底層模型，完全依賴第三方。就因為產品和場景受到認同，被 Meta 開出了 20 億的價碼。

更值得關注的是橫向對比。Kimi 180 億美元，大約是 OpenAI 的 2%，Anthropic 的不到 10%。DeepSeek 目前沒有公開融資，梁文鋒用幻方的資金自給自足，84% 的控股幾乎沒被稀釋。這種獨立性讓他可以不受投資人壓力，專注長期研究。

這兩家公司的底層技術輸出正在被全球使用，它們的市場定價，還在被「全球 AI 基礎設施提供商」這個身份重估。

不過也有一種完全不同的看法：模型層最終會變成大宗商品（commodity），真正的價值在離用戶更近的應用層和數據層。按照這個邏輯，Cursor 的估值恰恰反映了它離用戶更近、離錢更近。兩種判斷都有各自的道理，現在下結論可能為時過早。

為什么小公司也有做模型的技術機會呢？

3 月中旬，楊植麟受黃仁勛邀請在英偉達 GTC 大會演講，是唯一受邀的中國大模型公司代表。他講的是 Kimi 團隊剛發表的論文《Attention Residuals》。

這篇論文的切入點很有意思。殘差連接是深度學習領域從 2015 年 ResNet 提出后就一直沿用的基礎架構組件，10 年來幾乎沒人質疑它。大多數團隊選擇在注意力機制、MoE 這些上層模塊上做優化，Kimi 在嘗試從最底層的默認配置去找空間。

馬斯克和 Karpathy 都點贊了這篇文章。而論文的一作是一個 17 歲的高中生。

除了 Attention Residuals，Kimi 還開源了 MuonClip（替代用了 11 年的 Adam 優化器）和 Kimi Linear（線性注意力方案）。楊植麟在 GTC 上把這些統稱為 Scaling Ladder，即通過嚴謹的規模化實驗，從那些看似已經定型的基礎技術里，找到新的改進空間。

把 DeepSeek 和 Kimi 放在一起看，能看到一個互補的格局。DeepSeek 的貢獻主要在訓練方法論層面，pure RL 重新定義了推理模型怎么訓練，MoE 和 MLA 的極致工程把訓練成本壓到了行業的十分之一。Kimi 的貢獻主要在網絡架構的基礎組件層面，從殘差連接到優化器到注意力機制，在最底層做創新。

這兩類工作有一個共同特點：它們都不是在跑分榜上爭排名，而是在做范式層面的事情。梁文鋒說過，很多人以為 AI 就是大力出奇跡，但真正的突破往往來自更巧妙的方法，而不是更多的資源。楊植麟在 GTC 上也表達了類似的意思：10 年前做研究主要靠發表新想法，但缺乏嚴謹的大規模實驗來驗證。現在有了充足的計算資源和 Scaling Ladder 方法論，能夠更嚴格地從那些看似「已經定型」的技術里找到改進空間。

這跟國內很多大廠做模型的路徑有些不同。大廠的資源更充裕，產品線也更豐富，但核心動作往往是圍繞自己的業務做集成和優化。在「回到第一性原理去挑戰底層假設」這件事上，受限于業務壓力和組織慣性，大廠很難給出足夠的空間和耐心。

回到供應鏈的類比。實體制造業的供應鏈里，真正有持久話語權的不是組裝廠，而是定義核心零部件和技術標準的那一層：臺積電的先進制程，高通的基帶芯片，ARM 的指令集架構。AI 的供應鏈也一樣，如果底座模型不只是「好用又便宜」，還在輸出底層的技術組件和方法論，那它在供應鏈里的位置就不只是一個供應商，而更接近基礎設施和標準制定者了。

當然，這還只是一個趨勢，遠沒有到可以下結論的程度。

最后說幾句開源的未來。

開源不是一件輕松的事。它需要幾個條件同時滿足：技術上得有足夠強的模型，開源出去才有人用；商業上得忍得住短期讓利的「虧損期」；戰略上不能被價格戰和短期競爭帶偏。

比如 MiniMax 的最新模型 M2.7 已經轉閉源了，權重不再公開。

前不久千問發生的事也一定程度說明了開源面臨的挑戰。3 月初，阿里千問的技術負責人林俊旸宣布離職，主流的說法是，技術理想和公司戰略 KPI 之間存在不可調和的沖突。

Meta 方面，圍繞 Llama 4 的測試和路線出現了內部爭議，據報道 Meta 下一代模型可能轉向閉源。大廠做開源，似乎總會遇到同樣的問題：短期里，管理層很難看到開源的直接收益；長期里，開源團隊很難按大廠的節奏匯報成果。

即便有了商業閉環，開源模型的窗口期仍然有很多不確定因素。地緣政治在收緊，DeepSeek 已經在一些國家被限制使用，美國有參議員公開呼吁加強對華 AI 管制。

競爭對手也在發力，OpenAI 在加速推出新模型。投資人的耐心也有限，不是每個股東都能接受「先讓全世界免費用，長期再賺錢」這種延遲滿足的邏輯。

如果未來更多的模型公司轉向閉源，那些已經依賴上中國開源模型的全球應用層公司和開發者，就需要重新找方案了。

那么無論是 Cursor 和龍蝦對 Kimi 模型的調用，還是去年的 DeepSeek 的震驚全球，中國開源模型到底意味著什么呢？

討論時，很容易走向兩個極端。一邊有人帶著民族情緒說贏麻了，一邊可能從純技術視角判斷并沒有新的范式因此不過如此。開源模型自然有其場景價值，也有其局限和問題。真正的未來，是技術+商業+產品不斷迭代變化中發生的。

目前能看到的是，全球 AI 的基礎設施正在從「美國提供模型，全世界做應用」的單一結構，慢慢變成一個參與方更多、層次更復雜的供應鏈體系。DeepSeek 和 Kimi 為代表的中國開源模型，是這個變化里的重要變量。但也只是變量之一。

這個過程才剛剛開始。也期待 AI 供應鏈能跑出不同的技術競爭力，正如很多全球知名的智能硬件品牌，也是珠三角供應鏈水平的外溢一樣。

而這些更便宜、性能在持續追平的開源模型正在支撐很多主流編程工具和 Agent 框架。

對于我們這些普通從業者、開發者、內容生產者來說，最實際的收獲可能就是：我們能更便宜地用上更多的 AI 產品。

就說到這里，希望有啟發~

Claude、Gemini 亦有幫助。

題圖由 Midjourney 繪制。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.