網易首頁 > 網易號 > 正文 申請入駐

聊聊 Token 出海的生意經:模型開源給世界,中國賺什么?

0
分享至


1

本周末有一條 AI 新聞挺有意思,跟大家聊聊。

AI 編程工具 Cursor 在 3 月 19 日發布了新模型 Composer 2,官網上寫的是「自有模型」。

Cursor 是目前全球最火的 AI 編程工具,本質上是一個深度集成了 AI 能力的 VS Code 修改版(國內類似的是字節的 TRAE)。從 2024 年 10 月 Composer 1 發布以來,外界就一直懷疑它的模型是套殼的,但找不到證據。

這次證據來了。發布不到 24 小時,一位開發者 @fynnso 想了個巧妙的辦法:自己架一臺服務器充當模型接口,然后在本地 Cursor 里把模型地址指向自己的服務器。這樣 Cursor 發出的請求就暴露了:模型 ID 是 kimi-k2p5-rl-0317-s515-fast。

Composer 2 的底座,是月之暗面的 Kimi K2.5。

截圖傳開后,Cursor 第一時間堵了漏洞,但沒什么用了。馬斯克也轉發確認。


Cursor 的一位負責人最終回應,承認使用了 K2.5,但強調是通過合作伙伴 Fireworks AI 獲得的合法授權。Kimi 官方也確認了這條授權鏈。從法律層面看,Cursor 并沒有侵權。

關于這件事的討論其實很多了,但我想聊另一個視角。

2

過去兩年,AI 領域有一條暗線。

2023 年,國內 AI 創業的主流姿態是拿 Meta 的 Llama 做微調。那時候行業的共識是「落后硅谷兩個世代」。

2024 年 5 月,DeepSeek 發布了 V2。這家從量化基金幻方孵化出來的公司,用 MoE(混合專家模型)和 MLA(多模態學習架構)兩項技術把模型的調用成本大幅壓低。MoE 的邏輯我在之前的 DeepSeek 小傳里寫過,簡單說就是不讓大模型當全才,而是讓它成為一個專家團,需要誰就喚醒誰。MLA 則大幅降低了內存占用,顯存壓力比傳統架構降低了 67%-90%。

當時大家對 DeepSeek 的印象主要還是「便宜」。到 12 月 V3 發布,疊加了 FP8 低精度訓練等新技術,官方披露的完整訓練成本是 557.6 萬美元,大約是 Meta Llama 3.1 訓練成本的十分之一,性能卻跟 GPT-4 基本持平。

然后是 2025 年 1 月,R1 發布。

R1 為什么重要,我在小傳里也講過。最核心的一點:它用純強化學習(pure RL)達到了 OpenAI o1 的推理水平,不需要人工標注的題庫,不需要有監督的微調,讓模型自己跟自己博弈,自己評估什么是好的答案。這不是「我用更少的錢做了你做過的事」,而是「我走了一條沒人走過的路」。

R1 之后,OpenAI 的奧特曼從最初暗諷 DeepSeek「只是復制已知工作」,到后來承認「DeepSeek 的出現改變了過去幾年 OpenAI 遙遙領先的情況」。Meta 據報道成立了多個專項小組拆解 DeepSeek 的方法。

這是第一波。

第二波來自 Kimi。2026 年 1 月底,K2.5 發布。萬億參數的 MoE 模型,原生多模態,在代碼生成、視覺理解和 Agent 工具調用上表現都不錯。關鍵是它開源了,采用 Modified MIT 協議。

發布后不久,K2.5 在 OpenRouter(一個全球開發者用來選擇和調用 AI 模型的聚合平臺)的調用量沖到了第一名,排在 Gemini 3 Flash 和 Claude Sonnet 4.5 前面。當然,當時 K2.5 在 OpenClaw 生態里可以免費調用,這對調用量的拉動作用不小。

三年前,國內公司拿著 Llama 做微調。現在,硅谷的頭部工具拿著 K2.5 做微調。這個變化的速度,超出了大多數人的預期。也是我們很多人之前沒想到的。

3

講到這里就要說到一個更基礎的問題了:開源模型的「供應鏈」到底是什么?

大多數人對「開源」的理解停留在:免費下載,自己用。會認為 DeepSeek 和 Kimi 的價值就是「幫家人們把價格打下來了」。

首先,這當然沒錯,但真實的商業世界里,開源模型的流轉路徑遠不止于此。

以 Cursor 這個案例為例,完整的鏈條是這樣的:

Kimi 開源 K2.5 → 硅谷的推理服務商 Fireworks AI 獲得授權,做托管、微調和強化學習訓練 → Fireworks AI 轉授權給 Cursor → Cursor 包裝成 Composer 2 提供給全球開發者。

中間每一層都有技術服務、有授權協議、有商業利益分配。這依然是商業行為,不是公益行為。

作為商業行為,開源模型的供應鏈正在像過去實體制造領域的中國供應鏈一樣,在全球產生影響。

一件優衣庫的衣服,從紗線到面料到成衣,供應鏈也在中國。新能源汽車的電池、光伏組件、稀土加工,全球市場對中國供應鏈的依賴程度很深。

這種依賴的形成是靠幾十年積累出來的成本優勢、工程能力和規模效應。全球品牌選擇中國供應鏈,跟喜歡跟誰交朋友關系不大,還是一筆經濟賬,即同樣的品質,成本更低;同樣的成本,交付更快。

AI 領域正在出現一個結構上有些類似的現象,原材料不是鋼鐵和棉花,是模型權重和推理算力。全球的 AI 應用層公司開始選擇中國的開源模型做底座,驅動力也很樸素,就是好用,便宜。

其實在科技領域是有知名的先例的: Android。Google 開源 AOSP,高通做芯片適配,三星華為做設備定制,運營商做渠道。用戶手里拿到的是一臺三星手機,但操作系統的底層邏輯、API 規范和生態標準是 Google 定義的。供應鏈上每一層都在賺錢,定義底座的那一層,話語權也相當大。

當然這還只是一個可能的方向,不是既成事實。還有很遠的路要走。

4

說到 AI 供應鏈,自然就要提到 2026 年開年的第一個 AI 大火的領域,養龍蝦。

OpenClaw 是一個開源 Agent 框架,奧地利開發者 Peter Steinberger 的作品。龍蝦需要一個大腦,或者說需要喂養飼料。OpenClaw 本身是框架,不提供模型,用戶得自己選。【可以參考我之前的這篇:】

K2.5 成了 OpenClaw 官方推薦的主力模型。大廠跟進,字節的 ArkClaw、騰訊的 QClaw、智譜的 AutoClaw、MiniMax 的 MaxClaw、阿里的 CoPaw……2026 年 3 月密集上線。其中底層調用量最大的模型里就包括了 K2.5、DeepSeek、Qwen 系列、MiniMax。開源模型持續占據了 token 流量的主流。

這條鏈路跟實體供應鏈也有一些相似之處。富士康給蘋果代工,也給華為代工,也給小米代工。誰的手機賣得好,富士康都賺錢,因為它在供應鏈的位置足夠底層。

如果說 Cursor 事件暴露的是 B 端供應鏈里的故事,龍蝦生態展示的是 C 端供應鏈里的故事。兩條鏈路指向同一個事實:底座模型的位置,越來越像基礎設施了。

從龍蝦也能看得出,基礎設施的敘事也逐步變成現實。token 即未來 AI 時代的水電煤。

這個「水電煤」的市場到底有多大?有一組數據可以參考。

據華泰柏瑞基金的統計,中國整體日均 Token 消耗從 2024 年初的大約 1000 億,到 2025 年年中突破 30 萬億,2026 年 2 月已經到了 180 萬億的量級。龍蝦這類 Agent 應用每天全天候運行,消耗的 Token 量比過去的 Chatbot 對話高出幾個數量級。

3 月 16 日,阿里宣布成立 Alibaba Token Hub(ATH)事業群,跟電商、云智能并列,由 CEO 吳泳銘直接帶隊。整個事業群圍繞一件事:創造 Token、輸送 Token、應用 Token。通義實驗室造模型,MaaS 業務線搭平臺,千問做 C 端,新成立的悟空事業部做 B 端。

Token 這個詞以前只在技術社區里用,現在被一家萬億市值的公司拿來命名核心事業群。

如果 Token 真的在變成 AI 時代的水電煤,那誰能穩定、低成本地提供大量 Token,誰就在這個生態里有位置。開源模型在這件事上有天然優勢:部署靈活、成本可控、不依賴單一供應商。DeepSeek 和 Kimi 這類把成本打下來同時保持性能的開源模型,就相當于這個市場里的低成本發電廠。他們會是這個市場里非常重要的一類玩家。

5

為什么中國的開源模型會受歡迎?

Cloudflare 做過實測,在 Workers AI 平臺上用 K2.5 替代其他模型,推理成本降低了 77%。Cursor 自己披露的數據也說明了選擇邏輯:Composer 2 性能略低于 GPT-5.4,但生成速度更快,成本最低。對一家年化收入 20 億美元的公司來說,這筆賬很好算。

再看龍蝦生態。K2.5 在 OpenRouter 的定價大約是每百萬輸入 token 0.5 美元、輸出 2.8 美元。Claude Sonnet 4.5 是 3 美元和 15 美元。差六到七倍。龍蝦的使用場景是高頻調用,一個復雜任務可能要跑上百步甚至上千步。在這種場景下,六倍的成本差異不是「省一點」的問題,是「能不能供養它跑得起來」的問題。

這跟 DeepSeek 當年打下來的價格基礎一脈相承。V3 把每百萬 token 的價格打到了人民幣個位數,R1 更是把推理模型的價格拉到了 OpenAI o1 的幾十分之一。當時我寫 DeepSeek 小傳的時候提過,任何一個市場里出現這樣的價差,都會引起劇烈震蕩。2.6 萬塊錢的手機現在只賣 1000 塊錢,試想這種沖擊力。

光便宜恐怕也不行。

DeepSeek 用那個價格提供的,是跟行業頂尖產品同等水平的服務。K2.5 也是一樣,Cursor 的 Composer 2 在 Cursor 自己官方的測試 CursorBench 上的得分超過了 Claude Opus 4.6,而它的底座就是 K2.5。

這聽起來似乎在說 K2.5 比 Claude 更強,當然也不能這么說。畢竟跟多數人用 ChatBot 的體感應該是不一樣的。

Cursor 副總裁 Lee Robinson 在回應中提到,最終模型只有大約 1/4 的算力來自底座,剩下 3/4 是 Cursor 自己做的繼續預訓練和大規模強化學習。

聯合創始人 Aman Sanger 進一步解釋,團隊在多個底座上做了評估,K2.5 在編程相關的指標上表現最強,然后在此基礎上做了針對編程場景的繼續預訓練(調整任務分布和能力側重)和 4 倍算力的強化學習訓練。經過這些處理之后,Composer 2 在各項 benchmark 上的表現跟原始的 K2.5「已經非常不同了」。

換句話說,Cursor 選 K2.5 不是因為它「比 Claude 聰明」,而是因為它作為底座在編程方向上的潛力最好,經過大量定向訓練之后能達到很高的性價比,能接近頂尖閉源模型,但成本低得多。

這其實也是整個開源生態的價值所在:不需要從零訓練一個千億參數的模型,拿一個強底座做垂直場景的深度優化,就能在特定任務上跟閉源巨頭打得有來有回。Cursor 不是唯一這么做的,Cognition 的 Windsurf 也采用了類似路徑。



DeepSeek 在成本端打開的空間,K2.5 在 Agent 和代碼兩個關鍵場景里進一步延伸了,構成了中國 AI 供應鏈的基本敘事。Kimi 的 K2.5 發布后得到了極高的關注,20 天收入超過 2025 全年。海外收入首次反超國內。三個月內估值從 43 億美元漲到 180 億。

說到估值,有一個對比值得想想。

Cursor 的新一輪融資傳言估值 500 億美元。它的估值歷程是:2023 年 10 月 5000 萬,2024 年 8 月 4 億,12 月 26 億,2025 年 11 月 293 億。火箭式增長。

支撐這個增長的敘事很重要,「我們有自己的模型研發能力」。Composer 1 和 Composer 2 都在強化這個故事。

而提供底座的 Kimi,估值 180 億美元,大約是 Cursor 目標估值的三分之一。放在供應鏈的語境里看,這就好比一個品牌商的市值是核心供應商的三倍,但品牌商的產品核心來自這個供應商。不是說這個比例一定不合理,Cursor 的產品力、用戶粘性和商業模式確實有自身的價值,但至少說明市場對「底座」和「殼」的定價,可能還存在一些認知上的時間差。

類似的情況不止 Cursor 一家。前段時間很火的 Manus,主打 AI Agent,也沒有自己的底層模型,完全依賴第三方。就因為產品和場景受到認同,被 Meta 開出了 20 億的價碼。

更值得關注的是橫向對比。Kimi 180 億美元,大約是 OpenAI 的 2%,Anthropic 的不到 10%。DeepSeek 目前沒有公開融資,梁文鋒用幻方的資金自給自足,84% 的控股幾乎沒被稀釋。這種獨立性讓他可以不受投資人壓力,專注長期研究。

這兩家公司的底層技術輸出正在被全球使用,它們的市場定價,還在被「全球 AI 基礎設施提供商」這個身份重估。

不過也有一種完全不同的看法:模型層最終會變成大宗商品(commodity),真正的價值在離用戶更近的應用層和數據層。按照這個邏輯,Cursor 的估值恰恰反映了它離用戶更近、離錢更近。兩種判斷都有各自的道理,現在下結論可能為時過早。

6

為什么小公司也有做模型的技術機會呢?

3 月中旬,楊植麟受黃仁勛邀請在英偉達 GTC 大會演講,是唯一受邀的中國大模型公司代表。他講的是 Kimi 團隊剛發表的論文《Attention Residuals》。


這篇論文的切入點很有意思。殘差連接是深度學習領域從 2015 年 ResNet 提出后就一直沿用的基礎架構組件,10 年來幾乎沒人質疑它。大多數團隊選擇在注意力機制、MoE 這些上層模塊上做優化,Kimi 在嘗試從最底層的默認配置去找空間。

馬斯克和 Karpathy 都點贊了這篇文章。而論文的一作是一個 17 歲的高中生。

除了 Attention Residuals,Kimi 還開源了 MuonClip(替代用了 11 年的 Adam 優化器)和 Kimi Linear(線性注意力方案)。楊植麟在 GTC 上把這些統稱為 Scaling Ladder,即通過嚴謹的規模化實驗,從那些看似已經定型的基礎技術里,找到新的改進空間。

把 DeepSeek 和 Kimi 放在一起看,能看到一個互補的格局。DeepSeek 的貢獻主要在訓練方法論層面,pure RL 重新定義了推理模型怎么訓練,MoE 和 MLA 的極致工程把訓練成本壓到了行業的十分之一。Kimi 的貢獻主要在網絡架構的基礎組件層面,從殘差連接到優化器到注意力機制,在最底層做創新。

這兩類工作有一個共同特點:它們都不是在跑分榜上爭排名,而是在做范式層面的事情。梁文鋒說過,很多人以為 AI 就是大力出奇跡,但真正的突破往往來自更巧妙的方法,而不是更多的資源。楊植麟在 GTC 上也表達了類似的意思:10 年前做研究主要靠發表新想法,但缺乏嚴謹的大規模實驗來驗證。現在有了充足的計算資源和 Scaling Ladder 方法論,能夠更嚴格地從那些看似「已經定型」的技術里找到改進空間。

這跟國內很多大廠做模型的路徑有些不同。大廠的資源更充裕,產品線也更豐富,但核心動作往往是圍繞自己的業務做集成和優化。在「回到第一性原理去挑戰底層假設」這件事上,受限于業務壓力和組織慣性,大廠很難給出足夠的空間和耐心。

回到供應鏈的類比。實體制造業的供應鏈里,真正有持久話語權的不是組裝廠,而是定義核心零部件和技術標準的那一層:臺積電的先進制程,高通的基帶芯片,ARM 的指令集架構。AI 的供應鏈也一樣,如果底座模型不只是「好用又便宜」,還在輸出底層的技術組件和方法論,那它在供應鏈里的位置就不只是一個供應商,而更接近基礎設施和標準制定者了。

當然,這還只是一個趨勢,遠沒有到可以下結論的程度。

7

最后說幾句開源的未來。

開源不是一件輕松的事。它需要幾個條件同時滿足:技術上得有足夠強的模型,開源出去才有人用;商業上得忍得住短期讓利的「虧損期」;戰略上不能被價格戰和短期競爭帶偏。

比如 MiniMax 的最新模型 M2.7 已經轉閉源了,權重不再公開。

前不久千問發生的事也一定程度說明了開源面臨的挑戰。3 月初,阿里千問的技術負責人林俊旸宣布離職,主流的說法是,技術理想和公司戰略 KPI 之間存在不可調和的沖突。

Meta 方面,圍繞 Llama 4 的測試和路線出現了內部爭議,據報道 Meta 下一代模型可能轉向閉源。大廠做開源,似乎總會遇到同樣的問題:短期里,管理層很難看到開源的直接收益;長期里,開源團隊很難按大廠的節奏匯報成果。

即便有了商業閉環,開源模型的窗口期仍然有很多不確定因素。地緣政治在收緊,DeepSeek 已經在一些國家被限制使用,美國有參議員公開呼吁加強對華 AI 管制。

競爭對手也在發力,OpenAI 在加速推出新模型。投資人的耐心也有限,不是每個股東都能接受「先讓全世界免費用,長期再賺錢」這種延遲滿足的邏輯。

如果未來更多的模型公司轉向閉源,那些已經依賴上中國開源模型的全球應用層公司和開發者,就需要重新找方案了。

那么無論是 Cursor 和龍蝦對 Kimi 模型的調用,還是去年的 DeepSeek 的震驚全球,中國開源模型到底意味著什么呢?

討論時,很容易走向兩個極端。一邊有人帶著民族情緒說贏麻了,一邊可能從純技術視角判斷并沒有新的范式因此不過如此。開源模型自然有其場景價值,也有其局限和問題。真正的未來,是技術+商業+產品不斷迭代變化中發生的。

目前能看到的是,全球 AI 的基礎設施正在從「美國提供模型,全世界做應用」的單一結構,慢慢變成一個參與方更多、層次更復雜的供應鏈體系。DeepSeek 和 Kimi 為代表的中國開源模型,是這個變化里的重要變量。但也只是變量之一。

這個過程才剛剛開始。也期待 AI 供應鏈能跑出不同的技術競爭力,正如很多全球知名的智能硬件品牌,也是珠三角供應鏈水平的外溢一樣。

而這些更便宜、性能在持續追平的開源模型正在支撐很多主流編程工具和 Agent 框架。

對于我們這些普通從業者、開發者、內容生產者來說,最實際的收獲可能就是:我們能更便宜地用上更多的 AI 產品。

就說到這里,希望有啟發~


Claude、Gemini 亦有幫助。

題圖由 Midjourney 繪制。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
4月22日俄烏最新:中將親自帶隊沖鋒

4月22日俄烏最新:中將親自帶隊沖鋒

西樓飲月
2026-04-22 18:37:19
外媒:韓飛行員開戰機空中拍照致撞機

外媒:韓飛行員開戰機空中拍照致撞機

參考消息
2026-04-23 13:10:21
香農芯創:第一季度凈利潤同比增長7835%

香農芯創:第一季度凈利潤同比增長7835%

財聯社
2026-04-23 19:40:09
捷克軍機訪臺申請被拒

捷克軍機訪臺申請被拒

陸棄
2026-04-22 09:10:45
谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

機器之心Pro
2026-04-20 10:26:40
巴薩確認亞馬爾賽季報銷,保守治療以期趕上世界杯

巴薩確認亞馬爾賽季報銷,保守治療以期趕上世界杯

體壇周報
2026-04-23 20:16:21
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
中國軍事崛起全靠葉利欽?他到底為我國做了什么,竟值一噸大勛章

中國軍事崛起全靠葉利欽?他到底為我國做了什么,竟值一噸大勛章

朝子亥
2026-04-23 19:20:03
143億美元!日本拿下戰后最大武器出口訂單,中國周邊將迎劇變

143億美元!日本拿下戰后最大武器出口訂單,中國周邊將迎劇變

趣文說娛
2026-04-22 20:05:31
匈奴女人有一特點,讓中原男子避之不及,就算再漂亮也不敢娶回家

匈奴女人有一特點,讓中原男子避之不及,就算再漂亮也不敢娶回家

新一說史
2026-04-22 02:07:50
老兵被拒上廁所后續,拒絕網友捐款,訴求仍未解決,老兵疑被威脅

老兵被拒上廁所后續,拒絕網友捐款,訴求仍未解決,老兵疑被威脅

米果說識
2026-04-23 14:40:56
一口價18.48萬上市,真越野的四驅進口SUV!

一口價18.48萬上市,真越野的四驅進口SUV!

米粒說車唯一呀
2026-04-23 14:50:59
女子被扇耳光后續:保安先動手 他不是學校保安 黑料被扒不是善茬

女子被扇耳光后續:保安先動手 他不是學校保安 黑料被扒不是善茬

小鋭有話說
2026-04-23 10:54:05
“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

妍妍教育日記
2026-04-15 09:30:09
烏度卡才是第一杜黑?

烏度卡才是第一杜黑?

靜易墨
2026-04-23 21:01:12
31分逆轉背后:亨德森的三年蛻變實驗

31分逆轉背后:亨德森的三年蛻變實驗

賽場名場面
2026-04-23 21:27:04
全面壓制!美日菲七國軍演拉開帷幕,中國雙航母戰斗群沖向南海!

全面壓制!美日菲七國軍演拉開帷幕,中國雙航母戰斗群沖向南海!

阿龍聊軍事
2026-04-22 15:02:44
阿森納爭冠軍差?先贏1-0再說

阿森納爭冠軍差?先贏1-0再說

籃壇第一線
2026-04-22 21:15:35
原來我們錯怪高市早苗了

原來我們錯怪高市早苗了

深度報
2026-04-22 22:24:39
2026-04-23 21:47:00
后廠村的劉飛 incentive-icons
后廠村的劉飛
產品經理
62文章數 75關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

健康
藝術
游戲
家居
數碼

干細胞如何讓燒燙傷皮膚"再生"?

藝術要聞

她辭掉高管,花20年自費100萬:這本書,救了山西“正在消失的壁畫”

PS輸麻了?幫對手狂賺數億美元 再也不需死守獨占

家居要聞

浪漫協奏 法式風格

數碼要聞

全球首款SGS卓越可靠性認證!榮耀筆記本X16 Plus評測:大屏輕薄本竟如此抗造

無障礙瀏覽 進入關懷版