網易首頁 > 網易科技 > 網易科技 > 正文

DeepSeek那次讓硅谷失眠，這一次，中國模型讓硅谷排隊點贊

2026-06-22 17:04:21　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 辰辰

編輯 | 王鳳枝

硅谷技術圈在排隊夸一個中國AI模型。

GLM 5.2發布后的48小時內，fast.ai創始人、Vercel CEO、前DeepMind高管，這群人平時不輕易夸對手，更不會夸中國模型，在X上排著隊說它好。

沒有PR安排。沒有"但我們也有優勢"。就是好用，所以說了。

上一次硅谷被中國模型震到，是DeepSeek R1。那次的核心詞是便宜。這一次不是便宜，是夠用。

資本市場也在講同一個故事。6月22日，智譜港股盤中突破1萬億港元，漲近20%。DeepSeek那次讓納斯達克一天蒸發了1萬億美元。這一次，智譜自己的市值在港股盤中突破了1萬億港元。

一、排隊點贊的人

先看排隊的人都有誰。

馬特·維羅索（Mat Velloso），先后在Meta、谷歌DeepMind和微軟擔任過高管，見過所有頂級模型。他在X上寫了一句話：

"用了一整天GLM 5.2。沒覺得缺什么。第一個能當日常用車（daily driver）的開源模型。事情不會一樣了。"

"日常用車"在技術圈有精確含義。 不是展臺上的概念車，不是紐博格林賽道上的圈速王，是你每天上班、接送孩子、跑高速都不需要想第二下的那輛車。維羅索說一個中國開源模型達到了這個標準。這是他職業生涯里第一次這么說。

然后是吉列爾莫·勞赫（Guillermo Rauch），Vercel的CEO，旗下一家服務數百萬開發者的云平臺公司。他寫的是：

"真心佩服，幾乎可以說是震驚。GLM-5.2的編程能力太強了。這會改變格局。"

注意措辭。不是"有意思"，不是"有潛力"，是"almost shocked"。一個每天看技術發布會的人，被震到了。

fast.ai創始人杰里米·霍華德（Jeremy Howard），開源AI社區最有影響力的聲音之一，用詞更滿：

"它至少跟Opus 4.8和GPT 5.5一樣好。我從未見過這樣的開源權重模型。它超級快，不貴，也不啰嗦。回應帶有分寸和判斷力，處理長上下文非常好。"

"至少一樣好"，從fast.ai創始人口中說出來，不是輕飄飄的客套。

Redis創始人antirez夸了。深度學習技術作家塞巴斯蒂安·拉什卡（Sebastian Raschka）把它評為"今天最好的開源模型"。甚至連技術圈最挑剔的那批獨立開發者，拿著基準測試一條條摳毛病的，說辭這次也出奇一致。

伊塔馬爾·戈蘭（Itamar Golan）的總結最有概括性：

"大多數開源模型是這樣的：Demo驚艷，benchmark漂亮，實際用起來讓人失望。GLM 5.2是第一個感覺不一樣的。不是說它打敗了Opus或GPT。不是說它完美。但它夠近了，夠近到能改變格局。'夠近'就是顛覆開始的地方。"

一個叫Scott的開發者用了更傳神的說法："第一個不像是benchmaxxing（刷榜優化）的開放模型。實際使用中很拼，有一股'我能干'的勁兒。很多時候，你可能根本注意不到它跟閉源前沿模型的性能差距。"

這些話放在一起，信號很清楚：中國開源模型第一次跨過了一道心理門檻，開發者不再覺得在"將就"。

曾在谷歌DeepMind工作過的布蘭登·卡爾（Brandon Carl）列了一份名單：維羅索、霍華德、拉什卡、勞赫。"這些都是重量級人物。"他的判斷是：閉源模型的定價權從此有了天花板。

當然，任何新模型發布后都有蜜月期。這些評價多來自48小時內的初步使用，長期表現還需要時間驗證。

二、"夠用"有多夠

但"夠用"是模糊的。讓我們把它拆開來。

先看硬數據。獨立評測機構Artificial Analysis把GLM 5.2排在全部模型的第四位，僅次于OpenAI ChatGPT 5.5和Anthropic Claude Opus 4.8，排在谷歌Gemini之前。 開源模型里的歷史最高排名。

在長周期編程任務上，GLM 5.2壓過了GPT 5.5：SWE-bench Pro得分62.1對58.6，FrontierSWE得分74.4%對72.6%。在工具調用評測MCP-Atlas上，77.0對75.3，同樣壓過。在一個叫Design Arena的設計任務眾測評測中，GLM 5.2拿了第一，甚至超過了Anthropic剛發布的Fable 5，那個強到被美國政府下令禁止外國人使用的模型。

這些不是運氣。GLM 5.2在架構底層做了一項叫IndexShare（索引共享）的關鍵改動：每四個稀疏注意力層復用同一個索引器，在100萬token上下文窗口下，單token計算量壓低了2.9倍。加上升級版多Token預測層帶來的20%推理效率提升，長周期編程上的領先有結構性的原因。拉什卡在技術解讀中特別指出了這一點。

但基準測試的世界有一條暗線，叫教考分離。

挪威國防研究所的哈瓦德·特維特·伊勒（Havard Tveit Ihle）做了一項關鍵研究。他把中國模型放在公開benchmark和私下benchmark上分別測試。公開測試中，中國模型落后美國4到6個月。私下測試中，題目從未公開，模型不可能提前"見過"，差距拉到8到10個月。幾乎翻倍。

他的措辭很謹慎：中國實驗室可能在"無意中"讓模型學會應試。

GLM 5.2在兩項私下benchmark上也遵循這個模式：在WeirdML（需要仔細推理的不尋常機器學習任務）上落后約7個月，在SimpleBench（用陷阱題測常識推理）上落后整整一年。

但還有另一個數據點。 6月19日，Artificial Analysis發布了一項全新評測，模擬辦公室白領的真實工作：從雜亂文件中提取信息、評估互相矛盾的數據。GLM 5.2不可能提前訓練過這套題。結果呢？它壓過了4月才發布的ChatGPT 5.5。

"教考分離"的規律不是鐵板一塊。

有些類型的任務，中國模型在追；有些，差距比公開數據看起來大得多。美國政府的5月報告也得出了類似的結論：差距沒有在擴大，但也沒有在縮小。

聽起來是追平了。也可以理解成：追上來的速度沒有看起來那么快，但也沒有停下來。

關鍵問題是：你看重哪類任務？

如果你是一個每天寫代碼的開發者，SWE-bench上的表現對你是真實的，GLM 5.2在這個維度上立得住。如果你需要一個理解微妙語境、處理開放式判斷的助手，它可能在某些時刻讓你覺得"差一口氣"。

一個可能的解釋是：GLM 5.2在結構化、流程化的工作任務上已經追平甚至超越，但在需要即興判斷、非常規推理的任務上仍有短板。 它的"夠用"有一個邊界，越接近標準化工作流，越夠用；越偏離常規，差距越明顯。

不是說它不好。是"夠不夠"這件事，取決于你站在哪里。

三、便宜的另一面

然后是價格。第二層需要拆開。

表面看，GLM 5.2便宜得離譜。API定價：輸入每百萬token 1.40美元，輸出4.40美元。對比Anthropic Claude Opus 4.8的輸出25美元，OpenAI GPT 5.5的30美元。智譜的編碼訂閱計劃最低每月12.60美元。

編碼訂閱分三檔：Lite版每月12.60美元，面向小型代碼庫的輕量迭代；Pro版每月50.40美元，5倍于Lite的額度，面向中型代碼庫日常開發；Max版每月112.00美元，20倍額度，面向重度工作負載，高峰期享有專屬資源。

硅谷AI觀察者Lisan al Gaib在X上直接開火："前沿實驗室在API定價上絕對在宰你。"他列了一組數字：7440億參數的GLM 5.2收4.40美元，1.6萬億參數的DeepSeek V4 Pro收0.87美元，而閉源模型收15到30美元。"開源開發者沒有最新Blackwell芯片也能盈利，說明閉源廠商的利潤率可能在90%以上。"

這個估算只看推理成本。如果把訓練投入、研發人員和基礎設施一起算進去，利潤率會低得多。但即便如此，定價空間確實遠大于邊際成本。

已經有人在用錢包投票了。根據發票管理平臺Ramp的數據，6月向DeepSeek支付服務費用的美國企業數量急劇增加。據報道，微軟正在考慮在其旗艦Copilot聊天機器人中使用DeepSeek的模型，一家美國科技巨頭，可能要把自己最重要的AI產品交給一家中國實驗室的模型來驅動。

聽著很顛覆。

但佐治亞理工的杜正（Du Zheng）和合作者6月更新的一項研究，給了一個更復雜的數字：給定相同任務，DeepSeek模型使用了OpenAI競品23倍的token數量，來達到基本相同的結果。

23倍。

杜正測的是DeepSeek，不是GLM 5.2。但指向的是同一個結構性問題：中國模型傾向于用更多token來思考和輸出。這意味著比價不能看"每個token多少錢"，而要看"完成一件事總共花了多少token"。 《經濟學人》按這個算法對GLM 5.2做了測算，在一項軟件工程benchmark上，GLM 5.2的總花費超過了Anthropic和OpenAI的競品。

中國模型的能力在提升，但效率沒有同步提升。

聽起來是白菜價。也可以理解成：模型得多干23道工序才能交卷，按token計價的便宜不一定是真便宜。便宜不便宜，取決于你用得多深。

輕量使用，問幾個問題、寫一段代碼，GLM 5.2確實省錢。重度使用，長時間自主編程、復雜多步驟推理，總成本可能反過來。

公平地說，智譜提供了一個緩解方案：緩存輸入token的定價降到每百萬0.26美元，而且目前免費提供緩存存儲。對于反復調用相同上下文的場景，這能大幅壓縮成本。關鍵看你的工作模式。

四、不設鎖

GLM 5.2發布的時機，巧合也好，有意也好，時間線上的戲劇性是真實的。

6月12日，特朗普政府通知Anthropic，禁止非美國公民使用Fable 5。Anthropic的回應是把模型全面下線。 一個閉源模型，前一天還是開發者手中最好的工具之一，第二天就沒法用了。

24小時后，6月13日下午5點21分，北京時間，GLM 5.2發布。 MIT開源許可證。無區域限制。無使用限制。可以下載、修改、商用，不需要付版稅，不需要同意任何"可接受使用"政策。

智譜聯合創始人唐杰（Tang Jie）在發布會上說了一句："我們的態度是激進開放。"他接著炮轟"外部封鎖"，指的就是Anthropic和美國政府聯手制造的那種局面，說這讓AI系統"隨時可以被撤銷"。

這不是技術比拼。這是商業模式、用戶信任和外部政策的三重交叉點。

一個企業CTO面對的選擇變成了這樣：這邊是Anthropic，模型很強，但美國政府一句話就能讓你的團隊斷供。那邊是GLM 5.2，模型夠用，你可以部署在自己的服務器上，誰也斷不了你的供。

對于美國以外的企業，歐洲、東南亞、拉美，這道選擇題沒有那么難做。