出品 | 網易智能
作者 | 辰辰
編輯 | 王鳳枝
硅谷技術圈在排隊夸一個中國AI模型。
GLM 5.2發布后的48小時內,fast.ai創始人、Vercel CEO、前DeepMind高管,這群人平時不輕易夸對手,更不會夸中國模型,在X上排著隊說它好。
沒有PR安排。沒有"但我們也有優勢"。就是好用,所以說了。
上一次硅谷被中國模型震到,是DeepSeek R1。那次的核心詞是便宜。這一次不是便宜,是夠用。
資本市場也在講同一個故事。6月22日,智譜港股盤中突破1萬億港元,漲近20%。DeepSeek那次讓納斯達克一天蒸發了1萬億美元。這一次,智譜自己的市值在港股盤中突破了1萬億港元。
一、排隊點贊的人
先看排隊的人都有誰。
馬特·維羅索(Mat Velloso),先后在Meta、谷歌DeepMind和微軟擔任過高管,見過所有頂級模型。他在X上寫了一句話:
"用了一整天GLM 5.2。沒覺得缺什么。第一個能當日常用車(daily driver)的開源模型。事情不會一樣了。"
"日常用車"在技術圈有精確含義。 不是展臺上的概念車,不是紐博格林賽道上的圈速王,是你每天上班、接送孩子、跑高速都不需要想第二下的那輛車。維羅索說一個中國開源模型達到了這個標準。這是他職業生涯里第一次這么說。
![]()
然后是吉列爾莫·勞赫(Guillermo Rauch),Vercel的CEO,旗下一家服務數百萬開發者的云平臺公司。他寫的是:
"真心佩服,幾乎可以說是震驚。GLM-5.2的編程能力太強了。這會改變格局。"
注意措辭。不是"有意思",不是"有潛力",是"almost shocked"。一個每天看技術發布會的人,被震到了。
![]()
fast.ai創始人杰里米·霍華德(Jeremy Howard),開源AI社區最有影響力的聲音之一,用詞更滿:
"它至少跟Opus 4.8和GPT 5.5一樣好。我從未見過這樣的開源權重模型。它超級快,不貴,也不啰嗦。回應帶有分寸和判斷力,處理長上下文非常好。"
"至少一樣好",從fast.ai創始人口中說出來,不是輕飄飄的客套。
![]()
Redis創始人antirez夸了。深度學習技術作家塞巴斯蒂安·拉什卡(Sebastian Raschka)把它評為"今天最好的開源模型"。甚至連技術圈最挑剔的那批獨立開發者,拿著基準測試一條條摳毛病的,說辭這次也出奇一致。
伊塔馬爾·戈蘭(Itamar Golan)的總結最有概括性:
"大多數開源模型是這樣的:Demo驚艷,benchmark漂亮,實際用起來讓人失望。GLM 5.2是第一個感覺不一樣的。不是說它打敗了Opus或GPT。不是說它完美。但它夠近了,夠近到能改變格局。'夠近'就是顛覆開始的地方。"
![]()
一個叫Scott的開發者用了更傳神的說法:"第一個不像是benchmaxxing(刷榜優化)的開放模型。實際使用中很拼,有一股'我能干'的勁兒。很多時候,你可能根本注意不到它跟閉源前沿模型的性能差距。"
![]()
這些話放在一起,信號很清楚:中國開源模型第一次跨過了一道心理門檻,開發者不再覺得在"將就"。
曾在谷歌DeepMind工作過的布蘭登·卡爾(Brandon Carl)列了一份名單:維羅索、霍華德、拉什卡、勞赫。"這些都是重量級人物。"他的判斷是:閉源模型的定價權從此有了天花板。
![]()
當然,任何新模型發布后都有蜜月期。這些評價多來自48小時內的初步使用,長期表現還需要時間驗證。
二、"夠用"有多夠
但"夠用"是模糊的。讓我們把它拆開來。
先看硬數據。獨立評測機構Artificial Analysis把GLM 5.2排在全部模型的第四位,僅次于OpenAI ChatGPT 5.5和Anthropic Claude Opus 4.8,排在谷歌Gemini之前。 開源模型里的歷史最高排名。
在長周期編程任務上,GLM 5.2壓過了GPT 5.5:SWE-bench Pro得分62.1對58.6,FrontierSWE得分74.4%對72.6%。在工具調用評測MCP-Atlas上,77.0對75.3,同樣壓過。在一個叫Design Arena的設計任務眾測評測中,GLM 5.2拿了第一,甚至超過了Anthropic剛發布的Fable 5,那個強到被美國政府下令禁止外國人使用的模型。
![]()
這些不是運氣。GLM 5.2在架構底層做了一項叫IndexShare(索引共享)的關鍵改動:每四個稀疏注意力層復用同一個索引器,在100萬token上下文窗口下,單token計算量壓低了2.9倍。加上升級版多Token預測層帶來的20%推理效率提升,長周期編程上的領先有結構性的原因。拉什卡在技術解讀中特別指出了這一點。
但基準測試的世界有一條暗線,叫教考分離。
挪威國防研究所的哈瓦德·特維特·伊勒(Havard Tveit Ihle)做了一項關鍵研究。他把中國模型放在公開benchmark和私下benchmark上分別測試。公開測試中,中國模型落后美國4到6個月。私下測試中,題目從未公開,模型不可能提前"見過",差距拉到8到10個月。幾乎翻倍。
他的措辭很謹慎:中國實驗室可能在"無意中"讓模型學會應試。
GLM 5.2在兩項私下benchmark上也遵循這個模式:在WeirdML(需要仔細推理的不尋常機器學習任務)上落后約7個月,在SimpleBench(用陷阱題測常識推理)上落后整整一年。
但還有另一個數據點。 6月19日,Artificial Analysis發布了一項全新評測,模擬辦公室白領的真實工作:從雜亂文件中提取信息、評估互相矛盾的數據。GLM 5.2不可能提前訓練過這套題。結果呢?它壓過了4月才發布的ChatGPT 5.5。
"教考分離"的規律不是鐵板一塊。
有些類型的任務,中國模型在追;有些,差距比公開數據看起來大得多。美國政府的5月報告也得出了類似的結論:差距沒有在擴大,但也沒有在縮小。
聽起來是追平了。也可以理解成:追上來的速度沒有看起來那么快,但也沒有停下來。
關鍵問題是:你看重哪類任務?
如果你是一個每天寫代碼的開發者,SWE-bench上的表現對你是真實的,GLM 5.2在這個維度上立得住。如果你需要一個理解微妙語境、處理開放式判斷的助手,它可能在某些時刻讓你覺得"差一口氣"。
一個可能的解釋是:GLM 5.2在結構化、流程化的工作任務上已經追平甚至超越,但在需要即興判斷、非常規推理的任務上仍有短板。 它的"夠用"有一個邊界,越接近標準化工作流,越夠用;越偏離常規,差距越明顯。
不是說它不好。是"夠不夠"這件事,取決于你站在哪里。
三、便宜的另一面
然后是價格。第二層需要拆開。
表面看,GLM 5.2便宜得離譜。API定價:輸入每百萬token 1.40美元,輸出4.40美元。對比Anthropic Claude Opus 4.8的輸出25美元,OpenAI GPT 5.5的30美元。智譜的編碼訂閱計劃最低每月12.60美元。
編碼訂閱分三檔:Lite版每月12.60美元,面向小型代碼庫的輕量迭代;Pro版每月50.40美元,5倍于Lite的額度,面向中型代碼庫日常開發;Max版每月112.00美元,20倍額度,面向重度工作負載,高峰期享有專屬資源。
硅谷AI觀察者Lisan al Gaib在X上直接開火:"前沿實驗室在API定價上絕對在宰你。"他列了一組數字:7440億參數的GLM 5.2收4.40美元,1.6萬億參數的DeepSeek V4 Pro收0.87美元,而閉源模型收15到30美元。"開源開發者沒有最新Blackwell芯片也能盈利,說明閉源廠商的利潤率可能在90%以上。"
![]()
這個估算只看推理成本。如果把訓練投入、研發人員和基礎設施一起算進去,利潤率會低得多。但即便如此,定價空間確實遠大于邊際成本。
已經有人在用錢包投票了。根據發票管理平臺Ramp的數據,6月向DeepSeek支付服務費用的美國企業數量急劇增加。據報道,微軟正在考慮在其旗艦Copilot聊天機器人中使用DeepSeek的模型,一家美國科技巨頭,可能要把自己最重要的AI產品交給一家中國實驗室的模型來驅動。
聽著很顛覆。
但佐治亞理工的杜正(Du Zheng)和合作者6月更新的一項研究,給了一個更復雜的數字:給定相同任務,DeepSeek模型使用了OpenAI競品23倍的token數量,來達到基本相同的結果。
23倍。
杜正測的是DeepSeek,不是GLM 5.2。但指向的是同一個結構性問題:中國模型傾向于用更多token來思考和輸出。這意味著比價不能看"每個token多少錢",而要看"完成一件事總共花了多少token"。 《經濟學人》按這個算法對GLM 5.2做了測算,在一項軟件工程benchmark上,GLM 5.2的總花費超過了Anthropic和OpenAI的競品。
中國模型的能力在提升,但效率沒有同步提升。
聽起來是白菜價。也可以理解成:模型得多干23道工序才能交卷,按token計價的便宜不一定是真便宜。便宜不便宜,取決于你用得多深。
輕量使用,問幾個問題、寫一段代碼,GLM 5.2確實省錢。重度使用,長時間自主編程、復雜多步驟推理,總成本可能反過來。
公平地說,智譜提供了一個緩解方案:緩存輸入token的定價降到每百萬0.26美元,而且目前免費提供緩存存儲。對于反復調用相同上下文的場景,這能大幅壓縮成本。關鍵看你的工作模式。
四、不設鎖
GLM 5.2發布的時機,巧合也好,有意也好,時間線上的戲劇性是真實的。
6月12日,特朗普政府通知Anthropic,禁止非美國公民使用Fable 5。Anthropic的回應是把模型全面下線。 一個閉源模型,前一天還是開發者手中最好的工具之一,第二天就沒法用了。
24小時后,6月13日下午5點21分,北京時間,GLM 5.2發布。 MIT開源許可證。無區域限制。無使用限制。可以下載、修改、商用,不需要付版稅,不需要同意任何"可接受使用"政策。
智譜聯合創始人唐杰(Tang Jie)在發布會上說了一句:"我們的態度是激進開放。"他接著炮轟"外部封鎖",指的就是Anthropic和美國政府聯手制造的那種局面,說這讓AI系統"隨時可以被撤銷"。
這不是技術比拼。這是商業模式、用戶信任和外部政策的三重交叉點。
一個企業CTO面對的選擇變成了這樣:這邊是Anthropic,模型很強,但美國政府一句話就能讓你的團隊斷供。那邊是GLM 5.2,模型夠用,你可以部署在自己的服務器上,誰也斷不了你的供。
對于美國以外的企業,歐洲、東南亞、拉美,這道選擇題沒有那么難做。
Anthropic自己最近在一份報告中警告,中國AI正逼近美國。報告說美國及其盟友還有機會"鎖定12到24個月的前沿領先優勢"。但報告的潛臺詞是:"這個窗口不會一直開著。"
一邊在拉剎車,另一邊在踩油門。
Anthropic說的是"我們領先但不多",做的是把模型下線讓用戶無路可走。智譜說的是"激進開放",做的是把模型權重直接扔到Hugging Face上,MIT許可證。
凱文·辛巴克(Kevin Simback)在X上指出了一個冷峻的問題:"模型好不等于收入好。西方企業,真正的AI金主,可能在本地部署,錢根本到不了智譜手里。編碼訂閱計劃的定價跟Anthropic和OpenAI差不多,未必有多少人轉投。"
翻譯一下:MIT許可證讓模型無處不在,但也讓錢很難流回開發者口袋。對用戶是禮物,對智譜的財務報表未必。
當然,那是資本市場的邏輯。對用戶來說,多一個不受美國開關控制的選擇,本身就是價值。
五、那道線
回到戈蘭那句話:"夠近"就是顛覆開始的地方。
GLM 5.2不是最強的模型。它在一些維度上趕不上Anthropic和OpenAI的旗艦,在私下基準測試上的差距或許比公開數據更大,token效率還有明顯短板。
但它跨過了一條線。
這條線之前,開源模型是"嘗鮮",開發者下載試試,第二天換回閉源模型干活。這條線之后,開源模型可以當"日常用車",你可以在它上面真正工作了。
這條線的名字叫夠用線。一旦跨過,游戲規則就變了。
不是開源會取代閉源。是閉源不能再僅憑"我們最好"來定價,因為"第二好"已經夠好了。當夠用線和最好之間的差距,小于價簽上的差距,預算表會替開發者做選擇。
馬斯克在X上說,他預計中國在明年初趕上當前前沿水平。唐杰回了一句:"用不了那么久。"
![]()
那場硅谷排隊點贊發生在6月的第二個周末。到了周一,一切看起來還是老樣子,開發者寫代碼,公司審預算,美國政府發禁令。
但維羅索說的那句話,掛在X的時間線上,被轉了又轉:
"事情不會一樣了。"
