![]()
新智元報道
![]()
【新智元導讀】GLM-5.2全量開放!1M上下文真能用,長任務不忘事。
昨晚,Claude Fable 5被美國政府一封信直接全球下架。
上線才72小時,說沒就沒。連Anthropic自家外籍員工都不許碰。數億用戶一覺醒來,直接懵了。
老外自己先坐不住了,梗圖滿天飛——Anthropic那邊說「我們的模型太危險了」,美國政府回一句「那我禁了」。
![]()
就在剛剛,國產模型回應來了:GLM-5.2,全量用,最高權限開源。
GLM Coding Plan 全量用戶開放,Lite、Pro、Max、團隊版,今晚全部能用!
下周API上線,MIT協議開源,權重隨便拿。
一邊在關門,一邊在開門。
從GLM-5到5.1再到今晚的5.2,智譜在Coding這條路上死磕了整整一年。
5.1剛把開源模型推到8小時長程任務,社區反饋還很熱,5.2就直接把上下文懟到了1M——而且是那種真能用的1M!
這次GLM-5.2有兩個關鍵詞:真1M上下文,Coding國產之光。
到底怎么樣?全網都在等Bench
在Anthropic這一通操作的背景之下,5.2模型剛一宣布要開源,海外社區就炸了。
國外知名博主AICodeKing在內測完給出的評價相當直接:這個模型品位出色,代碼始終非常干凈。我讓它微調一個完整的本地模型,30分鐘就搞定了。全方位都表現優異。
目前已公布的開發者實測Bench來看,性能基本對標Opus 4.8——實打實的國產之光。
![]()
智譜其實在前兩天就開通了coding plan用戶的一波內測(在最近的AI圈發模型中也是常規操作了)
而我們潛水的內測社群里,體感反饋也一致得嚇人。
有網友表示,「這是國內第一款在我工作流上達到Opus級的模型」。
![]()
另一位內測用戶更直白——「用過5.2回不去5.1了,在大項目里面有種4.7到5的跨越式進步。上頭的感覺。」
![]()
知乎上甚至有人說:「從下周開始,通過中轉站用Opus的人必須面對一個問題——你用的Opus如果是GLM-5.2冒充的,你可能分辨不出來,甚至表現更好。」
![]()
官方Bench還沒出全,全網都在等。但就目前開發者自己跑出來的數據和體感來看,Coding國產第一這個位置,GLM-5.2坐得穩。
第一時間拿到內測資格后,我們也迫不及待地上手實測了下。果然和之前的模型不一樣。
一口氣寫完,三種尋路算法全跑對了
讓GLM-5.2寫一個尋路算法可視化器。它給你一次搞定。
A*、Dijkstra、BFS——三種算法各有各的套路,一個都沒搞混。
連優先隊列都是自己寫的,不是拿現成的庫糊弄。
最狠的是分屏對比:兩種算法同時跑,各走各的路、各算各的數,畫面上五顏六色地鋪開——這等于一個文件里同時管兩套獨立的搜索過程,狀態一串就全亂。它沒串。
![]()
六套邏輯塞在一個文件里,從頭到尾都不打架——算法、動畫、交互、對比、統計、迷宮生成,全記著,全對著。
Coding跟長上下文的真功夫,就體現在這種地方。
長任務,不忘事
GLM-5.1已經能連續自主工作8小時,但想再往前推,繞不開一個坎:上下文。
一個連續干幾小時活的智能體,要經歷數千次工具調用、讀寫幾萬行代碼、攢下一大堆中間狀態。
窗口不夠長,它就得不停壓縮、丟棄。很多長任務翻車,不是模型不夠聰明,是它忘了。
所以1M上下文的意義,不是參數表上一個更大的數字,而是讓模型能把整個項目一口氣吃進去——代碼、決策、約束全記著,從頭干到尾不丟東西。
現在標稱1M的模型不少,但用過的人都有體感:喂進去是喂進去了,記不太住。
很多模型過了25萬token就開始「失憶」;而且上下文越長,算力和顯存燒得越猛——不是不能跑,是跑起來又慢又貴,沒人敢這么用。
從結構下手,用一套注意力層面的創新組合拳,把1M長度下的效果衰減和推理成本一起壓了下來。
在長文基準上,GLM-5.21M長度的衰減明顯小于同類模型。
連續干了4小時,搓出一整個合成器工作站
這個case最能說明「長任務,不忘事」到底意味著什么。
一句話需求扔過去——做一個專業級的HTML音樂合成器工作站,WebAudio,零依賴。
然后它就開始干了。不是干幾分鐘,是整整4個小時,一口氣,中間沒人插手。
4個小時里它自己寫代碼、自己組了29個review智能體從4個維度對著自己的代碼挑毛病、揪出18個bug全部修掉、還跑了Headless Chrome自動化測試驗證完整音頻鏈路。
最狠的是,自動測試還抓到了一個review都沒發現的致命bug,它自己修了。
最終交付:177,000個token的工作量,一個回合完成。
![]()
這就是1M上下文的意義。
4小時、17萬token、幾十個模塊的狀態全攥在手里不丟——這是「記性好」。
而記性好,恰恰是長任務能不能交付的生死線。
74萬多條日志喂進去,它沒忘開頭
我們直接把一整月、幾十萬token的服務器日志全塞給GLM-5.2,讓它揪出一個月前埋下的雪崩苗頭。
![]()
5月28日的雪崩誰都看得見,但GLM-5.2把根因一路倒推回了5月3日那條藏在第661行的連接池等待警告。
那條WARN當時還自愈著、淹沒在幾千條正常日志里,毫不起眼。
月末爆發時,它還能精確引用到月初的原始行號和時間戳,把「連接池滿載 → 慢性積累 → 徹底耗盡 → 級聯503」串成一條完整的因果鏈。
![]()
短上下文模型跑到日志尾段,開頭那條火種早就被壓縮、丟棄了——它只能告訴你「5月28日崩了」,給不出為什么會崩。
能從結尾想起開頭,長上下文才真正變成了推理能力。
上千行代碼,三種玩法各有各的物理規則
讓GLM-5.2跑一個 2D 粒子物理模擬器。
自由模式里粒子互相吸引、碰撞了還會合并成更大的——質量加在一起、速度按比例分配。
物理課本上那套動量守恒它能老老實實玩明白了。
切到軌道模式,規則整個換了一套:只有中間那顆大星球吸引別人,小粒子之間不合并,不然軌道全亂。
再切煙花模式,引力又變成往下掉的重力,粒子還會慢慢變暗消失。
![]()
三種模式共用一套畫面循環,但「力怎么算、撞了怎么辦、要不要消失」全按模式分開處理,干凈利落。
一千多行代碼從頭寫到尾,前面定的規矩后面全記著,沒一處自相矛盾。
4份合同一起喂,跨文檔揪出隱藏矛盾
4份合同、幾萬字,一次性全喂進去,它沒看花眼。
最見功力的是:合同3說「打官司」,合同1卻說「走仲裁」,它一眼看穿這倆湊一塊兒會「打架」,還順藤摸瓜把兩份合同串了起來。
這種活,得同時把4份合同攥在腦子里才做得出來。
![]()
長上下文在這兒不是「塞得下」,是「記得住、對得上、能交叉」。
前沿智能,不該說沒就沒
回到開頭那件事。
Fable 5上線3天就被強制下架,全球開發者發現自己賴以工作的模型說沒就沒了。依賴Fable 5構建產品的團隊,服務直接掛掉。
你永遠不知道自己手里的工具什么時候會被一封信收走。
在海外閉源前沿模型訪問不確定性上升的背景下,國產開源模型的含金量還在提升。
智譜堅持coding模型已經超過1年了,這次把開發者千呼萬喚的1M、長任務這些已經不新鮮的詞做「solid」:讓中國開發者手里這臺Coding模型,是真能扛復雜大活的那種可用,不再是榜單上好看、用起來打折。
智譜給這次發布寫了一句話,下午被AI圈刷屏:前沿智能,不該只屬于少數人,也不該被少數規則隨時收回。它應該開放、可用、可構建,服務每一位開發者。
![]()
這句話聽著,格外實在,GLM繼續加油。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.