今天有個(gè)重磅消息,智譜正式發(fā)布了 GLM-5.2 模型,同時(shí)也開(kāi)源了。
在全球百萬(wàn)用戶(hù)參與盲測(cè)的前端開(kāi)發(fā)評(píng)估系統(tǒng) Code Arena 上,GLM-5.2 取得目前可用模型第一的成績(jī)。
![]()
有一說(shuō)一,國(guó)產(chǎn)模型這次真的站在了世界前列,屬于我們普通人能用得上用得起的國(guó)產(chǎn)之光了。
這次 GML-5.2 有兩個(gè)關(guān)鍵信息,我覺(jué)得應(yīng)該重點(diǎn)聊聊。
第一,Coding 繼續(xù)保持國(guó)產(chǎn)第一、開(kāi)源第一。
在 FrontierSWE、SWE-Marathon、PostTrainBench 等多個(gè)長(zhǎng)程任務(wù)基準(zhǔn)上,GLM-5.2 的表現(xiàn)介于 Claude Opus 4.8 與 GPT 5.5 之間,是排名最高的開(kāi)源模型。
![]()
我在網(wǎng)上看到一個(gè) AI 博主說(shuō),如果你是通過(guò)中轉(zhuǎn)服務(wù)使用 Opus,那你可能分不出有可能是 GLM-5.2 冒充的。
第二,1M token 上下文。
注意,不是標(biāo)稱(chēng) 1M,是真正能用的 1M。
現(xiàn)在市面上標(biāo)稱(chēng) 1M 的模型不少,但大部分到了長(zhǎng)上下文后半段效果衰減得厲害。
GLM-5.2 通過(guò)注意力結(jié)構(gòu)層面的創(chuàng)新,把 1M 長(zhǎng)度下的效果衰減和推理成本同時(shí)壓了下來(lái)。
說(shuō)人話,就是它在處理超長(zhǎng)任務(wù)時(shí)不會(huì)到后面就開(kāi)始犯糊涂、忘前面說(shuō)過(guò)什么。
這個(gè)能力為什么重要?我換個(gè)說(shuō)法你就明白了。
現(xiàn)在用 AI 寫(xiě)代碼最大的痛點(diǎn)不是它寫(xiě)不出來(lái),而是任務(wù)一長(zhǎng)它就忘了。
你讓它改一個(gè)大項(xiàng)目,改到第 30 步的時(shí)候它忘了第 2 步定下的規(guī)則。你不得不反復(fù)提醒它、反復(fù)把上下文喂回去,累的不是 AI,是你。
說(shuō)白了,就是「能干活,但記性差」。
因此,1M 上下文解決的就是這個(gè)問(wèn)題。
一個(gè)持續(xù)工作數(shù)小時(shí)的 AI 要經(jīng)歷幾千次工具調(diào)用、讀寫(xiě)數(shù)萬(wàn)行代碼、積累大量中間狀態(tài)。
如果上下文窗口不夠長(zhǎng),模型就被迫不斷壓縮、丟棄、再回憶,每一次壓縮都是信息損耗,每一次遺忘都可能讓任務(wù)在第 N 步偏離第 2 步的約束。
長(zhǎng)程任務(wù)的失敗,很多時(shí)候不是模型不夠聰明,而是它忘了。
GLM-5.2 做到的是在一次任務(wù)中完整持有整個(gè)項(xiàng)目的全部代碼、全部決策歷史、全部約束條件。
這個(gè)過(guò)程,就像一個(gè)不會(huì)忘事的工程師,從頭推進(jìn)到尾。
這里說(shuō)個(gè)案例。
之前我自己用其他模型結(jié)合 Claude Code 開(kāi)發(fā)了一個(gè)小程序,當(dāng)時(shí)光是 PRD 文檔就有 5000 多字,因?yàn)閱蝹€(gè)文件太大,還是拆分上傳的。
![]()
這次我換成 GLM-5.2 試了下,試圖讓它重構(gòu)這個(gè)項(xiàng)目,還是同一份 PRD 文檔。
開(kāi)啟 CC 的 Plan Mode 模式后,我先讓模型自己加載分析需求文檔并制定開(kāi)發(fā)計(jì)劃,然后再進(jìn)入開(kāi)發(fā)階段。
過(guò)程中,我還加了一些需求,并且對(duì)一開(kāi)始的信息做了修改。此時(shí),GLM-5.2 的 1M 上下文優(yōu)勢(shì)就出來(lái)了,全程無(wú)紕漏。
![]()
大概用了 25 分鐘左右,這個(gè)基于 PRD 的項(xiàng)目就全部開(kāi)發(fā)完了,而且自己調(diào)起了本地的微信開(kāi)發(fā)者工具。
我讓它統(tǒng)計(jì)了代碼量,總共 16000 行代碼,而且能成功預(yù)覽。
不過(guò)有一說(shuō)一,我覺(jué)得 GLM-5.2 在前端頁(yè)面的設(shè)計(jì)美觀度上還有提升空間,現(xiàn)在屬于可用,但還不是絕對(duì)好的狀態(tài)。
![]()
如果是用來(lái)做一些大型項(xiàng)目的重構(gòu)或者開(kāi)發(fā),這種 1M 上下文空間的體驗(yàn)就會(huì)明顯好很多。
在 Terminal-Bench 2.1 上,這是一個(gè)評(píng)測(cè) Agent 通過(guò)命令行操作一臺(tái)計(jì)算機(jī)的數(shù)據(jù)集,GLM-5.2僅比Opus 4.8低4%,相比GLM-5.1提升了17.5%。
在 MCP-Atlas 上(工具使用tool-use評(píng)測(cè)的數(shù)據(jù)集),GLM-5.2僅比Opus 4.8 低 0.8%。
![]()
此外,能做的事情也變了。
整個(gè)代碼庫(kù)扔進(jìn)去做跨文件重構(gòu),一句話需求直接出完整全棧項(xiàng)目,大型 SaaS 級(jí)工程持續(xù)推進(jìn)不跑偏。
這些場(chǎng)景以前只能拆成無(wú)數(shù)個(gè)小任務(wù)反復(fù)喂上下文,現(xiàn)在可以一次性給完、一次性干完。
我自己也測(cè)了一個(gè)場(chǎng)景,就是優(yōu)化我之前用 Agent 開(kāi)發(fā)的個(gè)人網(wǎng)站。
先說(shuō)下,如果你們想用上 GLM-5.2,就得去搶智譜的 Coding Plan,不過(guò)這個(gè)現(xiàn)在很緊俏,你們可以每天去盯一盯官方放量的時(shí)間。
如果搶到了配額,就可以配置到你的 Agent 里直接開(kāi)始用,我是用 Claude Code 配合 GLM-5.2 用的。
之前開(kāi)發(fā)這個(gè)網(wǎng)站我用了幾個(gè)模型混合完成,包括 GLM-5.1、Claude Opus 4.6 和 4.8。
從前端開(kāi)發(fā)質(zhì)量來(lái)看,Claude 的模型確實(shí)做得更好,但是在代碼本身的開(kāi)發(fā)質(zhì)量上,我覺(jué)得 GLM 和 Claude 的差距并沒(méi)有那么大。
這次優(yōu)化,我完全用 GLM-5.2 來(lái)完成,核心就是優(yōu)化我之前覺(jué)得別扭的幾個(gè)模塊。
第一個(gè)問(wèn)題就是我網(wǎng)站上案例墻這部分,現(xiàn)在的問(wèn)題就是重點(diǎn)不突出、沒(méi)有數(shù)據(jù)、視覺(jué)不美觀。
![]()
我跟 GLM-5.2 提的需求并沒(méi)有那么明確,只是表達(dá)了一句話需求。
但是,它的分析和問(wèn)題拆解卻很精準(zhǔn),而且還發(fā)現(xiàn)了代碼中存在的命名問(wèn)題。
講真,它跟我說(shuō)話真的是毫不客氣。
![]()
不僅找準(zhǔn)了問(wèn)題,而且還給出了方案。
![]()
不僅按照這個(gè)新方案做了重新開(kāi)發(fā),還對(duì)我原有的代碼結(jié)構(gòu)做了優(yōu)化,整個(gè)網(wǎng)站的代碼都有被它 review。
我有一個(gè)很直觀的感覺(jué),就是一次性成功率更高,而且模型在需求理解、代碼執(zhí)行、完成質(zhì)量上做得都不錯(cuò)。
優(yōu)化后的最終效果,明顯比之前好太多。
![]()
說(shuō)實(shí)話,結(jié)果超出預(yù)期。
從實(shí)際體感來(lái)看,我覺(jué)得寫(xiě)出來(lái)的代碼質(zhì)量和最終呈現(xiàn)的效果跟之前我用的 Claude 模型差異并不是很大。
還是我之前說(shuō)的,現(xiàn)在 GLM 系列的模型在國(guó)產(chǎn) coding 領(lǐng)域的確是做得非常好的一家。
說(shuō)實(shí)話,對(duì)于我們這些每天重度使用 AI 的人來(lái)說(shuō),智譜的操作是值得點(diǎn)贊的。
之前大家選模型默認(rèn)選海外的,Claude、GPT,能力確實(shí)強(qiáng)。
但穩(wěn)定性呢?可用性呢?賬號(hào)說(shuō)封就封,模型說(shuō)停就停,上周 Anthropic 的事就是最好的例子。
現(xiàn)在,國(guó)產(chǎn)開(kāi)源模型的價(jià)值正在被重新評(píng)估。
不是說(shuō)它今天在所有維度上都比 Claude 好,而是它穩(wěn)定、可控、不會(huì)哪天突然告訴你「因?yàn)檎咴颍悴荒苡昧恕埂?/p>
還有一點(diǎn),現(xiàn)在國(guó)產(chǎn) AI 都在不同程度上被限卡,如果這個(gè)環(huán)節(jié)能突破,我覺(jué)得不會(huì)比國(guó)外差。
GLM-5.2 這次的做法也值得一說(shuō),Coding Plan 全量用戶(hù)直接可用,包括免費(fèi)的 Lite 版。
這種發(fā)布方式本身就是一種態(tài)度,不搞花活,你自己試,數(shù)據(jù)說(shuō)話。
最后,說(shuō)下我自己的判斷。
過(guò)去一年,行業(yè)衡量模型的標(biāo)準(zhǔn)正在遷移。以前比的是誰(shuí)完成任務(wù)更好,誰(shuí)的 benchmark 分高誰(shuí)就牛。
現(xiàn)在比的是「能獨(dú)立干多久」,誰(shuí)能持續(xù)工作、不跑偏、不忘事,誰(shuí)才是真正能用的生產(chǎn)力工具。
上下文長(zhǎng)度的可用性和長(zhǎng)程任務(wù)能力,正在成為下一階段模型競(jìng)爭(zhēng)的主線。
技術(shù)要真正普及成生產(chǎn)力,就一定是開(kāi)放的。
所有的不開(kāi)放和限制,本身其實(shí)就是對(duì)生產(chǎn)力進(jìn)步的一種束縛。
智譜在他們官宣內(nèi)容的最后提到兩句英文:
A step closer to frontier intelligence for everyone.
The future of AI is open, and it is for the people.
翻譯過(guò)來(lái)就是:
向前沿智能再近一步,為每一個(gè)人。
AI的未來(lái)是開(kāi)放的,它屬于所有人。
國(guó)產(chǎn)模型走到這一步,值得被看見(jiàn)。
················· 唐韌出品 ·················
用AI思維發(fā)現(xiàn)下一個(gè)機(jī)會(huì)
安可時(shí)刻
如果國(guó)產(chǎn)模型能解決被限卡的瓶頸,那速度和質(zhì)量又會(huì)上去一個(gè)臺(tái)階。
其實(shí)對(duì)于大多數(shù)任務(wù)來(lái)說(shuō),現(xiàn)在國(guó)產(chǎn)模型已經(jīng)表現(xiàn)不錯(cuò)了。從我的日常 coding 場(chǎng)景來(lái)看,GLM-5.2 基本也能滿足大多數(shù)需求。
國(guó)外模型是很強(qiáng),但我們也要給國(guó)產(chǎn)模型一些時(shí)間讓他們成長(zhǎng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.