无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一手實測智譜最強模型!AI編程“御三家”要成型了?

0
分享至


智東西
作者 陳駿達
編輯 漠影

智東西6月17日報道,今天,智譜正式發布并開源了新一代旗艦模型GLM-5.2。在大模型盲測平臺競技場(Arena.ai)的編程評估系統Code Arena上,GLM-5.2拿下了1595分的高分,排名總榜第二,僅次于Fable 5,并在全球可用模型中排名第一


在測評“超長程、開放式、高難度軟件工程任務”的基準測試FrontierSWE中,目前GLM-5.2排名僅次于Opus 4.8以及暫時不可用的Fable 5。


在專門評測模型品味(taste)的Design Arena上,GLM-5.2取得全球第一的表現,審美也沖到全球前沿。


知乎上,大V toyama nao打趣道,以后通過中轉站用Opus的用戶得面對一個新問題:如果Opus是GLM-5.2冒充的,那用戶可能真的分辨不出來。


體驗到GLM-5.2實際效果的國內外用戶反響熱烈。有開發者直言:“這是國內第一款在我工作流上達到Opus級的模型。”


海外用戶也反饋,GLM-5.2的表現超出預期,與Fable 5的差距比預期中要小得多。如今,Fable 5已無法正常使用,海外網友原本以為它的封禁會拉開差距,沒想到GLM已經快追上來了。這下輪到Anthropic頭疼了。


目前,GLM-5.2 API已經上線,企業和用戶也可在Hugging Face等開源平臺直接下載并部署這一模型。

此前,智東西已經連續對智譜的GLM-4.5、GLM-4.7、GLM-5、GLM-5.1等模型進行了深度體驗,此次GLM-5.2發布后,我們第一時間跑了幾組大型案例,能明顯感覺到一條清晰的進化脈絡:如果說GLM-4.7實現了對彼時頂級編程模型Sonnet 4.6的對齊,在GLM-5.2上,這一模型的“使用體感”,已經和Opus級模型基本沒有差別。

在AI編程模型領域,此前公認的全球頭部玩家長期只有Anthropic(Claude系列)和OpenAI(GPT系列)。此次,GLM-5.2通過全球可用編程模型第一的榜單成績和開發者“Opus平替”真實口碑,正在躋身這一頂級俱樂部??梢哉f,一個由Anthropic、OpenAI、智譜構成的“Coding御三家”格局正在成形。

在閉源巨頭壟斷編程模型話語權,并且隨時可能收回訪問權限的當下,GLM-5.2用開源將選擇權交還給了廣大開發者。

一、和GLM-5.2協作編程4小時:幾乎用滿百萬上下文、修16個bug,從零打造一個《文明》復刻版

我的首個實測任務,是讓GLM-5.2從零開始開發一款《文明》風格的策略游戲,逐步從M0版本迭代到M4版本。

在正式開發前,我先讓GLM-5.2寫了一份PRD文檔,并與它討論了具體的技術實現,最后的技術方案確定為使用Godot引擎、GDScript,實現2.5D畫風的游戲。


M0版本是整個項目的地基。在這一版本中,GLM-5.2一連創建并編寫了十幾個文件,生成了標準的地圖網格、基礎游戲單位等核心內容。開發完成后,GLM-5.2 快速跑了一次驗證,交付了M0版本。


不過,這個版本只是個初步成果,游戲設計還較為粗糙,角色僅用圓形圖標替代,也沒有清晰的游戲機制,還自帶不少交互層面的小bug。


我決定在M0階段逐一優化這些bug。GLM-5.2在我的指令下調整了信息面板無法打開、初始單位無法移動等多個bug,不過,每個bug的修復基本都可以在一兩輪對話中完成,效率還是不錯的。

之后,我跳過了M1版本,直接讓GLM-5.2開發出M2版本,這也是游戲深度的核心。在沒有明確要求的情況下,GLM-5.2自主判斷并決定加入了戰斗系統、科技樹、城市經濟和資源限制四大子系統。這些新系統的開發工作量較大,GLM-5.2持續工作了30多分鐘才完成。


在這一過程中,GLM-5.2嚴格按照我和它定下的開發規則:完成一個功能,跑一次測試,沒問題了再進行下一次開發。其實,這輪迭代跑到后期,上下文窗口已經到30多萬tokens了,GLM-5.2此時還能記得規矩,實屬不易。

M3版本讓游戲從沙盒變成了能分出輸贏的完整單局。GLM-5.2實現了敵方戰術AI,并擴大了地圖的尺寸。雖然我的開發指令主要以游戲本身功能迭代為主,但GLM-5.2還主動考慮到了游戲優化的問題。隨著地圖越來越大,GLM-5.2決定將地形渲染拆分為靜態和動態層,小地圖也加上了緩存優化,這讓游戲跑起來更加順暢。

后期M4版本的工作主要集中在美感和可玩性方面,在這一階段,GLM-5.2展現出了不錯的審美。比如,我告訴它游戲的UI設計“沒有游戲味兒”,全是文字堆砌,它便自己找素材更新圖標,重新設計交互卡片,讓整個游戲的視覺效果上了一個檔次。


最后,我還遇到了一個意想不到的bug,當地圖擴張到100×100的尺寸時,出現了畫面隨著拖拽劇烈跳動的問題,試了各種方法也無法解決。最后,還是GLM-5.2成功定位了問題:它發現,這一個問題其實從M0版本開始就貫穿始終,但在地圖放大后才變得明顯,這與UI控件的問題有關。

這種問題根因的定位,意味著GLM-5.2可以跨越大幾十萬的上下文長度,精準定位了初版代碼中的隱藏bug。

在完成上述所有開發任務后,我們也簡單統計了下,在這一項目中,GLM-5.2總計使用了87萬的上下文窗口,已經接近它的極限。


GLM-5.2復盤了它在接近百萬上下文長度的任務中修復的所有bug。它的統計結果是16個,與實際數據保持一致。同時,GLM-5.2還記得每個bug發生的原因以及解法,真正展現出在百萬上下文場景內的可靠記憶。


二、30小時播客實錄一口氣讀完,GLM-5.1敗下陣來

除了編程之外,GLM-5.2 100萬上下文的能力還可以解鎖很多其他用途。在日常工作中,我常常需要處理大量長文本的信息整合,更大上下文窗口的模型可以起到很好的提效作用。

實測中,我一次性上傳了13份AI領域相關的播客實錄,總時長超過30小時,文本量約25萬詞,換算下來至少有30萬個token。這些播客來自The Lex Fridman Podcast,涉及不同嘉賓,時間跨度數周,話題涵蓋大模型架構、企業AI戰略、多模態、AI安全、開源生態等多個子領域,信息高度分散且存在大量跨期觀點的呼應、補充與矛盾。

讓GLM-5.2一次性讀入全部13份實錄后,我下達了以下解讀任務:

(1)跨期觀點追蹤:

我讓GLM-5.2定位“scaling law是否遇到瓶頸”這一話題在所有13份實錄中的討論軌跡。GLM-5.2成功識別出了黃仁勛旗幟鮮明否定“預訓練撞墻論”的觀點,也找到了Sam Altman到對Scaling過程中算力重要性的強調,完整串起了一條跨越30小時對話、相隔數萬字的觀點演進鏈。


GLM-5.2最后給出總結,2023年時大家討論的還是單一預訓練Scaling,但之后Scaling Law的定義不斷擴展,演變出了四條曲線,涵蓋預訓練、后訓練、測試時以及智能體。它還判斷,目前主要的難點仍然是在架構層面——能否真正再做出一個Transformer級別的技術創新,并從播客實錄中找到了Hassabis、陶哲軒對相關問題的論述,做到有理有據。

(2)主題聚類:

之后,我還讓GLM-5.2將散落各處、形式各異的討論,按“推理能力提升路徑”、“合成數據的有效性邊界”、“Agent架構的主流選擇”等主題自動歸類,生成每個主題下的共識摘要與待解爭議。

GLM-5.2僅用時1分多鐘就完成了梳理,找到9大主題,每個主題下都有來自多個不同人物的觀點,顯示出對數十萬上下文內容的把握。我抽檢了幾個關鍵的引語,發現GLM-5.2基本沒有出現幻覺,相關觀點在播客實錄中都可以找到印證。


這類任務如果用常規上下文窗口的模型處理,只能分段投入、分批總結再人工拼接,跨實錄的邏輯關聯和隱性矛盾或多或少會有些丟失。為驗證這一現象,我們讓GLM-5.1(20萬上下文窗口)試了試同一個跨期觀點追蹤任務。


最終,GLM-5.1雖然也可以逐步讀完這些內容,但其輸出的總結更像是逐個閱讀文件后,對每個文件進行提煉然后匯總,觀點在不同時期如何變化、彼此之間有何聯系,這些需要跨越多文件才能提煉出來的細節,GLM-5.1沒能成功定位。


不過,并不是所有任務,都必然需要GLM-5.2的百萬上下文能力。在一些輕量級任務上,GLM-5.1和GLM-5.2并不會帶來明顯的使用體感差異。

比如,我讓GLM-5.1和GLM-5.2做了同樣的輕量Web UI開發工作,兩個模型的輸出速度和質量都基本一致。



在像是單文件代碼補全、簡單腳本編寫、日常問答或短文檔摘要這類任務上,兩個模型的輸出質量也基本持平。百萬上下文的優勢主要顯現在需要跨區段關聯信息的超長任務中,日常開發中大部分小修小改,200K窗口已經足夠,不必為了1M而1M。

三、百萬上下文的真正挑戰:裝下只是開始,好用便宜才是關鍵

那么,智譜在GLM-5.2上到底采用了哪些技術,才實現了百萬上下文窗口,并讓模型真正能有效利用它?

其實,智譜在GLM-4時代就曾推出過百萬上下文窗口的模型,但其大部分模型此前仍維持著較小的上下文窗口。

在百萬級上下文窗口中,單純強調“長度”本身意義有限。真正的挑戰在于,隨著上下文規模擴展,模型注意力機制的計算復雜度呈平方式增長。要讓100萬token的上下文不只是參數表上的一個數字,而是真正可用,就要解決兩個核心問題:模型效果能否在從0到100萬token的全程中不出現明顯衰減,以及推理成本能否控制在可用的范圍內。

這背后涉及大量的工程工作。GLM-5.2在這一問題上的思路是從推理基礎設施層面和模型架構層做協同優化。圍繞長序列的效率瓶頸,智譜引入了IndexShare 、KVShare、LayerSplit和HiSparse的組合方案。

模型架構層,智譜改進了GLM-5.2的MTP層以實現更好的推測解碼。他們在MTP層應用了IndexShare和KVShare的組合方案。此前,MTP每預測一步,都要做一次注意力計算,而GLM-5.2在多步MTP中,只在第一步計算索引器(indexer),得到topk索引后,后續所有步驟直接復用,不再重復計算。


其中,LayerSplit已在GLM-5系列模型“降智”問題優化的工程實踐中得到驗證。GLM主打的Coding Agent工作負載以上下文長、Prefix緩存命中率高為特點,這使得Context Parallel(CP,上下文并行)成為Prefill節點的主要并行策略。

在基礎設施層,智譜提出的LayerSplit已在GLM-5系列模型“降智”問題優化的工程實踐中得到驗證。

這項技術針對Coding Agent工作負載以上下文長、Prefix緩存命中率高特點,重點解決KV緩存冗余存儲問題,其核心思路是:每張GPU僅持有部分層的KV Cache,從而顯著降低單卡顯存占用。計算時,持有某一層Cache的CP rank會在Attention計算前將其廣播給其他rank。


為進一步減少開銷,智譜設計了KV Cache廣播與Indexer計算的重疊機制,使二者在時間上相互掩蓋。整個流程僅額外引入約為KV Cache體量1/8的Indexer Cache廣播,通信成本對性能影響可忽略。

實驗結果表明,在32k-1024k的請求長度區間內,GLM-5.2的系統吞吐量較GLM-5.1實現了3%-192%的提升,且上下文越長收益越顯著。


同時,智譜還根據模型的稀疏注意力特性,設計了一套名為HiSparse的分層內存系統。該系統可以主動將非活躍的KV緩存條目卸載至主機內存,大幅緩解GPU顯存壓力,同時在GPU HBM中維護熱點設備緩存區,存放高頻訪問的KV緩存區域,以此最小化關鍵路徑上的數據遷移開銷。

這些優化共同降低了長序列推理的顯存占用和延遲,使100萬上下文從僅僅”能跑”,變成真的“用得起”、“好用”。

智譜稱,GLM-5.2的線上推理依托多個國產算力平臺,已在Day 0完成與華為昇騰、平頭哥、摩爾線程、寒武紀、昆侖芯、沐曦、海光、壁仞等國產算力平臺的推理適配。

此外,GLM-5.2還新增了High與Max兩檔思考強度(thinking effort)設定,復雜編碼任務中可啟用更高檔位以確保架構級邏輯的嚴謹性。

智譜GLM-5.2的百萬級上下文能力,將解鎖許多新的AI應用場景。

例如,在復雜的Web Search類任務中,GLM-5.2可以基于公開資料,調研12-15個主流K12在線編程教育品牌,并輸出完整的xlsx數據庫、分析報告和圖表。


結合智譜的Agent產品AutoClaw,GLM-5.2的100萬上下文與長程任務能力可以服務于設計、法務等白領場景,例如一次性寫出數十個原型頁面,自主迭代和微調,在設計中保持品牌規范與一致性。

在這些類型的任務上,GLM-5.2帶來的本質差異不在于結果好還是壞,而是“能用還是不能用”。這些任務的量級、復雜度,是其他不具備百萬上下文能力的模型所難以想象的。

結語:智譜補齊長程任務技術拼圖

回顧智譜近期的技術路線,從GLM-5.1將開源模型的長程任務能力推進8小時級,到GLM-5.2以1M上下文將這一能力進一步延展,其技術拼圖的脈絡是清晰的:先讓模型能持續工作更久,再為它配備足夠大的記憶容量。長程任務的失敗,很多時候不是模型不夠聰明,而是它忘了最初的約束,1M上下文解決的正是這個問題。

當補齊這些能力拼圖后,智譜GLM系列模型在真正工程任務中的可用性有望進一步提升。在實測中,GLM-5.2已經完整跑通理解需求、設計方案、寫代碼、跑測試、修bug,到最終交付的閉環,我不再需要逐段拆解任務、反復喂入背景信息、檢查中間步驟是否偏離初衷。

當模型既能工作得久、又能記得住,它才真正具備了成為長期協作伙伴的基礎。這也是從“對話式AI”走向“執行式AI”的關鍵一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃蜂有意小賈聯手三球!可出7籌碼含2首輪 火箭重組陣容贏未來?

黃蜂有意小賈聯手三球!可出7籌碼含2首輪 火箭重組陣容贏未來?

顏小白的籃球夢
2026-06-17 12:59:08
8000 萬轉會大地震!皇馬出手截胡曼聯,穆里尼奧要搶葡萄牙天才

8000 萬轉會大地震!皇馬出手截胡曼聯,穆里尼奧要搶葡萄牙天才

一隅非生
2026-06-17 08:20:35
離譜!中國女留學生夸贊印度男生追街搭訕:中國人該學這種厚臉皮

離譜!中國女留學生夸贊印度男生追街搭訕:中國人該學這種厚臉皮

小徐講八卦
2026-06-17 14:14:23
東契奇完整專訪:親眼見證詹姆斯訓練太震撼 身邊最需要靠譜射手

東契奇完整專訪:親眼見證詹姆斯訓練太震撼 身邊最需要靠譜射手

羅說NBA
2026-06-17 07:30:24
23歲在總決賽場均28+13+6!90%球迷認為他不配頂薪,母隊也不要他

23歲在總決賽場均28+13+6!90%球迷認為他不配頂薪,母隊也不要他

阿浪的籃球故事
2026-06-16 16:05:12
開國大典記(偉大征程)

開國大典記(偉大征程)

人民網
2026-06-17 09:17:01
某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

番外行
2026-02-26 19:53:05
世界杯預測,葡萄牙隊有實力,也有動力取勝,英格蘭隊以平局收場

世界杯預測,葡萄牙隊有實力,也有動力取勝,英格蘭隊以平局收場

足球分析員
2026-06-17 11:00:06
支付寶奇襲微信

支付寶奇襲微信

新眸深度
2026-06-16 17:20:08
拒絕續約想去執教尼克斯,結果現在找不到下家,高估自己的下場!

拒絕續約想去執教尼克斯,結果現在找不到下家,高估自己的下場!

你的籃球頻道
2026-06-17 08:41:15
發現一個奇怪現象:當看到一個女人手上沒有手鐲,脖子上沒有項鏈,能確定她在這3個方面是非?!疤貏e”的人......

發現一個奇怪現象:當看到一個女人手上沒有手鐲,脖子上沒有項鏈,能確定她在這3個方面是非?!疤貏e”的人......

背包旅行
2026-06-03 11:43:15
世界杯頭號臥底!塞內加爾 3 次必進球全踢飛!純純坑死全隊!

世界杯頭號臥底!塞內加爾 3 次必進球全踢飛!純純坑死全隊!

奶蓋熊本熊
2026-06-17 05:27:49
證監會主席吳清:主動擁抱新一輪科技革命和產業變革

證監會主席吳清:主動擁抱新一輪科技革命和產業變革

澎湃新聞
2026-06-17 11:44:19
24歲趙今麥和朋友在南法旅游被偶遇,個子挺矮的,目測155左右

24歲趙今麥和朋友在南法旅游被偶遇,個子挺矮的,目測155左右

草莓解說體育
2026-06-17 12:30:22
NBA新王布倫森年薪3500萬到手僅剩1330萬,60%的錢都去哪兒了?

NBA新王布倫森年薪3500萬到手僅剩1330萬,60%的錢都去哪兒了?

林子說事
2026-06-16 15:37:24
梅西,像極了班里那個偷偷補習的學霸

梅西,像極了班里那個偷偷補習的學霸

中國新聞周刊
2026-06-17 13:19:47
女學霸發明“咯噔字體”,老師低分警告:別用個性挑戰考試底線

女學霸發明“咯噔字體”,老師低分警告:別用個性挑戰考試底線

蝴蝶花雨話教育
2026-05-07 00:05:04
我和老公是丁克,退休后打算賣房周游世界,侄子上門說房子是他的

我和老公是丁克,退休后打算賣房周游世界,侄子上門說房子是他的

夢飛故事會
2025-01-29 07:00:03
熱點|小齊達內被梅西三破球門算不上難堪

熱點|小齊達內被梅西三破球門算不上難堪

北青網-北京青年報
2026-06-17 13:01:27
男童溺亡后續,奶奶口供前后不一,最后影像曝光,父母已精神崩潰

男童溺亡后續,奶奶口供前后不一,最后影像曝光,父母已精神崩潰

有范又有料
2026-06-16 18:49:33
2026-06-17 15:04:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
12068文章數 117108關注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級管制”

頭條要聞

連進3球追平克洛澤 梅西在第六屆世界杯上演完美首秀

頭條要聞

連進3球追平克洛澤 梅西在第六屆世界杯上演完美首秀

體育要聞

西足協主席談平佛得角:不必過度擔心

娛樂要聞

百花獎名單惹爭議,這5位實在可惜!

財經要聞

陸家嘴論壇上,央行帶來六大新政策利好

汽車要聞

三車齊發 零跑全新C10/C11/C16上市12.58萬元起

態度原創

旅游
時尚
親子
房產
本地

旅游要聞

端午短途游升溫,美團:30歲以下出游人群占比超六成

夏天最好看的6只包!照著搭美出新高度

親子要聞

香港男星的兒子確診自閉癥,5歲都不會說話,承受外界異樣眼光

房產要聞

最新房價:???、三亞;新房、二手房全線下跌!

本地新聞

這屆年輕人,正在修煉剛柔共生的人生

無障礙瀏覽 進入關懷版