網易首頁 > 網易號 > 正文 申請入駐

GLM-4.5技術報告揭秘:如何圍繞Agent構建一個模型

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

智譜GLM-4.5的發布,在近期的AI開源社區中引發了不小的討論。模型放出后,它在Hugging Face社區的趨勢榜單上表現亮眼,綜合性能也在多個基準測試中位列前茅。其原生Agent能力的提法和頗具競爭力的定價,都成為了開發者們關注和討論的焦點。

在模型獲得了一波社區的實踐和反饋之后,智譜緊接著發布了長達25頁的詳盡技術報告。這份報告同樣獲得了很高的關注度,登上了Hugging Face Daily Papers的熱度榜首。

這份報告的價值在于,它系統性地闡述了其模型的設計思路,明確將Agent、Reasoning(推理)和Coding(代碼)三種能力的統一,即ARC,作為衡量通才模型的核心標準。

報告鏈接:https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

ARC三位一體

GLM-4.5的設計哲學的核心聚焦于Agent、推理和代碼三者的原生統一。報告在開篇就明確提出了這個主張。它認為,大語言模型(LLM)正從通用知識庫演變為通用問題解決者,一個真正的通才模型,需要統一掌握三項相互關聯的核心能力:

Agentic abilities (Agent能力):與外部工具和真實世界進行交互。

complex Reasoning (復雜推理能力):解決數學、科學等多步驟問題。

advanced Coding (高級代碼技能):處理真實的軟件工程任務。

這三者之間存在著緊密的內在邏輯。一個強大的Agent,必須具備調用工具的能力,而代碼(Coding)正是與數字世界交互的終極工具;同時,要完成一個復雜任務,例如根據用戶需求去修復一個GitHub倉庫里的Bug,必然需要嚴密的邏輯推理(Reasoning)能力來規劃步驟和理解依賴關系。

因此,GLM-4.5的設計目標就是將這三者進行原生集成,讓Agent能夠基于優秀的推理和代碼能力,去思考和行動,后續大量的技術細節,都是圍繞這個目標展開。

為Agent打造的技術路徑

一個清晰的目標,需要一條嚴謹的技術路徑來實現。GLM-4.5的技術報告用大量篇幅介紹了其如何從模型架構、數據處理、訓練流程到最終的強化學習,一步步地將Agent能力注入到模型中。

模型架構:更深、更專的MoE設計

GLM-4.5采用了當前大模型領域主流的混合專家(MoE)架構,以在保證性能的同時提升計算效率。報告揭示了其在具體實現上的一些獨特設計選擇,例如“瘦高”結構。與一些模型追求更“寬”(更多的專家數量、更大的隱藏層維度)不同,GLM-4.5團隊選擇了減少寬度,但增加模型深度的結構。報告提到,他們發現更深的模型在推理能力上表現更出色,這直接服務于ARC能力中的推理基礎。此外,報告還提到了一些為增強推理能力而做的精細調整,例如模型使用了倍數于常規模型的注意力頭,并引入QK-Norm技術來穩定訓練。這些改動共同為模型打下了堅實的推理和代碼功底。

GLM-4.5與DeepSeek-V3 與 Kimi K2的模型架構對比

訓練流程:從“廣積糧”到“中場強攻”

一個好的模型架構需要海量且優質的數據來喂養。報告詳細介紹了其復雜的多階段訓練流程,清晰地展示了從通用到專精的演進過程。在兩階段預訓練中,模型先在15T Tokens的通用語料上進行學習,可以理解為“廣積糧”。隨后,則在一個7T Tokens的數據集上繼續訓練,這個數據集會重點上采樣與代碼和推理相關的高質量內容,相當于開始為ARC能力“定向施肥”。

報告中一個非常有趣的環節是獨特的中期訓練(Mid-training)。在完成大規模預訓練后,模型會進入一個專門的“中期訓練”階段,針對性地“強攻”特定能力。這個階段主要包含三類數據:一是代碼倉庫級數據,將同一個代碼庫的多個文件拼接訓練,讓模型學習跨文件的依賴關系;二是合成推理數據,利用已有模型生成大量帶有推理過程的問答數據;三是長上下文與Agent軌跡數據。這是最關鍵的一步,模型開始接觸并學習大量的、由機器合成的Agent任務軌跡,同時訓練的序列長度也從預訓練時的4K,一路擴展至最終的128K。

Pre-training和Mid-training的多階段流

后訓練:RL注入Agent靈魂

如果說預訓練和中期訓練是為模型打造了強健的“軀體”,那么后訓練,特別是強化學習,則是為其注入“靈魂”的關鍵。正如一位社區開發者評論的那樣,這份報告的大部分篇幅都在講述一個復雜的后訓練策略。

報告中的RL訓練設計,處處體現出為Agent服務的思想。例如,Agentic RL的訓練聚焦于兩類可以被程序自動驗證結果的任務:基于信息檢索的問答和軟件工程,因為這類任務有明確的成功或失敗信號,便于模型進行高效的強化學習。報告中一個值得注意的細節,是為模型的工具調用設計了一套新的XML格式模板,旨在解決常見JSON格式在參數包含代碼時需要大量轉義字符的痛點,直接提升了Agent最核心的工具調用環節的穩定性和效率。

另一個例子體現在模型的交互式解決問題能力上。如下圖所示,在網頁瀏覽這類典型的Agent任務中,模型的準確率會隨著與環境交互輪次的增多而穩步提升。這說明模型學會的不是一次性地給出答案,而是通過持續的探索、試錯和信息整合來逼近正確解,這正是Agent模式的核心價值所在。

BrowseComp模型的準確率隨交互輪次(測試時計算量)的增加而變化。

為了支撐如此復雜的RL訓練,智譜還專門設計并開源了名為slime的RL訓練框架。根據報告描述,這個框架的核心設計(如異步、解耦的訓練架構)就是為了高效處理Agent任務中常見的數據生成慢、交互耗時長的痛點,體現了其構建開發者生態的意圖。

總體來看,GLM-4.5的技術報告用詳盡的數據,對其以Agent為核心的設計理念進行了驗證。

報告的評測部分體現了模型綜合性能。在涵蓋Agent、推理、代碼的12項基準測試中,GLM-4.5的綜合得分位列全球第三,Agent能力單項排名全球第二。

報告還提供了更深入的Agent能力評測細節。例如,在一個名為CC-Bench的真實編程任務測試中,GLM-4.5的工具調用成功率達到了90.6%,超過了多個強有力的競爭對手。這種在實際任務中表現出的高可靠性,也讓一些海外開發者評價其為“當今最精通工具、最原生的Agent模型”。

不同模型在 CC-Bench 上的平均工具調用成功率與單輪交互的平均 Token 消耗對比。

社區的討論也指向了另一個維度:性價比。有用戶評論認為,“性價比才是大模型落地的真正核心指標”。這一點與GLM-4.5的技術選型不謀而合。其采用的MoE架構本身就是一種平衡效果與成本的高效方案,這種技術效率也反映在了它的市場策略上,使其能以一個普惠的價格,鼓勵更多開發者進行調用和嘗試,形成生態的正向循環。

這份技術報告,本質上是智譜將其以Agent為核心的設計思路,完整地攤在了桌面上。當模型權重、技術報告、以及RL訓練框架slime三者同時被推向社區,其意義就不再只是發布一個供人調用的工具。這更像是一種開放的邀請,開發者不僅可以“用”這個模型,更可以深入地“學”它的實現方法,甚至“改”它的訓練流程。這或許是更深層的價值所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前廣西首富負債343億:他用18年建起商業帝國,又用10年親手拆掉

前廣西首富負債343億:他用18年建起商業帝國,又用10年親手拆掉

豆腐腦觀察局
2026-04-26 00:05:03
笑麻!原來可樂到了拉薩也高反,當地網友:不是這種的肯定都壞了

笑麻!原來可樂到了拉薩也高反,當地網友:不是這種的肯定都壞了

夜深愛雜談
2026-04-26 07:42:23
中國雷達又凡爾賽了一把

中國雷達又凡爾賽了一把

安安說
2026-04-24 11:32:46
斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉NO.1

斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉NO.1

劉姚堯的文字城堡
2026-04-26 00:21:08
濟南一地整排充電口被綠化帶阻隔,多方回應:先有充電樁,綠化帶系施工后恢復,正溝通

濟南一地整排充電口被綠化帶阻隔,多方回應:先有充電樁,綠化帶系施工后恢復,正溝通

瀟湘晨報
2026-04-26 11:28:18
荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

春秋硯
2026-04-25 17:15:06
2-0!西甲大結局!巴薩11分領跑,有望誕生名場面:戰勝皇馬奪冠

2-0!西甲大結局!巴薩11分領跑,有望誕生名場面:戰勝皇馬奪冠

小徐講八卦
2026-04-26 05:41:47
韓旭獲前勇士四冠王朝教練盛贊 替補20分全隊最高

韓旭獲前勇士四冠王朝教練盛贊 替補20分全隊最高

體壇周報
2026-04-26 11:49:21
27+10+92.2%!效率逆天!最可怕的是,他連球隊老三都算不上

27+10+92.2%!效率逆天!最可怕的是,他連球隊老三都算不上

阿浪的籃球故事
2026-04-25 16:01:55
湖人在G3擊敗火箭后,宣布關于勒布朗·詹姆斯的重要消息!

湖人在G3擊敗火箭后,宣布關于勒布朗·詹姆斯的重要消息!

夜白侃球
2026-04-25 23:54:45
隨著38歲梅西多次射門無果+邁阿密國際1-1,美職聯最新積分榜出爐

隨著38歲梅西多次射門無果+邁阿密國際1-1,美職聯最新積分榜出爐

凌空倒鉤
2026-04-26 09:42:06
霍爾木茲海峽封鎖,美國能源出口飆升,二戰以來首次接近成為原油凈出口國

霍爾木茲海峽封鎖,美國能源出口飆升,二戰以來首次接近成為原油凈出口國

紅星新聞
2026-04-25 12:32:20
獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

復轉這些年
2026-04-25 18:51:48
女大學生泰國旅游被高價轉賣緬甸園區,照片流出長這么好看被折磨太慘

女大學生泰國旅游被高價轉賣緬甸園區,照片流出長這么好看被折磨太慘

不二表姐
2026-04-24 22:41:14
6位央企高管酒后大鬧國外機場,為何2年多才被曝出結果?誰在捂?

6位央企高管酒后大鬧國外機場,為何2年多才被曝出結果?誰在捂?

西門老爹
2026-04-25 15:07:02
一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

川渝視覺
2026-04-25 20:19:24
1-0!沙特豪門衛冕亞冠冠軍 少打1人后加時賽絕殺 日本球隊3連亞

1-0!沙特豪門衛冕亞冠冠軍 少打1人后加時賽絕殺 日本球隊3連亞

我愛英超
2026-04-26 05:40:51
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

夜深愛雜談
2026-04-25 07:33:34
老板娘問我她屁股翹不翹?我該怎么回答?

老板娘問我她屁股翹不翹?我該怎么回答?

太急張三瘋
2026-04-26 10:05:33
李嘉誠又跑了!百佳超市被賣,接盤者每次都得“脫層皮”

李嘉誠又跑了!百佳超市被賣,接盤者每次都得“脫層皮”

子芫伴你成長
2026-04-25 23:17:42
2026-04-26 12:07:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
藝術
旅游
家居
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

旅游要聞

臺兒莊古城國潮文化季正式啟動 五一“入夢臺城”拉開帷幕

家居要聞

自然肌理 溫潤美學

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版