无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

GRPO過時了嗎?

0
分享至



編輯|Panda

6 月 13 日,智譜在 X 平臺宣布GLM-5.2完全開放,并把正式開放的時間定在了當晚 5 點 21 分——一個「特殊時刻」。



很多人認為這個數字不是隨便挑的:美國政府向 Anthropic 下發出口管制指令、切斷 Fable 5 與 Mythos 5 境外訪問權限的那一刻,正是美國東部時間下午 5 點 21 分。「5 點 21」這個數字上的重復,被多家媒體解讀為一次刻意設計的呼應。智譜選擇在這個節點站出來,相當于當著全世界開發者的面說了一句話:你們擔心的「模型隨時可能被收回」,開源這邊沒有這個問題。

這次發布也確實給得起這個姿態。GLM-5.2 是一個 744B 參數、激活 40B 的 MoE 模型,遵循 MIT 協議完全開源,支持真正可用的 1M token 上下文。在長程任務基準 FrontierSWE 上,它拿到 74.4%,逼近 Claude Opus 4.8 的 75.1%,反超 GPT-5.5 的 72.6%。不少開發者實測后表示,這是第一個讓他們認真考慮用來替換 Opus 或 GPT 工作流的開源模型。



昨天 Design Arena 發布的博客《GLM-5.2 如何在網站設計上擊敗了 Fable 5》更是成為爆款文章,引發了廣泛關注和熱議。



https://x.com/Designarena/status/2068030598028087788

但比這些分數更讓技術圈坐不住的,是一個差點被淹沒在技術博客角落里的細節:GLM-5.2 在長程強化學習階段,放棄了 GRPO





圖源: X @JoshPurtell @sheriyuo @MikaStars39

這件事不大,卻像一根針,扎破了一個維持了一年多的共識。GRPO(Group Relative Policy Optimization,群體相對策略優化)由 DeepSeek 于 2024 年在 DeepSeekMath 論文中提出,又經 DeepSeek-R1 驗證,此后幾乎成了開源社區訓練推理模型的默認答案——不需要價值網絡,也能訓出強推理能力。GLM-5.1 的強化學習階段,用的正是這套思路。一年多以后,GLM-5.2 悄悄把它換掉了。

一個被驗證過的范式,正在被它最早的追隨者之一悄悄拋棄。

技術社區的反應

消息傳開后,X 上的討論很快分成了幾條線。

有人把這件事稱為「critic 回來了」。開發者@hallerite 的判斷很直接:群體內比較這種降低方差的辦法,過了某個任務長度之后根本行不通,模型需要更細粒度的信號,OpenAI 和 Anthropic 大概早就在用價值網絡了。



類似地帖子非常多,有人說自己在小規模項目里對比過 GRPO 和 actor-critic,結果 actor-critic 的表現明顯更好;也有人懷疑,OpenAI 和 Anthropic 等前沿實驗室在長程任務上本來就沒有真正依賴過 GRPO,這只是長程任務遲早要撞上的一道墻;比如 @ethayarajh 就指出,曾被 NeurIPS 拒收的 PPO 這條路線其實更貼近強化學習圈子里常說的「苦澀的教訓」(bitter lesson)——足夠通用、能隨計算量擴展的方法,往往比結構精巧但有適用邊界的方法走得更遠。



Xiuyu Li 提醒,一些長期做長程任務訓練的團隊,本來就從未真正全面采用過 GRPO,PPO 甚至 REINFORCE 一直是這些團隊的底色。



學術界則是另一幅景象:GSPO、DAPO、Dr.GRPO、GMPO、CISPO 等變體仍在源源不斷地涌現,試圖把 GRPO 在效率和穩定性上的毛病一個個打磨掉。

工業界悄悄回頭,學術界繼續往前沖。這個反差,很有意思。

智譜為什么換掉了 GRPO

要理解這次切換,得先弄清楚 GRPO 最初解決的是什么問題。

傳統 PPO 需要一個價值網絡(critic),專門預測「當前狀態未來能拿多少獎勵」,用來給每一步動作算優勢值。這個網絡和策略模型一樣大,訓練起來貴,也容易不穩定。



GRPO 的辦法是:不訓練這個價值網絡了,改成讓模型對同一個問題生成一組(通常是幾十個)回答,拿組內平均獎勵當基線,誰比組內平均分高,優勢值就為正。這就像讓同一道題的幾十名學生同時交卷,再互相比較打分——不需要一個全知的閱卷老師,矮子里也能拔將軍。

對數學題、單元測試這類有明確對錯的短任務,這個辦法省顯存又穩定,DeepSeek-R1 之后幾乎成了開源社區的默認選項。

GLM-5.1 的強化學習階段,用的正是這套思路,組大小固定為 32。

但 GLM-5.2 瞄準的是另一類問題:長程智能體任務。根據智譜技術博客披露的內容,這類任務的執行軌跡遠比解一道數學題長,涉及多輪工具調用、子任務拆解、跨多輪的環境反饋。一條軌跡經過壓縮(compaction)處理后,子軌跡的數量和長度會變得參差不齊。

這正好打中了 GRPO 的軟肋:它要求把同一個問題下的一組輸出放在一起比較,可長程任務壓縮出來的子軌跡長短不一,有的三言兩語,有的拖了幾十步,根本湊不成一組可以公平比較的樣本。繼續硬上組內比較,大量數據會變得沒法用。

智譜給出的解法是:把價值網絡請回來。GLM-5.2 的長程強化學習從「群體相對優化」轉向了「基于 critic 的 PPO」,用 token 級別的優勢值去適配長短不一的子軌跡——不再依賴一組同伴互相打分,而是重新訓練一個能給任意一段軌跡獨立估值的「閱卷老師」。



圖源:DeepSeek 陳德里的推文

配合這次改動,智譜用 slime 框架把訓練和大規模推理 rollout 打通,將十余個專家模型并行蒸餾合并進最終模型,整個過程只用了約兩天。針對 coding 任務里常見的獎勵作弊(比如直接 curl 拉取參考答案、grep 搜索隱藏測試用例文件),GLM-5.2 還引入了一套兩階段攔截機制,先用規則過濾,再用 LLM 裁判識別可疑工具調用,攔截后返回一段無意義的「假信息」,讓訓練軌跡繼續走下去,而不是粗暴中斷,以免引發訓練不穩定。

簡單說,GLM-5.2 并未否定 GRPO,而是發現 GRPO 的設計前提在長程智能體任務里站不住了。

GRPO 真的過時了嗎

把這次切換簡單總結成「GRPO 不行了」,可能是個偷懶的結論。

GRPO 當年能火起來,解決的是一個很具體的問題:在有明確對錯的可驗證任務上,用盡可能少的顯存、盡可能穩定的方式做強化學習。這件事它依然做得很好。數學題、代碼單元測試、格式校驗這類短任務,答案就在那一組采樣里,組內比較的成本優勢依然成立。也因此,GSPO、DAPO 這些變體還在持續打磨 GRPO 在 MoE 訓練、長思維鏈場景下的毛刺,而不是直接宣布它退場。

一個更能說明問題的例子是 GRPO 的提出者自己。今年 4 月發布的 DeepSeek V4 技術報告顯示,DeepSeek 在訓練數學、代碼、Agent、指令跟隨等分領域專家模型時,用的依然是 GRPO,只是在把多個專家合并回一個統一模型時,換成了一種叫「在策略蒸餾」(On-Policy Distillation)的新方法。

GLM-5.2 換掉的其實是 GRPO 在另一類任務(多輪、長程、獎勵稀疏且延遲的智能體任務)上的適用性。這類任務里,「這一步做得好不好」往往要等到幾十步之后才能從最終結果反推回來,而且任務跑出來的軌跡長短千差萬別,很難找到一組「條件相同」的樣本去做組內對比

這個判斷不只是工業界這一輪的經驗之談,學術界也有對照實驗支持。

去年底一篇題為《Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments》的論文專門做過測試:在沒有提前終止機制的長程任務里,不帶 critic 的方法持續比不過帶學習到的價值函數的 PPO;只有像 CartPole 這種短程任務,組內比較的方式才能打平。



https://arxiv.org/pdf/2511.03527

這個結論和 GLM-5.2 這次的選擇,算是從工業實踐和學術實驗兩個完全不同的方向,得出的同一個判斷。

所以更準確的說法可能是:強化學習算法的選擇,正在變得任務相關,而不再有一個放之四海而皆準的「默認選項」。

短程可驗證任務,GRPO 及其變體依然夠用、依然便宜。長程智能體任務,價值網絡重新變得重要。

GLM-5.2 引發的討論之所以有分量,是因為它把這道分界線第一次擺在了公開的技術博客里,讓一個本來只停留在小圈子傳聞里的判斷(前沿實驗室可能壓根沒指望靠 GRPO 走到長程任務),有了一個開源、可復現、可供外界驗證的對照樣本。

結語

過去兩年,GRPO 幾乎成了開源大模型強化學習階段的代名詞,一種「便宜又好用」的默認信仰。GLM-5.2 的選擇提醒人們,這種信仰本身是有邊界的——它誕生于數學題和單元測試的世界,而現在的智能體正在被推向需要連續工作幾小時甚至更久的真實任務。

對整個行業而言,這次切換的意義可能超過 1M 上下文或者基準分數本身。它說明,隨著開源模型從「答題選手」走向「干活的智能體」,后訓練階段的算法選型也要跟著任務形態一起進化,而不能停留在某一篇論文定下的范式里。

下一次范式松動會發生在哪里,沒有人能提前給出答案,但可以確定的是,這場關于強化學習未來走向的爭論,才剛剛開始。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小鵬副總裁回應“L3L4自動駕駛強制使用激光雷達”:新國標連激光雷達這個詞都沒提到

小鵬副總裁回應“L3L4自動駕駛強制使用激光雷達”:新國標連激光雷達這個詞都沒提到

紅星資本局
2026-06-20 12:58:06
從皇馬太子到巴薩雞肋,還要跟羅納爾多爭金靴,神射手生不逢時

從皇馬太子到巴薩雞肋,還要跟羅納爾多爭金靴,神射手生不逢時

足籃大世界
2026-06-21 18:03:54
為什么全網都在喊“去父留子”,卻沒人提“去母留子”?3個真相

為什么全網都在喊“去父留子”,卻沒人提“去母留子”?3個真相

藝鑒在線
2026-06-21 15:48:30
穆里尼奧瘋了!皇馬葬送莫德里奇接班人,非要花 10 倍價錢買水貨

穆里尼奧瘋了!皇馬葬送莫德里奇接班人,非要花 10 倍價錢買水貨

奶蓋熊本熊
2026-06-21 05:06:53
醫生警告:馬上扔掉家里5種東西!易誘發肺癌,別不當事!

醫生警告:馬上扔掉家里5種東西!易誘發肺癌,別不當事!

健康科普365
2026-06-09 21:30:11
北京道路設計是不是有病?從棋盤格到七環套娃,為什么越治越堵?

北京道路設計是不是有病?從棋盤格到七環套娃,為什么越治越堵?

講故事的普六茹
2026-06-21 10:40:03
端午新聞聯播主播穿搭引網友熱議

端午新聞聯播主播穿搭引網友熱議

小椰的奶奶
2026-06-20 11:05:21
馬寧單場爭議6黃!外網怒批:瞎吹 媒體人:FIFA不會讓他當主裁了

馬寧單場爭議6黃!外網怒批:瞎吹 媒體人:FIFA不會讓他當主裁了

風過鄉
2026-06-21 10:07:55
媒體:有人說隊友進球、C羅舉手暗示越位!他在拖球隊后腿!

媒體:有人說隊友進球、C羅舉手暗示越位!他在拖球隊后腿!

歷史第一人梅西
2026-06-21 15:23:44
董潔曬北京大平層,深夜一個人煮夜宵吃,陪17歲兒子在北京讀高二

董潔曬北京大平層,深夜一個人煮夜宵吃,陪17歲兒子在北京讀高二

墜入二次元的海洋
2026-06-08 15:31:07
今日重要賽事!6月21日,CCTV5直播世界杯,CCTV5+直播中國男籃

今日重要賽事!6月21日,CCTV5直播世界杯,CCTV5+直播中國男籃

薇說體育
2026-06-21 10:34:46
孫藝珍度假“暴露真實狀態”!素顏穿搭松弛同框玄彬,無偶像包袱

孫藝珍度假“暴露真實狀態”!素顏穿搭松弛同框玄彬,無偶像包袱

明星私服穿搭daily
2026-06-21 18:44:30
發現朋友的孩子是唐氏兒,我該開口嗎?網友的回答吸引上萬共鳴!

發現朋友的孩子是唐氏兒,我該開口嗎?網友的回答吸引上萬共鳴!

夜深愛雜談
2026-06-19 21:54:50
莫斯科被炸,西方集體沉默,烏克蘭無人機突襲成功原因找到了?

莫斯科被炸,西方集體沉默,烏克蘭無人機突襲成功原因找到了?

兵國大事
2026-06-20 15:59:23
上班穿著超40斤的褲子!男子怪異著裝引發老板懷疑,報警一查所有人都驚呆了……

上班穿著超40斤的褲子!男子怪異著裝引發老板懷疑,報警一查所有人都驚呆了……

環球網資訊
2026-06-21 11:58:17
孫藝珍一家在沖繩度假,她摟著玄彬,玄彬很壯,兩人體型差明顯

孫藝珍一家在沖繩度假,她摟著玄彬,玄彬很壯,兩人體型差明顯

滄海一書客
2026-06-21 14:58:31
王老吉找挪威國腳哈蘭德代言,真的太劃算了!

王老吉找挪威國腳哈蘭德代言,真的太劃算了!

總在茶余后
2026-06-21 02:53:50
金價6月21日,大家要有心理準備了,下周,金價或將重現15年歷史

金價6月21日,大家要有心理準備了,下周,金價或將重現15年歷史

生活新鮮市
2026-06-21 03:31:54
烏無人機再襲莫斯科,俄羅斯可能部分從克里米亞撤軍

烏無人機再襲莫斯科,俄羅斯可能部分從克里米亞撤軍

山河路口
2026-06-19 23:49:30
上田綺世:射門前讓伊東純也幫我虛晃一槍,想彌補四年前的不甘

上田綺世:射門前讓伊東純也幫我虛晃一槍,想彌補四年前的不甘

懂球帝
2026-06-21 15:07:19
2026-06-21 19:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13313文章數 142674關注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價薪酬 2028年可兌現

頭條要聞

媒體:兩大核武國家“水仗”升級 巴基斯坦陷入恐慌

頭條要聞

媒體:兩大核武國家“水仗”升級 巴基斯坦陷入恐慌

體育要聞

德國的超級替補,10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財經要聞

蔚來的“暗戰”時刻

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

房產
家居
旅游
公開課
軍事航空

房產要聞

商業清零式退潮,大量住宅登場!三亞又要大規模調規!

家居要聞

綠意盎然 自然之境

旅游要聞

河南:多彩民俗迎端午 沉浸體驗活力足丨樂享端午

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

時隔44年試射洲際導彈 現場照片傳遞三個重磅信息

無障礙瀏覽 進入關懷版