網易首頁 > 網易號 > 正文申請入駐

GRPO過時了嗎？

2026-06-21 17:26:45　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

6 月 13 日，智譜在 X 平臺宣布GLM-5.2完全開放，并把正式開放的時間定在了當晚 5 點 21 分——一個「特殊時刻」。

很多人認為這個數字不是隨便挑的：美國政府向 Anthropic 下發出口管制指令、切斷 Fable 5 與 Mythos 5 境外訪問權限的那一刻，正是美國東部時間下午 5 點 21 分。「5 點 21」這個數字上的重復，被多家媒體解讀為一次刻意設計的呼應。智譜選擇在這個節點站出來，相當于當著全世界開發者的面說了一句話：你們擔心的「模型隨時可能被收回」，開源這邊沒有這個問題。

這次發布也確實給得起這個姿態。GLM-5.2 是一個 744B 參數、激活 40B 的 MoE 模型，遵循 MIT 協議完全開源，支持真正可用的 1M token 上下文。在長程任務基準 FrontierSWE 上，它拿到 74.4%，逼近 Claude Opus 4.8 的 75.1%，反超 GPT-5.5 的 72.6%。不少開發者實測后表示，這是第一個讓他們認真考慮用來替換 Opus 或 GPT 工作流的開源模型。

昨天 Design Arena 發布的博客《GLM-5.2 如何在網站設計上擊敗了 Fable 5》更是成為爆款文章，引發了廣泛關注和熱議。

https://x.com/Designarena/status/2068030598028087788

但比這些分數更讓技術圈坐不住的，是一個差點被淹沒在技術博客角落里的細節：GLM-5.2 在長程強化學習階段，放棄了 GRPO

圖源: X @JoshPurtell @sheriyuo @MikaStars39

這件事不大，卻像一根針，扎破了一個維持了一年多的共識。GRPO（Group Relative Policy Optimization，群體相對策略優化）由 DeepSeek 于 2024 年在 DeepSeekMath 論文中提出，又經 DeepSeek-R1 驗證，此后幾乎成了開源社區訓練推理模型的默認答案——不需要價值網絡，也能訓出強推理能力。GLM-5.1 的強化學習階段，用的正是這套思路。一年多以后，GLM-5.2 悄悄把它換掉了。

一個被驗證過的范式，正在被它最早的追隨者之一悄悄拋棄。

技術社區的反應

消息傳開后，X 上的討論很快分成了幾條線。

有人把這件事稱為「critic 回來了」。開發者@hallerite 的判斷很直接：群體內比較這種降低方差的辦法，過了某個任務長度之后根本行不通，模型需要更細粒度的信號，OpenAI 和 Anthropic 大概早就在用價值網絡了。

類似地帖子非常多，有人說自己在小規模項目里對比過 GRPO 和 actor-critic，結果 actor-critic 的表現明顯更好；也有人懷疑，OpenAI 和 Anthropic 等前沿實驗室在長程任務上本來就沒有真正依賴過 GRPO，這只是長程任務遲早要撞上的一道墻；比如 @ethayarajh 就指出，曾被 NeurIPS 拒收的 PPO 這條路線其實更貼近強化學習圈子里常說的「苦澀的教訓」（bitter lesson）——足夠通用、能隨計算量擴展的方法，往往比結構精巧但有適用邊界的方法走得更遠。

Xiuyu Li 提醒，一些長期做長程任務訓練的團隊，本來就從未真正全面采用過 GRPO，PPO 甚至 REINFORCE 一直是這些團隊的底色。

學術界則是另一幅景象：GSPO、DAPO、Dr.GRPO、GMPO、CISPO 等變體仍在源源不斷地涌現，試圖把 GRPO 在效率和穩定性上的毛病一個個打磨掉。

工業界悄悄回頭，學術界繼續往前沖。這個反差，很有意思。

智譜為什么換掉了 GRPO

要理解這次切換，得先弄清楚 GRPO 最初解決的是什么問題。

傳統 PPO 需要一個價值網絡（critic），專門預測「當前狀態未來能拿多少獎勵」，用來給每一步動作算優勢值。這個網絡和策略模型一樣大，訓練起來貴，也容易不穩定。

GRPO 的辦法是：不訓練這個價值網絡了，改成讓模型對同一個問題生成一組（通常是幾十個）回答，拿組內平均獎勵當基線，誰比組內平均分高，優勢值就為正。這就像讓同一道題的幾十名學生同時交卷，再互相比較打分——不需要一個全知的閱卷老師，矮子里也能拔將軍。

對數學題、單元測試這類有明確對錯的短任務，這個辦法省顯存又穩定，DeepSeek-R1 之后幾乎成了開源社區的默認選項。

GLM-5.1 的強化學習階段，用的正是這套思路，組大小固定為 32。

但 GLM-5.2 瞄準的是另一類問題：長程智能體任務。根據智譜技術博客披露的內容，這類任務的執行軌跡遠比解一道數學題長，涉及多輪工具調用、子任務拆解、跨多輪的環境反饋。一條軌跡經過壓縮（compaction）處理后，子軌跡的數量和長度會變得參差不齊。

這正好打中了 GRPO 的軟肋：它要求把同一個問題下的一組輸出放在一起比較，可長程任務壓縮出來的子軌跡長短不一，有的三言兩語，有的拖了幾十步，根本湊不成一組可以公平比較的樣本。繼續硬上組內比較，大量數據會變得沒法用。

智譜給出的解法是：把價值網絡請回來。GLM-5.2 的長程強化學習從「群體相對優化」轉向了「基于 critic 的 PPO」，用 token 級別的優勢值去適配長短不一的子軌跡——不再依賴一組同伴互相打分，而是重新訓練一個能給任意一段軌跡獨立估值的「閱卷老師」。

圖源：DeepSeek 陳德里的推文

配合這次改動，智譜用 slime 框架把訓練和大規模推理 rollout 打通，將十余個專家模型并行蒸餾合并進最終模型，整個過程只用了約兩天。針對 coding 任務里常見的獎勵作弊（比如直接 curl 拉取參考答案、grep 搜索隱藏測試用例文件），GLM-5.2 還引入了一套兩階段攔截機制，先用規則過濾，再用 LLM 裁判識別可疑工具調用，攔截后返回一段無意義的「假信息」，讓訓練軌跡繼續走下去，而不是粗暴中斷，以免引發訓練不穩定。

簡單說，GLM-5.2 并未否定 GRPO，而是發現 GRPO 的設計前提在長程智能體任務里站不住了。

GRPO 真的過時了嗎

把這次切換簡單總結成「GRPO 不行了」，可能是個偷懶的結論。

GRPO 當年能火起來，解決的是一個很具體的問題：在有明確對錯的可驗證任務上，用盡可能少的顯存、盡可能穩定的方式做強化學習。這件事它依然做得很好。數學題、代碼單元測試、格式校驗這類短任務，答案就在那一組采樣里，組內比較的成本優勢依然成立。也因此，GSPO、DAPO 這些變體還在持續打磨 GRPO 在 MoE 訓練、長思維鏈場景下的毛刺，而不是直接宣布它退場。

一個更能說明問題的例子是 GRPO 的提出者自己。今年 4 月發布的 DeepSeek V4 技術報告顯示，DeepSeek 在訓練數學、代碼、Agent、指令跟隨等分領域專家模型時，用的依然是 GRPO，只是在把多個專家合并回一個統一模型時，換成了一種叫「在策略蒸餾」（On-Policy Distillation）的新方法。

GLM-5.2 換掉的其實是 GRPO 在另一類任務（多輪、長程、獎勵稀疏且延遲的智能體任務）上的適用性。這類任務里，「這一步做得好不好」往往要等到幾十步之后才能從最終結果反推回來，而且任務跑出來的軌跡長短千差萬別，很難找到一組「條件相同」的樣本去做組內對比

這個判斷不只是工業界這一輪的經驗之談，學術界也有對照實驗支持。

去年底一篇題為《Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments》的論文專門做過測試：在沒有提前終止機制的長程任務里，不帶 critic 的方法持續比不過帶學習到的價值函數的 PPO；只有像 CartPole 這種短程任務，組內比較的方式才能打平。

https://arxiv.org/pdf/2511.03527

這個結論和 GLM-5.2 這次的選擇，算是從工業實踐和學術實驗兩個完全不同的方向，得出的同一個判斷。

所以更準確的說法可能是：強化學習算法的選擇，正在變得任務相關，而不再有一個放之四海而皆準的「默認選項」。

短程可驗證任務，GRPO 及其變體依然夠用、依然便宜。長程智能體任務，價值網絡重新變得重要。

GLM-5.2 引發的討論之所以有分量，是因為它把這道分界線第一次擺在了公開的技術博客里，讓一個本來只停留在小圈子傳聞里的判斷（前沿實驗室可能壓根沒指望靠 GRPO 走到長程任務），有了一個開源、可復現、可供外界驗證的對照樣本。

結語

過去兩年，GRPO 幾乎成了開源大模型強化學習階段的代名詞，一種「便宜又好用」的默認信仰。GLM-5.2 的選擇提醒人們，這種信仰本身是有邊界的——它誕生于數學題和單元測試的世界，而現在的智能體正在被推向需要連續工作幾小時甚至更久的真實任務。

對整個行業而言，這次切換的意義可能超過 1M 上下文或者基準分數本身。它說明，隨著開源模型從「答題選手」走向「干活的智能體」，后訓練階段的算法選型也要跟著任務形態一起進化，而不能停留在某一篇論文定下的范式里。

下一次范式松動會發生在哪里，沒有人能提前給出答案，但可以確定的是，這場關于強化學習未來走向的爭論，才剛剛開始。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.