網易首頁 > 網易號 > 正文 申請入駐

生成式Critic重新定義LLM強化學習信用分配

0
分享至



本文第一作者單子康是北京大學二年級在讀博士生,研究方向為大語言模型與強化學習,曾于 ICML 2025 以共同一作發表 Spotlight 論文,本工作為微軟亞洲研究院實習期間完成。本文最后一作趙立是微軟亞洲研究院高級研究員,現任微軟亞洲研究院機器學習組負責人。

強化學習(RL)已經成為大語言模型(LLM)后訓練階段最重要的技術之一。早期伴隨著 ChatGPT 的出圈,價值對齊 RL 受到廣泛關注;DeepSeek-R1 以大規模可驗證 RL 激發了模型的推理能力,引領了推理 RL 的熱潮;如今的智能體(Agent)訓練更是離不開 RL。

可以說,大模型時代的能力演進,很大程度上是 RL 范式不斷深化應用的過程。

然而,RL 有一個經典難題始終懸而未決:信用分配(credit assignment)。模型生成了一段長長的回答,最終收到一個獎勵信號。但這段回答里,哪些步驟真正做出了貢獻?哪些是冗余的,甚至引入了錯誤?信用分配不精準,訓練信號就只能保持稀疏,模型的學習效率也就因此受限。



經典 RL 算法 PPO(Proximal Policy Optimization)的解法是訓練一個價值模型(Critic),估計序列中每個 token 的價值(Value),借此將信用精確分配到每一步。然而在 LLM 的實踐中,隨著生成序列越來越長、任務越來越復雜,Critic 的訓練逐漸變得不穩定,效果也難以保證。

于是,研究者轉向更簡單的無 Value 方法例如 GRPO,利用獎勵來構造每個軌跡的優勢,廣播到每一步上,相當于將優化過程簡化為一個多臂老虎機問題。盡管訓練流程簡潔了許多,這種簡化的代價是徹底放棄了細粒度的信用分配。隨著推理鏈越來越長、Agent 任務越來越復雜,這一代價也變得越來越難以接受。

這不禁讓人重新審視一個根本問題:價值模型真的不堪一用嗎?還是我們一直沒能正確地實現它?

微軟亞洲研究院聯合北京大學的研究者,給出了答案。



  • 論文標題:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2604.10701

判別式 Critic 的根本局限

傳統 Critic 是「判別式」的:輸入一個狀態,輸出一個標量作為價值估計。這一設計看似自然,卻暗藏著一個深層的架構矛盾。

研究者將兩個已知的結論結合,得出了一個頗具啟發性的推論。其一,LLM 生成過程所對應的馬爾可夫鏈的價值函數的精確建模,在計算復雜度上屬于 P-complete。其二,Transformer 單次前向傳播的表達能力上界已被證明為 TC?,一個遠弱于 P-complete 的復雜度類。

將這兩個結論結合來看,判別式 Critic 在 LLM 任務上的持續失敗或許并非偶然:價值建模本質上依賴大量順序推理,難以通過簡單的并行前向傳播實現。判別式 Critic 是在用一個表達能力受限的架構,去擬合一個理論上更復雜的函數。更關鍵的是,這一錯配無法通過規;瘉韽浹a:更多的參數、更多的數據或更多的計算,對于表達能力層面的鴻溝并無根本幫助。



研究者通過實驗印證了這一推斷。固定一個目標價值函數,讓判別式 Critic 去擬合,其誤差與簡單的平均獎勵基線相比并無顯著優勢。更重要的是,將模型規模從 0.6B 擴展到 14B,擬合誤差幾乎沒有改善。與此同時,判別式 Critic 在不同隨機種子下表現出極大的波動,說明其表現高度依賴初始化,而非穩健地收斂。

不可擴展加上不穩定,共同指向同一個結論:判別式 Critic 的問題并非調參不當,而是架構層面的固有不足。

生成式 Critic:讓價值估計變得可推理

既然判別式架構存在本質局限,一個自然的問題是:換成生成式會怎樣?

生成式 Critic 的核心思路是:不直接輸出一個標量,而是先使用思維鏈推理,再給出價值的估計。這一思路與生成式獎勵模型有相通之處,后者已在多項工作中被驗證具有更強的魯棒性和泛化能力。從理論上看,顯式的推理鏈可以有效提升模型的表達能力,從而繞過 TC?的表達能力上界約束,為價值建模開辟新的空間。

但價值建模比獎勵建模面臨更深層的挑戰:價值是與當前策略深度綁定的。同一個中間狀態,對于能力較弱的策略而言可能價值很高,而對于能力更強的策略則已不值一提。獎勵模型無需感知策略,但價值模型必須「知道自己在評估誰」。這一挑戰在一個具體對比中體現得格外清晰:生成式獎勵模型的訓練通常以蒸餾強大的通用模型為起點,但對于價值建模而言,并不存在天然的「價值先知」可供蒸餾。

研究者發現,即便是能力極強的通用大模型例如 GPT-5,直接被用作價值模型時,其擬合誤差甚至遠不如判別式 Critic。原因正在于它對被評估的策略一無所知,無從判斷同一狀態對當前策略意味著什么。

為此,研究者引入了上下文條件注入(In-Context Conditioning)機制:在每次 Critic 推理時,將當前策略的模型規模與實時更新的滑動平均成功率一并注入上下文,使 Critic 能夠感知并基于當前策略的能力水平開展分析。消融實驗表明,這一簡單機制能夠有效降低價值估計誤差。



在訓練流程上,由于缺乏可供直接蒸餾的高質量標注,研究者設計了包含 SFT 和 RL 的兩階段價值預訓練方案。SFT 階段作為熱身,幫助模型建立以估計價值為目標的基本推理模式;RL 階段則通過真實獎勵信號對初始偏差進行矯正,將推理能力真正落地到準確的價值估計上。經過這兩階段預訓練的生成式 Critic,可以作為可靠組件進入與策略的聯合 RL 訓練。

實驗與分析

研究者將使用生成式 critic 的 PPO 命名為 GenAC,在數學推理任務上展開了實驗,并通過 6 個評測標準進行深度評測。為了比較價值函數的影響,研究者比較了使用判別式 Critic 的 VC-PPO,以及兩種主流的無 Value 方法 GRPO 和 RLOO。



GenAC 以 51.90% 的平均準確率領先所有基準方法。從訓練動態來看,價值建模本身就能帶來顯著優勢:VC-PPO 與 GenAC 在訓練早期均表現出更高的樣本效率,模型能力迅速提升,而無 Value 方法由于細粒度信用分配的缺失,早期學習相對緩慢。然而,VC-PPO 的領先優勢隨著訓練推進而逐漸收窄,最終收斂表現與無 Value 方法相差無幾;GenAC 則截然不同,不僅始終保持領先,與其他方法的差距還在訓練后期持續擴大。

是否進行價值建模影響的是早期的學習速率,而 Critic 的質量則決定訓練能走多遠。



那么,生成式與判別式 Critic 之間的差異,究竟通過什么機制傳導到最終的 RL 效果上?研究者從擬合誤差之外的角度進一步展開分析。



首先是相對排名實驗:針對相同狀態的一組候選片段,Critic 需要識別出哪個候選的價值最高。隨著候選數量增加,生成式 Critic 的排名準確率輕微下降,而判別式 Critic 則明顯退化。這意味著在區分相近候選的細微優劣時,生成式 Critic 能給出更可靠的相判斷,而優勢估計的精度正是依賴于此。

其次是分布外泛化實驗:要求 Critic 對分布外數據源的價值函數進行估計。生成式 Critic 的誤差相比判別式基線大幅下降,且分布偏移越大,兩者的差距越懸殊。這說明生成式 Critic 具有更強的泛化能力,當策略通過探索進入新狀態時,它依然能夠給出可靠的信用分配,在關鍵的探索數據上保持有效的學習。

最后是定性分析:Critic 需要通過價值估計反映思維鏈中出現的錯誤。在這個例子中,判別式 Critic 在錯誤步驟前后的價值估計沒有明顯區別,而生成式 Critic 明確指出了錯誤,并基于此給出了更低的價值估計。這種細粒度的錯誤定位能力,正是精準信用分配在單步層面的直接體現。



結語

價值模型的失敗,從來不是價值建模這一思路本身有問題,而是判別式架構的先天局限,使一個具有潛力的想法難以落地。生成式 Critic 通過引入顯式推理、策略感知和穩健的兩階段訓練,重新展示了細粒度信用分配在 LLM 強化學習中的可行性。隨著推理模型與 Agent 任務的持續推進,信用分配的質量只會變得越來越關鍵。這件事值得被認真對待,而 GenAC 展示了一條可行的路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
梅朗雄:絕不武力介入“臺海沖突”,法國挨一顆核彈就完了

梅朗雄:絕不武力介入“臺海沖突”,法國挨一顆核彈就完了

觀察者網
2026-05-09 14:17:00
江西一精神病院炒股,成上市公司前十大股東!最新回應來了

江西一精神病院炒股,成上市公司前十大股東!最新回應來了

極目新聞
2026-05-09 07:30:30
奔馳C級新車型上市,29.99萬起配8295芯片

奔馳C級新車型上市,29.99萬起配8295芯片

野生運營
2026-05-08 15:43:58
竹筍再次被關注!醫生發現:吃得越多,癌癥患者病情或好轉?真假

竹筍再次被關注!醫生發現:吃得越多,癌癥患者病情或好轉?真假

垚垚分享健康
2026-05-09 08:51:44
結婚36年拒絕同房,丈夫患病,冷笑一聲:我是新女性,豈能伺候你

結婚36年拒絕同房,丈夫患病,冷笑一聲:我是新女性,豈能伺候你

歷史龍元閣
2026-05-08 15:10:09
2026年WTA1000羅馬站 女單第三輪鄭欽文將迎戰奧斯塔彭科

2026年WTA1000羅馬站 女單第三輪鄭欽文將迎戰奧斯塔彭科

極目新聞
2026-05-09 12:01:54
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

周哥一影視
2026-04-17 06:45:59
世上沒有后悔藥!下半身貪婪的任素汐,最終為自己的行為買了單

世上沒有后悔藥!下半身貪婪的任素汐,最終為自己的行為買了單

蕭嚉影視解說
2026-05-07 17:53:29
37死1失聯!瀏陽煙花廠爆炸事故升級,網友:都明白這1個意味什么

37死1失聯!瀏陽煙花廠爆炸事故升級,網友:都明白這1個意味什么

火山詩話
2026-05-08 21:25:49
終身告別胰島素?央視點贊糖尿病新療法,干細胞開啟“根治”時代

終身告別胰島素?央視點贊糖尿病新療法,干細胞開啟“根治”時代

科學認識論
2026-05-08 16:00:31
6歲男孩為躲母親毆打,離家出走22年,長大后才得知母親悲慘人生

6歲男孩為躲母親毆打,離家出走22年,長大后才得知母親悲慘人生

哄動一時啊
2026-04-19 14:38:19
“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
這種干凈的打扮,比起那些黑色絲襪搭配包臀裙的穿搭,更有女人味

這種干凈的打扮,比起那些黑色絲襪搭配包臀裙的穿搭,更有女人味

美女穿搭分享
2026-05-09 10:46:02
世乒賽國乒男隊迎關鍵利好,強敵爆冷翻車奪冠在望

世乒賽國乒男隊迎關鍵利好,強敵爆冷翻車奪冠在望

觀察者海風
2026-05-08 19:13:47
月銷只剩5100輛,廣汽本田還有存在的必要嗎?

月銷只剩5100輛,廣汽本田還有存在的必要嗎?

BusinessCar
2026-05-08 12:05:09
3比0!死亡騎扣!喬治首節15分,全場不得…

3比0!死亡騎扣!喬治首節15分,全場不得…

左右為籃
2026-05-09 10:16:02
法媒:雖然中國隊擁有世界第一王楚欽,但男團半決賽優勢在我

法媒:雖然中國隊擁有世界第一王楚欽,但男團半決賽優勢在我

云隱南山
2026-05-09 13:43:17
大廠員工分享:今年又提前還貸110萬,剩下的月供不足千元了!

大廠員工分享:今年又提前還貸110萬,剩下的月供不足千元了!

黯泉
2026-05-09 15:28:13
胖東來商場衛生間一家長抱著孩子在洗手池小便,工作人員:事發時該區域暫無人員在崗,洗手池及周邊區域已進行專業消殺,水龍頭也已更換

胖東來商場衛生間一家長抱著孩子在洗手池小便,工作人員:事發時該區域暫無人員在崗,洗手池及周邊區域已進行專業消殺,水龍頭也已更換

揚子晚報
2026-05-08 14:41:21
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
2026-05-09 16:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12956文章數 142646關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

香港富豪孫女被綁架 綁匪拿到2800萬后逃跑8人花11萬

頭條要聞

香港富豪孫女被綁架 綁匪拿到2800萬后逃跑8人花11萬

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

Meta瘋狂擁抱人工智能:員工苦不堪言

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

本地
親子
家居
房產
軍事航空

本地新聞

用蘇繡的方式,打開江西婺源

親子要聞

什么牌子的奶粉好?君樂寶奶粉以靠譜品質回應寶媽牽掛

家居要聞

菁英人居 全能豪宅

房產要聞

豪擲6.8億拿地!何猷君大手筆投資三亞!

軍事要聞

美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

無障礙瀏覽 進入關懷版