網易首頁 > 網易號 > 正文申請入駐

熵減強化學習 Entropy-preserving reinforcement learning

2026-04-21 21:01:02　來源: CreateAMind

上海舉報

分享至

Entropy-preserving reinforcement learning

熵減強化學習

https://arxiv.org/pdf/2603.11682v1

摘要

策略梯度算法推動了語言模型推理領域的許多近期進展。一個頗具吸引力的特性是它們能夠從自身軌跡的探索中學習，這一過程對于培養多樣化和創造性的解決方案至關重要。正如本文所示，許多策略梯度算法在訓練過程中會自然地降低熵——從而降低探索軌跡的多樣性——導致策略的探索能力日益受限。在本文中，我們主張應在整個訓練過程中積極監控和控制熵。我們形式化地分析了主流策略梯度目標對熵動態的影響，識別了顯著影響熵行為的經驗因素（如數值精度），并提出了顯式的熵控制機制。這些機制包括 REPO（一類通過修改優勢函數來調節熵的算法家族）以及 ADAPO（一種自適應非對稱裁剪方法）。使用我們提出的熵保持方法訓練的模型在整個訓練過程中保持了多樣性，從而產生了性能更強的最終策略，并保留了在新環境中進行順序學習的可訓練性。

1 引言

在線策略梯度強化學習（RL）已成為提升語言模型推理能力的標準方法（Jaech et al., 2024; Comanici et al., 2025; Guo et al., 2025）。該方法涉及在給定的環境和獎勵函數中從當前策略采樣軌跡，然后利用這些軌跡來估計一個旨在最大化期望獎勵的梯度。有效的 RL 優化需要在探索與利用之間取得平衡（Thrun, 1992; Sutton et al., 1998），其中魯棒的學習器應生成多樣化的軌跡以覆蓋潛在解決方案的譜系。最大熵強化學習提供了一個實現這種平衡的框架（Ziebart et al., 2008; Haarnoja et al., 2017; 2018; Eysenbach & Levine, 2022）。雖然有限馬爾可夫決策過程（MDP）的最優解顯然是一個確定性平穩策略，但對中間優化地形的搜索需要探索與利用的平衡。在 GRPO（Shao et al., 2024）等在線算法中觀察到的一個常見問題是熵坍縮。當訓練過度地將分布收窄至基礎模型中已經具有高概率的解周圍時，就會發生這種現象，從而忽略了其他正確但概率較低的選項。這通常會導致過早收斂到局部最優解，雖然提升了相對于基礎模型的 pass@1，但以犧牲 pass@k 為代價（Shao et al., 2024; Dang et al., 2025; Yue et al., 2025）。這一挑戰激發了策略梯度算法設計的創新，例如直接優化 pass@k 性能（Chen et al., 2025b）。與此同時，研究強調了 GRPO 的訓練不穩定性，以及離策略漂移、重要性權重裁剪與熵之間復雜的相互作用，這啟發了諸如 DAPO（Yu et al., 2025）和 GSPO（Zheng et al., 2025）等改進方法。

在本工作中，我們主張應在整個 RL 訓練過程中積極監控和控制熵。我們將熵保持作為理解近期算法成功的統一視角進行分析，并提出了顯式的熵控制機制。我們工作的一個重要觀察是，盡管最終熵與性能之間存在相關性，但更具信息量的衡量標準是整個優化過程中的熵軌跡。正如俗語所說，“重要的不是終點，而是旅程。”圖 1 追蹤了這一效應。在整個訓練過程中以較低熵為特征的軌跡會導致較低的性能。相反，如果熵軌跡在大部分優化過程中相似，僅在最后幾步有所不同，則性能基本不受影響。

我們的貢獻涵蓋理論與算法開發。我們分析了策略梯度目標如何調節熵動態，證明了 PPO 的裁剪限制了熵的變化，且 DAPO 和 GSPO 的裁剪隱式地保持了熵。我們識別了影響熵動態的關鍵實現因素，包括數值精度（BF16 與 FP16）和框架行為（FSDP2 輸出類型轉換），從而解釋了先前觀察到的訓練不穩定性。我們提出了顯式的熵控制機制——修改優勢函數的 REPO，以及一種自適應非對稱裁剪方法 ADAPO——兩者均使用自適應控制器來維持目標熵水平。僅我們的數值修正就在 AppWorld 上取得了當前最優結果（79% Test Normal，71% Test Challenge），而保持熵的 REPO 和 ADAPO 實現了最強的離策略性能，縮小了與同策略訓練的差距，并保留了進行順序學習的可訓練性。

2 預備知識

近端策略優化（PPO）允許更新后的策略與采樣策略略有偏離（Schulman et al., 2017）。它使用重要性權重（importance weight）來修正參數更新的幅度，使得期望的策略梯度保持無偏。這些重要性權重通常會被裁剪（clipped），以避免偏離局部信任域（Schulman et al., 2015）。

在本文中，我們分析了隨著策略梯度變體優化其目標，狀態級熵（state-wise entropy）是如何演變的。我們識別了哪些算法變體自然地保持熵，哪些會導致快速坍縮（§3）。我們證明了細微的實現細節可能會扭曲熵動態，導致理論上應保持熵的算法出現意外的坍縮（§4）。最后，我們提出了對 RL 方法的簡單修改，這些修改能帶來有效的熵正則化并提升下游任務性能（§5）。

3 理論：策略梯度的熵動態

策略梯度強化學習（RL）的熵動態歸結為兩個值之間的關系：（1）動作對數概率，以及（2）這些動作所產生的優勢。直觀地說，為某個動作分配正優勢會增加其概率。對于高概率動作，這一效應會使分布變尖銳，從而降低熵。對于低概率動作，這一效應會使分布變平坦，從而增加熵。負優勢的情況則相反。這種效應是自然的：畢竟，圍繞正確動作銳化一個不確定的策略可以直接最大化期望回報。然而，正如我們將看到的，并非所有 RL 算法都以相同的程度銳化分布。

形式化地，考慮在狀態 s s 下使用同策略動作的策略梯度更新。在對訓練動態進行一階泰勒近似下，熵的預期變化如下。

總結。 上述理論分析表明，策略梯度算法中的熵動態受優勢與對數概率之間的相關性支配。PPO 的多次離策略更新會放大熵坍縮，而裁剪機制可以限定每次更新的熵變。非對稱裁剪（DAPO）和序列級裁剪（GSPO）通過允許熵增加大于熵減少，提供了隱式的熵保持。然而，這些隱式機制在所有設定下可能并不充分。

重要的是，即使是像 RLOO 這樣嚴格的同策略算法，也受制于推論 1 中描述的熵動態：如果基礎策略已經對獎勵函數校準良好，優勢與對數概率之間的相關性將為正，熵將會減少。RLOO 避免了由離策略漂移和對回收優勢的重復更新所引起的該效應的放大，但并未消除底層的動態機制。這解釋了為什么在大多數設定下 RLOO 比基于 PPO 的算法保留了更多的熵，然而當基礎模型針對任務進行了強預校準時，仍然可能表現出有意義的熵損失。因此，我們在 §5 中提出的顯式熵控制機制，即使在同策略設定下也可能是有價值的。

4 實證發現：影響熵的實現細節

我們識別了顯著影響熵動態的實證因素，將在本節中討論。

4.1 模型輸出的 16 位量化影響裁剪

4.2 FLOAT16 與 BFLOAT16 訓練

在 LLM 訓練中，習慣上使用 BF16 浮點類型，因為它具有更大的動態范圍。然而，Qi et al. (2025) 報告稱使用 float16 (FP16) 取得了改進的結果，因為其額外的尾數位能夠實現更準確的梯度表示。使用 FP16 格式顯著減少了 LLM 推理 (vLLM) 與訓練子系統之間的差異，這是現代訓練后棧（post-training stacks）固有的問題（圖 2b）。

在實踐中，配合適當的損失和梯度縮放，FP16 訓練傾向于緩解熵坍縮，并產生更穩定且可預測的訓練過程。為了強調這些實證發現的重要性：FP16 訓練結合 log ? π θ 舍入修正（§4.1）會導致定性不同的熵動態，使得 DAPO 的增加熵的非對稱裁剪能夠克服坍縮（圖 3）。

5 顯式熵控制方法

§3 中的理論和 §4 中的實證分析表明，熵動態受多種因素影響，且細微的實現細節可能會定性地改變算法行為。雖然隱式機制（非對稱或序列級裁剪）提供了一定程度的控制，但為了穩定的 RL 訓練后（post-training）過程，可能需要一種顯式的熵正則化技術。

在下文中，我們通過提出一種自適應熵控制器和一個配對采樣估計器來解決這兩個問題，該估計器無需實例化完整 logits 即可聯合估計策略梯度和熵梯度。

5.1 REPO：調節熵策略優化

高效估計。 REPO-D 和 REPO-R 都可以僅使用采樣詞元的對數概率進行有效估計，在使用 CCE（Wijmans et al., 2025）時，這在前向傳播中已經可用。這與顯式熵獎勵形成對比，后者需要實例化詞匯表上的完整 logit 向量。我們在 §A.7 中表明，REPO-D 在形式上等價于這種熵獎勵，但是使用配對樣本通過 REINFORCE 進行估計，產生零額外內存成本，并且作為一個控制變量，當優勢和概率呈正相關時（這是典型情況）減少梯度方差。

5.2 ADAPO：自適應非對稱裁剪

6 實驗

我們評估與最先進的學習算法相比，保持的訓練是否能在具有挑戰性的環境中為強模型帶來改進。我們選擇 Qwen-3-8B 和 Qwen-3-32B 作為我們的初始策略（Yang et al., 2025）。

環境。交互式工具使用智能體。訓練場景取自 AppWorld 基準（Trivedi et al., 2024）的訓練集劃分（90 個問題）。AppWorld 測試常規（TN，168 個任務）和測試挑戰（TC，417 個任務）劃分用于評估。終端獎勵通過任務提供的單元測試計算，該測試將環境的最終狀態與真實情況（ground truth）進行核對（更多細節見 §C.1）。競賽級數學。訓練場景取自 NuminaMath-1.5（Li et al., 2024）中 AMC/AIME 部分的一個非重疊、經過質量過濾的子集（563 個問題）。AIME 2024（30 個問題）和 AIME 2025（30 個問題）用作評估數據集。終端獎勵指示生成的答案是否與參考答案匹配。我們注意到最近的模型對數學基準測試存在顯著過擬合，因此我們在 AIME 中嚴格將詞元預算（token budget）限制為 4096，以創建一個具有挑戰性的學習問題。

算法。 對于每種算法，我們突出其區別于基礎策略梯度的特征，同時保持其他方面的最小偏差以輔助復現（因此，某些細節和超參數選擇可能與原始來源略有不同）。

6.1 跨算法的可變熵動態

我們在 AppWorld（圖 4 和 5）和 AIME 實驗（圖 6）中觀察到了 consistent patterns（一致的模式）：類 PPO 算法比嚴格的同策略算法耗盡熵的速度更快。GRPO 在訓練過程中將熵降低了近 90%，而 RLOO 的降低幅度則要小得多。LOOP 的表現與 GRPO 非常相似，因此為了可讀性而省略。全面的結果總結見 §C.3。

裁剪修正保護熵。 遵循 §3 中提供的直覺，DAPO 和 GSPO 保留了明顯更多的熵。證實我們在 §4 中的觀察，在沒有熵控制機制的情況下，DAPO 的熵在某些實驗中可能會不受控制地增加（圖 5）。

保持熵的方法優于基線。 REPO-R 和 ADAPO 的得分高于其離策略基線（GRPO 和 DAPO），并在整個訓練過程中保持穩定的策略熵。

6.2 熵保持與下游性能

我們評估熵保持對下游性能的影響。這些結果的預覽見圖 1。我們發現，保持詞元級熵（per-token entropy）、在訓練過程中維持更高累積熵的方法，比那些沒有這樣做的方法產生了更高的最終測試準確率。這些趨勢在 AppWorld 上比在 AIME 上更為明顯。我們假設 Qwen-3 系列模型針對 AIME 進行了高度優化，因此這種優化可能主要涉及圍繞現有解進行銳化（sharpening）。另一方面，AppWorld 需要大量的探索以發現新能力。

6.3 熵保持輔助順序訓練

我們評估不同算法在多大程度上支持在不同任務上進行進一步的 RL 微調（即順序訓練）。為此，我們首先在 AIME 或 AppWorld 上訓練 Qwen-3-8B。然后，我們將最佳檢查點（checkpoint）作為在相反環境中訓練的起點。圖 7 顯示，使用 GRPO 訓練的策略在第二階段訓練表現不佳：由于熵坍縮，它們失去了探索能力。另一方面，DAPO，尤其是 REPO，在重新訓練開始時具有充足的熵，并在整個訓練過程中保持其探索能力。

6.4 數值精度穩定化熵與性能

圖 3 顯示，對于 Qwen-3-8B AppWorld 訓練，數值修正產生了巨大的影響：DAPO 此前在此設定下表現出熵坍縮，現在則顯示出熵的快速增加，正如對其非對稱裁剪設計的分析所表明的那樣。這表明觀測到的熵動態對實現細節高度敏感，而這些細節可能并不顯而易見，并且一些先前報道的熵坍縮現象可能是數值精度的偽影，而非算法的根本屬性。

RLOO 實現最先進性能。 在切換到 FP16 訓練（§4）后，純同策略的 RLOO 在提交時在 AppWorld 基準測試上取得了最高分：我們的最佳檢查點使用 Qwen-3-32B 取得了 79% 的 Test Normal 和 71% 的 Test Challenge 成績。

7 相關工作

強化學習已成為對齊預訓練語言模型的主導范式（Ziegler et al., 2019; Stiennon et al., 2020; Ouyang et al., 2022）。該方法已在產生可驗證獎勵的環境（如編程和數學）中成功擴展（Jaech et al., 2024; Lambert et al., 2024; Comanici et al., 2025; Guo et al., 2025; Team et al., 2025）。經驗上，在此設定下的訓練通常被視為圍繞現有解銳化基礎策略，而非產生新解（Gandhi et al., 2025; Liu et al., 2025b; Yue et al., 2025; Zhao et al., 2025）。一個良好的預訓練基礎策略起初已經對許多合理的獎勵函數進行了校準，而訓練后（post-training）可被視為對該分布進行調節（tempering）（Kadavath et al., 2022; Cui et al., 2025）。事實上，多項工作直接利用這種校準，通過無監督訓練后過程來推動準確率提升。Agarwal 等人 (2024) 簡單地最小化，Prasad 等人 (2024)；Zhang 等人 (2025)；Zuo 等人 (2025) 與模型的多數投票分布對齊，Wang 等人 (2025) 僅憑單個標注樣本即可達成目標，而 Shao 等人 (2025) 甚至使用隨機獎勵。所有這些工作都可以通過簡單地允許策略梯度去銳化一個已經校準好的基礎策略來解釋。雖然這類方法有助于提升 pass@1，但會損害 pass@k（Shao et al., 2024; Dang et al., 2025; Yue et al., 2025）。

8 結論

在本工作中，我們主張應在語言模型的整個強化學習訓練過程中積極監控和控制熵。我們提供了理論分析，闡明了策略梯度目標如何調節動態，解釋了為何 GRPO 等算法會出現坍縮，而 DAPO 和 GSPO 則能提供隱式的熵保持。我們識別了顯著影響熵動態與訓練不穩定性的關鍵實證因素，尤其是數值精度（BF16 與 FP16）和框架行為（FSDP2 輸出類型轉換）。基于這些洞見，我們提出了顯式的控制機制：修改優勢函數的 REPO，以及自適應調整裁剪閾值的 ADAPO。我們的熵保持方法在 AIME 和 AppWorld 上表現優異，優于其基線方法（GRPO 和 DAPO），并提升了順序學習性能。我們還在論文提交時報告了 AppWorld 上的當前最優結果（使用 RLOO 結合 FP16 訓練取得 79% Test Normal 和 71% Test Challenge）。

我們明確了嚴格同策略算法（如 RLOO）與弱同策略算法（如 GRPO 和 GSPO）之間的區別。我們的結果表明，在適當的數值處理下，嚴格同策略的 RLOO 取得了整體最佳性能。然而，嚴格同策略訓練需要同步更新，這在分布式系統中會形成瓶頸。弱同策略方法支持異步訓練流水線，使得軌跡收集與策略更新能夠并行進行，從而顯著提升吞吐量。我們提出的熵保持機制（REPO、ADAPO）與這兩種范式均兼容，能夠幫助弱同策略方法在保持異步執行吞吐量優勢的同時，逼近嚴格同策略訓練的性能。

總體而言，我們強調，熵（及其對應的探索能力）對于有效的策略優化至關重要，應在 RL 訓練流水線中被視為首要關注點。

原文鏈接：https://arxiv.org/pdf/2603.11682v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.