无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

打破推理同質化!阿里達摩院新作讓RLVR從重復采樣走向有效探索

0
分享至



I2B-LPO 是一個面向 RLVR 后訓練的探索增強框架,通過改進 rollout 策略引導模型生成更多樣化的推理軌跡,將探索行為從 “重復采樣” 推進到 “在關鍵節點生成更具區分度的推理軌跡”,在多個數學基準上同時提升準確率與語義多樣性,最高分別達 5.3% 和 7.4%。該工作接收于 ACL 2026 Main,來自阿里達摩院 - 智能決策團隊。

近年來,隨著 DeepSeek-R1 等推理模型出現,基于可驗證獎勵的強化學習(RLVR)已成為提升數學、代碼能力的重要訓練范式。其核心思想在于:對同一道題采樣多條推理路徑,并根據獎勵信號,強化正確路徑、抑制錯誤路徑。這就像讓模型對同一道題寫出多份解題草稿,再從中學習哪些思路更值得保留。

一種直觀想法是 :如果采樣軌跡(rollout)足夠多,模型就總能探索出更多解法,獲得更有效的更新信號?然而,在實際訓練中,盲目增加采樣數量并不一定帶來更高效的探索。這背后對應著強化學習中的經典探索 - 利用困境(exploration-exploitation trade-off):模型既要利用可驗證獎勵,強化當前更容易得到正確答案的推理模式;又要保持探索能力,跳出已有模板,嘗試新的解題方向。

當前的 rollout 采樣機制天然偏向 “利用”:模型很快收斂到少數高概率推理模板,生成的軌跡雖然措辭不同,底層邏輯卻高度同質化。這種同質化推理削弱了軌跡間的獎勵差異和優勢信號,使額外采樣也難以帶來有效更新。



表 1: 高熵 Token 類別示例

熵,作為衡量模型在生成下一步時不確定性的指標,天然指向探索的關鍵節點。通過系統實驗,我們發現:策略熵往往與邏輯轉折、自我糾錯等行為高度相關(如表 1 所示),是引導模型探索的有效信號。



圖 1:RLVR 中不同探索范式的對比(a)Sequence-level 的整體正則化方法通過全局平滑 token 分布來提高熵,但容易讓模型生成冗長、重復或與解題無關的內容,形成 “高熵但低信息量” 的無效探索。(b)token-level 的概率擾動方法則只在局部高熵 token 上調整概率,往往只能帶來連接詞、同義詞或表層表達的變化,也難以突破預訓練模型已有的推理偏好來持續改變后續推理方向。

然而,在實踐中我們發現,在高熵節點僅僅依靠 sequence-level 的整體正則化或 token-level 的概率擾動,無法持續影響后續推理軌跡的整體走向。如圖 1 所示,基于熵的強化學習方法存在以下關鍵問題:

  1. 獎勵作弊(Reward Hacking):模型為了騙取熵相關的獎勵項,故意生成無意義的發散,生成冗長、重復或與解題無關的內容。
  2. 歸納偏置(Inductive Bias):僅僅在詞層面做文章,無法打破模型的預訓練歸納偏置。

為了解決這些問題,我們提出 I2B-LPO:在高熵節點向模型注入潛變量分支,以確保在模型在關鍵節點生成更具區分度的推理軌跡,并引入一種反饋機制,濾除冗長和無意義的推理路徑。這一方法幫助 RLVR 在有限推理資源下實現更高效的探索,進一步突破大模型的推理性能瓶頸。



  • 論文標題:I2B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
  • 論文鏈接:https://arxiv.org/pdf/2601.05870
  • 開源鏈接:https://github.com/denghuilin-cyber/IIB-LPO

01 工作概述

本文提出一種面向 RLVR 后訓練的探索增強框架,鼓勵模型在關鍵節點生成更具區分度的推理軌跡。具體而言,I2B-LPO 通過改進 rollout 策略,使模型在有限采樣預算下獲得更有效的探索信號,顯著提升了數學推理任務中的準確率與語義多樣性。

理論與現象分析:

1. 高熵節點是真正的推理分叉點: 我們按 token-level entropy 對推理過程進行分組實驗,發現模型處于高熵區間時,不同解碼策略的性能差異明顯放大;而在低熵區間,這種差異并不顯著。這說明高熵位置往往對應關鍵決策點,更適合作為推理軌跡的分支位置。

2. 推理長度不等同于有效推理: 在標準 GRPO 訓練中,我們觀察到:模型準確率較早進入平臺期,但響應長度和 4-gram 重復率仍持續上升。這表明模型可能只是在生成更長、更重復的內容,而不是產生更有效的推理。因此,有效探索不僅要生成更多路徑,也要識別真正有信息量的路徑。

核心創新:

I2B-LPO: 我們提出了一種面向 RLVR 后訓練的探索增強框架,結合熵驅動的推理軌跡分支和信息瓶頸自獎勵機制,在 Qwen2.5-7B 和 Qwen3-14B 模型上驗證了其有效性。

驗證與結果:

我們基于 GRPO 框架,在多個數學推理基準上對 I2B-LPO 進行了驗證。結果顯示,I2B-LPO 同時提升了推理準確率與語義多樣性,在保證探索多樣性的同時避免了過度冗長。

02 具體方法



圖 2: I2B-LPO 將 rollout 從 “隨機多采樣” 改造成 “關鍵節點分支 + 高質量路徑篩選” 的結構化探索過程,使模型既能探索不同解題方向,又能避免無效發散。

I2B-LPO 并不替換原有 GRPO 訓練框架,而是改進其中的 rollout 生成與策略更新過程:先讓推理軌跡在關鍵位置分叉,再篩選出真正高質量的探索路徑參與更新。

1.熵驅動潛變量分支: 對每條初始 rollout,I2B-LPO 會定位策略熵較高的 “猶豫節點”,并基于當前推理前綴采樣潛變量,通過偽自注意力機制(PSA)注入模型內部,持續影響后續生成,從而得到多條結構上更具差異的推理軌跡。

2.信息瓶頸自獎勵: 對生成的分支軌跡,I2B-LPO 使用信息瓶頸指標進行排序和篩選,保留簡潔、高信息量、對答案真正有幫助的路徑,過濾冗長、重復或邏輯漂移的無效探索,并將高質量軌跡用于 GRPO 策略更新。

具體流程可以概括為:初始 rollout → 高熵節點分支 → 生成候選推理軌跡 → IB 自獎勵篩選 → GRPO 策略更新

1.熵驅動潛變量分支

對于一條初始推理軌跡 r=(o1,…,oT),I2B-LPO 首先計算每個生成位置的策略熵:



其中,Ht 衡量模型在第 t 步生成下一個 token 時的不確定性。熵越高,說明模型在當前位置越 “猶豫”,也更可能存在不同推理方向。

因此,我們選擇高熵位置作為推理分叉點:



其中,τ 表示熵的高分位閾值。隨后,I2B-LPO 基于當前推理前綴 ct? 采樣潛變量:



這些潛變量代表不同的潛在推理方向。為了讓它們持續影響后續生成,而不是只改變某個 token 的概率,I2B-LPO 設計了偽自注意力機制(Pseudo Self-Attention, PSA)。

具體來說,PSA 首先用潛變量調制 RMSNorm 的縮放參數:



其中,γ(t) 是隨生成過程逐漸衰減的注入強度。這樣可以讓潛變量在推理早期提供方向引導,同時避免后期過度干擾。接著,PSA 將潛變量映射為額外的 Key 和 Value,并拼接到原始注意力中:



最終注意力計算變為:



直觀來說,PSA 相當于給模型加入一個 “隱含思路提示”:它持續影響后續推理軌跡,使同一條 rollout 在關鍵節點分化出多條更具區分度的路徑。

2.信息瓶頸自獎勵

生成多條候選軌跡后,I2B-LPO 不會直接全部用于訓練,而是利用信息瓶頸指標進行篩選。核心思想是:好的推理路徑應該既簡潔,又對最終答案有幫助。

我們用如下分數衡量一條軌跡的質量:



其中,I (r;a) 表示推理軌跡對最終答案的信息貢獻,I (q;r) 用于約束軌跡不要過度冗長或重復。分數越高,說明該軌跡越簡潔、有效、直擊答案。

最終,I2B-LPO 保留 IB 分數最高的 Top-N 條軌跡:



并將其用于 GRPO 策略更新:



03 實驗結果

為了驗證我們的模型在數學推理任務中的表現,我們進行了廣泛的實驗,并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹:

訓練數據:

訓練數據主要來自 DAPO 和 MATH。為提升訓練效率,我們過濾了過于簡單、過于困難以及容易導致超長輸出的樣本,最終保留 6,486 條 MATH 樣本和 13,583 條 DAPO 樣本用于訓練。

Benchmarks:

  • AIME2025 / AIME2024: 美國高中數學邀請賽基準,解題步驟復雜。
  • MATH-500: 覆蓋代數、幾何、數論、概率多個主題,考驗通用數學推理能力。
  • OlympiadBench: 奧林匹克競賽級別的高難度數學基準,強調長鏈條推導和跨知識點綜合能力。
  • GSM8K: 初中水平數學應用題基準,評估基礎算術推理和自然語言問題求解。



表 2: 不同方法的推理準確率對比



表 3: 不同方法的推理多樣性指標對比

表 2 和表 3 分別驗證了 I2B-LPO 在推理準確率與生成多樣性上的優勢。結果顯示,I2B-LPO 在不同模型規模和多個數學基準上均穩定提升性能,不僅答得更準,也能生成更多樣的推理路徑。



圖 3: 不同方法下的熵分布與訓練動態對比。(a)展示不同方法下 token 概率與熵的分布關系;(b)展示訓練過程中平均熵的變化趨勢。相比 其他方法,I2B-LPO 能在訓練后期維持更穩定的熵水平。

圖 3 用于分析 I2B-LPO 是否真正改善了模型的探索行為。如圖 3 所示,(a)散點圖中標準 GRPO 的 token 更容易集中到低熵區域,說明模型逐漸變得 “確定”,探索空間被壓縮;Entropy Regularization 雖然提高了熵,但容易出現異常高熵點,帶來無效發散。I2B-LPO 則保持了更均衡的概率 - 熵分布。(b)曲線進一步表明,I2B-LPO 能在訓練后期維持相對較高且穩定的熵水平,避免模型過早陷入單一推理模板,從而保留有效探索能力。

圖 4. 不同難度題目下的注意力頭激活模式對比。紅色表示在高難度題目中更活躍的注意力頭,藍色表示在低難度題目中更活躍的注意力頭。

為驗證潛變量分支是否帶來結構化推理引導 還是 隨機噪聲注入,我們可視化了注意力激活模式。如圖 4 所示,輸入層注入機制容易被深層稀釋,softmax 層注入機制則會造成分散激活;而 I2B-LPO 使用的 PSA 偽自注意力注入能夠在深層激活與難題相關的注意力頭,形成更有結構的推理激活模式。

我們進一步分析了自獎勵機制篩除的低質量軌跡,發現低 IB 分數的軌跡主要有三類典型問題:

  • 空泛冗長: 看似在認真分析,實際包含大量 “Let me think”“It is important to note” 等無信息量鋪墊。
  • 重復循環: 反復重述題目或中間步驟,生成長度變長,但沒有新增推理信息。
  • 邏輯漂移: 表達很簡潔,但關鍵公式或推導方向出錯,對答案沒有幫助。

相比之下,高 IB 分數的軌跡往往更短、更直接,并且每一步都服務于最終答案。這說明信息瓶頸自獎勵不僅是在懲罰 “話多”,而是在篩選真正簡潔、有效、有預測力的推理路徑。案例分析如圖 5 所示。



圖 5. 高 IB 分數與低 IB 分數推理軌跡對比

總結

本研究聚焦于提升 RLVR 后訓練中的探索效率與推理質量。通過系統分析,我們發現,標準隨機 rollout 容易讓模型收斂到少數高概率推理模板,導致多條推理軌跡表面不同、底層同質,進而削弱軌跡間的獎勵差異和有效學習信號。

基于這一發現,我們提出了探索增強框架 I2B-LPO。該方法將 RLVR 中的探索從 “重復采樣更多答案” 推進到 “在關鍵節點生成更具區分度的推理軌跡”。I2B-LPO 主要通過兩個關鍵機制實現高效探索:

  • 高熵節點分支: 在模型真正不確定的關鍵位置生成多樣化推理軌跡。
  • 信息瓶頸自獎勵: 篩選簡潔、高信息量、直擊答案的高質量路徑,過濾冗長和無效推理。

實驗結果表明,I2B-LPO 能夠在多個數學推理基準上同時提升推理準確率與語義多樣性,在有限采樣預算下實現更高效、更可靠的 RLVR 探索。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
通車首日就翻車!這座讓臺灣等了40年的大橋,竟成了誰的生日派對

通車首日就翻車!這座讓臺灣等了40年的大橋,竟成了誰的生日派對

菁菁子衿
2026-05-14 10:03:53
市值暴漲4100億!徹底放棄手機的諾基亞,早已賺得盆滿缽滿

市值暴漲4100億!徹底放棄手機的諾基亞,早已賺得盆滿缽滿

李砍柴
2026-05-13 19:16:14
A股跌破4200點,重要信號出現

A股跌破4200點,重要信號出現

北京紅竹
2026-05-14 12:10:08
寶玉和誰有過肌膚之親?4個女人,2個千金小姐,2個漂亮丫頭

寶玉和誰有過肌膚之親?4個女人,2個千金小姐,2個漂亮丫頭

掠影后有感
2026-05-13 11:17:09
馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

華史談
2026-04-14 13:00:13
全國物業費收繳率多年下滑,多地倡議黨員先繳物業費引爭議

全國物業費收繳率多年下滑,多地倡議黨員先繳物業費引爭議

南方都市報
2026-05-14 11:15:55
30℃北京再穿皮衣!黃仁勛不熱嗎?偏執穿搭背后藏著大故事

30℃北京再穿皮衣!黃仁勛不熱嗎?偏執穿搭背后藏著大故事

西樓知趣雜談
2026-05-14 12:24:20
赫魯曉夫政變全過程!朱可夫在會議中掏出手槍,當眾把貝利亞扣押

赫魯曉夫政變全過程!朱可夫在會議中掏出手槍,當眾把貝利亞扣押

云霄紀史觀
2026-05-09 03:25:07
動真格了?國際足聯做出新決定,世界杯版權有轉機,央視下定決心

動真格了?國際足聯做出新決定,世界杯版權有轉機,央視下定決心

攬星河的筆記
2026-05-13 17:35:03
博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

妍妍教育日記
2026-05-13 09:55:04
為什么豬沒在進化中滅絕?網友:六邊形戰士,幾乎沒有弱點

為什么豬沒在進化中滅絕?網友:六邊形戰士,幾乎沒有弱點

夜深愛雜談
2026-05-13 22:38:24
被曝不續合約僅1天,白鹿昔日評價于正言論被扒,原來早有預兆

被曝不續合約僅1天,白鹿昔日評價于正言論被扒,原來早有預兆

曉岇就是我
2026-05-14 09:42:11
金曲獎來了,看完提名名單,我要說:華語樂壇完了!

金曲獎來了,看完提名名單,我要說:華語樂壇完了!

八卦南風
2026-05-13 18:27:59
廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

莫地方
2026-05-14 01:05:05
我媽罵了我爸30年,我爸退休后說了一句話,我媽瞬間懵了

我媽罵了我爸30年,我爸退休后說了一句話,我媽瞬間懵了

千秋文化
2026-05-12 20:09:20
中美元首會談結束

中美元首會談結束

澎湃新聞
2026-05-14 14:11:04
楊受成“霸占”容祖兒半生:不娶也不放,她到底圖什么?

楊受成“霸占”容祖兒半生:不娶也不放,她到底圖什么?

橙星文娛
2026-05-12 15:17:44
沒錯,我就是“基本盤”

沒錯,我就是“基本盤”

星空區塊鏈
2026-05-13 13:12:12
網友懷疑自助餐加了飽腹劑 記者調查揭開真相

網友懷疑自助餐加了飽腹劑 記者調查揭開真相

大唐
2026-05-13 18:58:18
編外人員“清退”開始,城管協管、輔警、護士教師都在其中

編外人員“清退”開始,城管協管、輔警、護士教師都在其中

巢客HOME
2026-05-14 05:55:06
2026-05-14 15:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12994文章數 142648關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

媒體:中美元首會晤 世界吃下一顆“定心丸”

頭條要聞

媒體:中美元首會晤 世界吃下一顆“定心丸”

體育要聞

登海報!哈登30+8+6創多項紀錄 第8次贏天王山

娛樂要聞

肖戰提名金海燕獎,這一步走得太穩

財經要聞

習近平同美國總統特朗普會談

汽車要聞

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

藝術
手機
數碼
公開課
軍事航空

藝術要聞

充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

手機要聞

盧偉冰揭秘全新Xiaomi 17 Max樣片彩蛋:三張樣片“一脈同源”

數碼要聞

PCIe 5.0固態硬盤僅在少數場景下有提升 不包括游戲

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美以伊戰爭期間以總理密訪阿聯酋

無障礙瀏覽 進入關懷版