網易首頁 > 網易號 > 正文申請入駐

ICML 2026 | Agentic強化學習訓練的信息自鎖問題

2026-06-17 18:18:44　來源: 機器之心Pro

天津舉報

分享至

本文作者鄒德譽，香港中文大學計算機科學與工程系博士生，本科畢業于中國科學技術大學。研究方向為大語言模型智能體、強化學習與主動推理，關注模型在信息不完備的多輪交互中如何主動獲取、更新并利用信念。相關工作發表于 ICLR 2026 Oral 與 ICML 2026。

隨著大語言模型逐步從「單輪問答」走向「真實環境中的持續交互」，LLM agents 正在被用于越來越復雜的 agentic applications：deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。這些任務和傳統問答最大的不同在于：任務所需的信息往往不是一開始就完整給出的。Agent 必須在不確定狀態下主動采取行動，例如提問、搜索、調用工具、檢查反饋，并在多輪交互中不斷更新自己對任務狀態的理解。

這類能力可以概括為active reasoning：在信息不完備的環境中，agent 不只是 “回答問題”，而是需要主動獲取新信息，并把新信息真正整合進后續決策和推理中。

根據過往在許多推理任務上的成功，強化學習似乎應該很適合訓練這類能力。只要最后任務成功就給正獎勵，失敗就不給獎勵，模型不就應該慢慢學會更好的交互策略嗎？

但事情并沒有這么簡單。與此前 T3 （Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral）對多輪推理中belief deviation和belief-trapped trajectory的分析相呼應，香港中文大學、加州大學圣地亞哥分校、佐治亞理工學院、字節跳動的研究者進一步發現發現，在 active reasoning 場景中，outcome-based RL 并不一定會自然訓練出更善于交互的 agent。相反，模型可能進入一種低信息量的訓練模式：它反復執行無效操作，過早依賴初始判斷，忽略用戶或環境返回的新證據；甚至在最終 reward 有所提升時，背后的行為也未必真正變得更會主動獲取和使用信息。

如果說 T3 更關注 agent 在多輪交互中如何逐步偏離正確 belief，那么這篇論文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系統分析了這一現象背后的原因：在 active reasoning 中，agent 的表現同時依賴于兩個相互耦合的能力：一方面是選擇什么動作來獲取信息，另一方面是如何把獲取到的信息整合進后續判斷。outcome reward 很難自動為這兩個相互依賴的環節提供清晰 credit：當前者無法帶來有效反饋，后者就缺少可學習的證據；而當后者無法正確吸收反饋時，前者的價值又很難通過最終 reward 得到正確 credit。

研究者將這種訓練失敗機制稱為：

Information Self-Locking，信息自鎖。

基于這一觀察，作者進一步提出了一個簡單而有效的方法：AREW（Action-Selection & Belief-Tracking Advantage Reweighting），通過輕量的方向性反饋重新分配 trajectory 內部的 credit，從而緩解 information self-locking。

論文已被 ICML 2026 接收。

論文標題：On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents
項目代碼：https://github.com/unimpor/T3
論文鏈接：https://arxiv.org/abs/2603.12109

引言：為什么 RL 訓練出來的 agent 還是不會主動推理？

在很多 LLM agent 任務中，模型并不能一開始就看到完整答案。它必須通過多輪交互逐步逼近真實任務狀態。

比如：

在醫療問診中，agent 需要主動詢問關鍵癥狀，而不是重復問泛泛的問題；
在用戶偏好估計中，agent 需要設計有區分度的問題，逐步識別用戶真正的偏好；
在客服場景中，agent 需要決定什么時候發消息、什么時候調用工具、什么時候引導用戶完成某些操作。

這些任務有一個共同結構：agent 的表現同時取決于兩件事。

第一，它要知道下一步該問什么、查什么、調用什么工具。作者稱為Action Selection（AS）。

第二，它要能把得到的新反饋吸收進自己的內部理解，真正更新對任務狀態的判斷。作者稱為Belief Tracking（BT）。

如果 AS 很弱，agent 就拿不到有用信息；如果 BT 很弱，即使拿到了有用信息，模型也不會用。

更關鍵的是，這兩者不是獨立的，而是強耦合的：

好的行動只有在反饋被正確使用時，才會在最終 reward 中體現價值；好的 belief update 又依賴于前面行動帶來了足夠有信息量的反饋。

這就帶來了 active reasoning 中一個非常隱蔽的 credit assignment 問題：outcome reward 只在最后出現，它很難判斷到底是 “問得不好”，還是 “問到了但沒吸收好”。

論文第一頁的圖給出了這一機制的整體直覺。

圖：原文 Figure 1。Vanilla outcome RL 下，agent 可能進入 self-locking：informative action 的價值被 weak BT 掩蓋，導致 credit assignment 錯位；AREW 通過 directional critiques 重新分配 trajectory 內部 credit，使 AS 和 BT 重新對齊。

Information Self-Locking：訓練信號被 “鎖住”

作者首先發現了一個反直覺現象。

在 outcome-based RL 中，reward 可能確實上升了，但這并不意味著模型真正學會了主動獲取信息。為了解耦觀察這一點，論文先在兩個可控的 active reasoning 任務中做分析：Preference Estimation 要求 agent 通過比較問題逐步估計用戶隱藏偏好，MediQ 則要求 agent 通過問診病人問題逐步識別正確診斷。二者都需要 agent 一邊主動獲取證據，一邊更新對隱藏任務狀態的判斷，因此很適合用來觀察 AS 和 BT 的訓練動態。

論文在這兩類任務中跟蹤了三個量：

Final reward：最終任務表現；
AS proxy：agent 的行動是否帶來有信息量的反饋；
BT proxy：agent 是否把反饋正確吸收進 belief。

結果顯示，reward 可以做有限的上升，但 AS 和 BT 并沒有同步提升。也就是說，模型表面上變強了，但它并沒有真正更會 “獲取信息” 和 “使用信息”。

圖：原文 Figure 2。左半部分展示訓練過程中 reward、AS、BT 的變化：藍線表示 agent 做出有信息量行動的比例，橙線表示 agent 是否有效吸收反饋并更新 belief，綠線表示最終任務成功率。可以看到，即使成功率隨訓練有一些有限的上升，AS 和 BT 也可能停滯甚至退化。右半部分進一步固定相同的 action-selection 序列：橫軸表示一條軌跡中有多少次有信息量的行動，淺藍色柱子表示這類軌跡出現的頻率；藍線表示由 agent 自身 BT 處理這些反饋時的成功率，橙線表示由 stronger BT 處理相同反饋時的成功率。結果顯示，只有當 BT 足夠強時，informative AS 才會和最終 reward 形成更強正相關。

這張圖的右半部分揭示了 AREW 的核心 insight：

Weak BT 會遮蓋 informative AS 的貢獻。

假設 agent 提出了一個很有價值的問題，環境也返回了關鍵證據。但如果模型沒有把這條證據吸收進后續推理，最終答案仍然錯了。此時，outcome reward 會告訴 RL：“這條 trajectory 失敗了。”

問題在于，RL 并不知道失敗的原因是 belief update 做得差，而不是 action selection 做得差。于是，那個本來很有價值的問題也可能得不到正向 credit。

反過來也是一樣。

如果 AS 變得保守，模型總是問一些低信息量的問題，BT 就拿不到有價值的反饋。沒有足夠信息流，belief tracking 也很難學好。久而久之，RL 可能反而鼓勵模型依賴初始判斷或非交互式 shortcut，而不是認真利用交互反饋（詳見原文 Section 2.3 observation 3 ｜ Fig. 6a）。

這就是 information self-locking：

AS 弱導致 BT 沒證據可學；BT 弱導致 AS 的價值無法被 reward 識別。二者互相限制，使模型卡在低信息量訓練區域。

從 Sef-Locking 看 active reasoning 的訓練瓶頸

前面提到，論文將 active reasoning 中的 agent 行為分解為兩個相互交替的過程：

Action Selection（AS）：根據當前 belief 選擇下一步環境交互動作，例如提問、搜索、調用工具；
Belief Tracking（BT）：根據新反饋更新內部任務理解，并決定后續如何行動。

這個分解指出 active reasoning 的難點不只是 sparse reward，而是sparse outcome reward 下兩個能力的耦合學習失敗。

普通 outcome RL 只看到最終成敗，很難把 reward 正確分配給 trajectory 中不同的 AS 和 BT 決策。結果是：

如果 BT 差，好的 AS 行動也無法轉化為高 reward；
如果 AS 差，BT 沒有足夠信息可以吸收；
如果二者都處于低水平，梯度信號會同時變弱；
模型可能長期停留在低信息量區域，難以靠 outcome reward 自行逃離。

論文在理論部分把這個區域形式化為self-locking regime：AS informativeness 低，同時 BT capability 也低。在這個區域中，outcome-gradient 對 AS 和 BT 的提升信號都會被當前能力水平限制，因此訓練動態很難自然逃出。

為了更直觀地解釋這一點，論文 appendix 給出了一個二維相圖：橫軸表示 AS informativeness，縱軸表示 BT capability。

圖：原文 Figure 8。AS-BT phase space 中的 learning dynamics。左圖表示 outcome-only RL：在低 AS、低 BT 的 locking regime 內，更新方向很弱，agent 難以逃離；右圖表示 AREW：directional critiques 在 locking regime 內引入額外更新方向，為模型創造逃離低信息量區域的路徑。這張圖概括了 AREW 的理論直覺：作者不需要完全重寫 RL，也不需要精確 dense reward；只需要在 AS/BT 的關鍵局部決策上提供一些方向性信號，就可以改變低信息量區域內的 effective update field。

AREW：用 weak directional critiques 重新分配 trajectory 內部 credit

既然 SeL 的核心問題在于 outcome reward 難以在 AS 和 BT 之間提供清晰的學習信號，一個直接的方案，是為每個中間決策都設計精確的 dense supervision：例如準確判斷某個問題到底貢獻了多少信息，或者某次 belief update 到底應當獲得多少中間獎勵。但是，在長程 agentic tasks 中，這類 calibrated intermediate reward 往往不能輕易獲得。

幸運的是，agentic active reasoning 場景通常會自然暴露一些更粗粒度、但更容易獲取的方向性診斷信號：例如，一個 action 是否讓環境或用戶返回了新的有用證據；一次 belief update 是否把新觀察朝著更接近真實任務狀態的方向吸收進去。

AREW 的出發點正是利用這些uncalibrated directional signals。它并不試圖為每一步構造精確的中間獎勵，也不需要訓練額外的 dense reward model，而是把這些方向性信號作為 weak directional critiques，注入到 policy-gradient 更新中，對 trajectory 內部的 stepwise advantage 進行重新分配。

換句話說，AREW 保留原本的 outcome reward，只是在 actor update 時把更多 credit 分配給被正向 critique 的 AS/BT 決策，并削弱被負向 critique 的決策。通過這種 reward-preserving 的 credit reallocation，AREW 在 SeL regime 中重新提供非退化的局部學習信號，使 AS 和 BT 有機會共同改善并逃離低信息量訓練區域。

在實現上，AREW 將一條 trajectory 中被正向 critique 的步驟集合記為 positive steps，被負向 critique 的步驟集合記為 negative steps。然后構造一個intra-trajectory likelihood margin：增加 positive steps 的 log-probability，相對降低 negative steps 的 log-probability。

經過推導（詳見原文 Section 4.2），最終落實到 policy gradient 上，就是一個非常輕量的 advantage reweighting：

對原本每一步的 advantage 加上一個由 critique 決定的局部修正項。

直觀來說，AREW 做的是：

不改變最終 outcome reward；
不改變 critic target；
不重寫 PPO / GRPO / GSPO 的核心框架；
只是在 actor update 時，把 trajectory 內部的 credit 從負向步驟重新分配給正向步驟。

這使得 AREW 具有很強的可集成性：它可以作為一個上層 credit assignment 修正機制，插入現有 outcome-based RL pipeline。

更重要的是，AREW 不要求 critique 完美。理論分析（原文 proposition 4.1）表明，只要 directional critiques 的weighted accuracy好于隨機，就可以提供有用的一階改進信號。后面的實驗也驗證了這一點：即使 critique 有噪聲，AREW 仍然通常優于 vanilla RL。

實驗設置：4 個交互領域，9 個 active reasoning 任務 / 設置

論文在多個 agentic active reasoning 場景中系統評估 AREW。

整體包括 4 個交互領域：

1. Preference Estimation

Agent 需要通過多輪 pairwise comparison 逐步估計用戶隱藏偏好向量。該領域包含 PE-G 和 PE-F 不同設置。AREW 在這里采用的 AS 信號非常直觀：如果兩部被比較的 item 在不同屬性維度上存在 trade-off，而不是一方在所有維度上都明顯占優，那么這個 comparison 更可能帶來有信息量的偏好反饋；BT 信號則看 agent 更新后的偏好估計是否比上一輪更接近真實偏好向量。

2. Medical Diagnosis

在 MediQ 中，agent 需要基于 clinical vignette 和候選假設，主動詢問病人診斷相關問題，并逐步提高正確診斷的 belief。AREW 的 AS 信號來自 patient feedback 是否真的提供了新的診斷信息；BT 信號則檢查模型是否根據有效反饋合理更新了不同診斷假設的置信度，例如是否讓正確假設相對其他候選更占優，或者在無信息反饋下保持 belief 不被錯誤擾動。

3. Troubleshooting

在 FloDial 中，agent 需要通過 yes/no diagnostic questions 排查用戶問題，并從候選解釋或解決方案中識別正確項。AREW 在這里把用戶反饋作為輕量方向性信號：如果問題命中了可診斷信息并得到有效 Yes/No 反饋，就說明該 action 更有價值；如果只得到 Unknown，則說明該問題沒有匹配到有效診斷線索。BT 側則進一步檢查 agent 是否在獲得有效反饋后提高了正確故障候選的置信度；如果反饋是 Unknown，則更希望 belief 保持穩定，而不是憑空漂移。

4. Customer Service / Tool Use

在 tau2-bench-Telecom 中，agent 需要通過多輪對話和工具調用完成真實感更強的 telecom customer-service 任務。AREW 的設置在本文后面會被單獨提到。

在前三個領域中，論文評估了 7 個 active reasoning tasks；在 tau2-bench 上進一步評估 solo setting 和 standard dual-control setting，總共形成 9 個任務 / 設置。所有任務都只提供終局監督。

主要模型包括Qwen2.5-7B-Instruct和LLaMA-3.1-8B-Instruct。RL 算法包括 PPO，并進一步擴展到 GRPO 和 GSPO。

主結果：AREW 在幾乎所有設置下穩定優于 vanilla PPO

論文首先在前三個領域的 7 個任務上報告最終平均 outcome reward。

表：原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三個領域的 7 個 agentic active reasoning tasks 上，與 direct inference 和 vanilla PPO 進行比較。

這里，AREW-AS only表示僅使用 action-selection 側的 directional critiques 來重加權動作決策的 advantage，而AREW-AS+BT則同時使用 action-selection 和 belief-tracking 兩側的 critiques，對 “獲取信息” 和 “吸收信息” 兩個環節的 credit 進行聯合修正。

主結果非常清晰：

在 28 個 PPO 評估設置中，AREW 在 27 個設置中顯著優于 vanilla PPO。

這些結果說明，AREW 的收益并不是某個模型或某個數據集上的偶然現象，而是在不同模型族和不同 active reasoning 任務中都能穩定發揮作用。

訓練動態：AREW 不只是提高最終分數，也改變了學習過程

除了最終結果，論文還展示了訓練過程中的 reward dynamics。

圖：原文 Figure 3。Qwen2.5-7B-Instruct 上，vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

這張圖可以看到三類典型現象。

在一些任務中，vanilla PPO 幾乎無法持續提升 reward；而 AREW 可以明顯打破這種停滯，并持續提高 performance。
在一些 vanilla PPO 本來也能緩慢提升的任務中，AREW 仍然表現出更快的收斂速度和更高的最終 reward。
即使某些情況下 reward curve 看起來差距沒有那么大，AREW 也會在 AS 和 BT 行為層面帶來更清晰的改進。也就是說，AREW 不只是 “刷高分”，而是在改變模型獲取和使用信息的方式。

AS/BT 行為分析：AREW 真的讓 agent 更會獲取和吸收信息

為了驗證 AREW 的改進是否來自 active reasoning 能力本身，論文進一步分析了 AS 和 BT proxy。

圖：原文 Figure 4。AREW 對 AS 和 BT capability proxies 的影響。

這張圖最值得注意的地方，不只是 AREW-AS+BT 效果最好，還有：AREW-AS only 已經可以同時改善 AS 和 BT。

表面上看，AS-only 只對 action-selection 側進行 advantage reweighting，也就是只鼓勵模型選擇更有信息量的動作，并沒有直接給 belief-tracking 決策額外加 credit。但實驗結果顯示，僅僅改善信息獲取，BT 也會隨之變好。

這正好說明 AS 和 BT 并不是兩個互相獨立的能力。更好的 AS 會改變 agent 后續看到的 observation stream：當環境或用戶返回的反饋更有信息量，belief tracking 就更容易從這些反饋中學習和更新。換句話說，即使沒有直接優化 BT，只要 AS 提供了更高質量的信息流，BT 的學習條件也會被改善。

當然，AS-only 并不能完全替代 BT-side correction。Figure 4 中，AREW-AS+BT 在多數情況下會進一步提升 BT proxy，說明當模型不僅被鼓勵 “獲取更有用的信息”，也被鼓勵 “把這些信息正確吸收進 belief” 時，AS 和 BT 更容易形成正向循環。

因此，AREW 的收益不是簡單來自某個單點模塊的增強，而是來自對AS-BT coupling 的干預。只修正 AS 已經能夠帶動 BT，而同時修正 AS 和 BT 則可以更充分地打破 information self-locking。

不同 RL 算法有效性

一個自然問題是：AREW 是否只是對 PPO 有用？

論文進一步在 GRPO 和 GSPO 上做了實驗。結果顯示，即使使用 group-based RL variants，self-locking 仍然可能存在；僅僅增加 rollout 采樣并不能從根本上解決 AS/BT 的耦合 credit assignment 問題。而 AREW 在 GRPO 和 GSPO 下也能提升 final performance、AS 和 BT proxies。

圖：原文 Figure 6 (b) (c)。

真場景應用 customer-service agent：tau2-bench 上的結果

除了 controlled domains，論文還在更復雜的 tau2-bench-Telecom 上評估 AREW。

tau2-bench 的挑戰在于，agent 不只是問答，還需要在多輪 customer-service 場景中進行工具調用、與用戶協作，并完成真實感更強的服務任務。

論文首先考慮no-user solo setting。在這個 setting 中，Qwen2.5-7B agent 直接控制任務解決過程。AREW 使用 benchmark 自帶的信號構造 critiques：

負向 critique 主要來自運行過程中的明顯失敗，例如工具調用格式錯誤、工具執行失敗、重復執行相同動作等；
正向 critique 則來自任務評估器提供的進展信號，例如當前軌跡是否新完成了某個預期動作，或是否比上一階段更接近任務完成。

圖：原文 Figure 5。Tau2Bench-Telecom solo setting 中，AREW 提升 reward，同時顯著減少 tool execution errors；并且這種提升不是靠更長回復或更多交互輪數換來的。

Figure 5 展示了一個實用結果：AREW 不只是提高 reward，還顯著減少 tool execution errors，同時 response tokens 更少，interaction turns 基本可比。這說明 AREW 的收益不是簡單來自 “說更多” 或 “多試幾輪”，而是來自更有效的 credit assignment。

論文進一步考慮 standard dual-control setting。在這個 setting 中，Qwen2.5-14B agent 需要和 GPT-4o-simulated user 協作。這里存在一個更復雜的 credit assignment 問題：任務進展可能來自 agent 自己正確使用工具，也可能來自 agent 引導用戶完成 user-side repair actions。

圖：原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中，AREW 相比 vanilla PPO 將 reward 從約 0.20 提升到約 0.50，同時減少對 user-side operation shortcut 的依賴，并保持更多 assistant-side tool-use 行為。

在 vanilla PPO 中，模型容易走向一種 shortcut：更多依賴用戶側操作來完成部分任務，而 assistant 自己的 tool-use 行為反而下降。這雖然能解決一部分樣本，但會使訓練偏向最容易獲得 reward 的 progress channel，而不是 benchmark 真正希望評估的 assistant-side tool-use 能力。

AREW 則通過 directional critiques 給有用的 assistant-side tool decisions 更多 credit，從而減少對 user-side repair 的過度依賴，把優化壓力合理分配到 agent 自己的有效工具使用行為上。

這個結果說明，AREW 也可以用于更接近真實 agentic application 的長程工具使用環境。

Robustness：AREW 不依賴完美 critiques

AREW 使用的是 weak directional critiques，一個重要問題是：如果 critique 有噪聲怎么辦？

論文通過隨機翻轉 stepwise critiques 來評估魯棒性。

表：原文 Table 2。不同 critique perturbation ratio 下，AREW 的最終表現。即使 critique 被較強擾動，AREW 通常仍然保持與 vanilla baseline 競爭甚至更好的表現。

結果顯示，隨著擾動比例增加，AREW 的性能會逐漸下降，這是合理的。但在較大范圍內，AREW 仍然優于或接近 vanilla baseline，并沒有因為 critique 不完美而崩潰。

論文 appendix 還進一步分析了更結構化的 critique destruction，例如只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常數 label 填補缺失 critique 等。整體結論一致：AREW 對多種 critique 噪聲和破壞方式都具有一定魯棒性。

這也回應了一個實際部署中的關鍵擔憂：在復雜 agentic tasks 中，我們很難得到精確的 dense supervision，但相對容易獲得一些局部方向性信號。AREW 正是為這種 supervision regime 設計的。

這項工作的意義與啟示

這篇工作給 RL for agentic active reasoning 中一個常見但容易被忽視的問題提供了機制解釋。過去我們常說，agent 在多輪任務中表現不好，是因為 reward sparse、exploration hard、tool use complicated。但 AREW 指出，在 active reasoning 中還有一個更結構性的困難：

獲取信息和使用信息是耦合學習的。Outcome reward 很難自然把這兩個能力分開 credit。

這會導致一種自鎖：

BT 弱時，好的 AS 行動無法獲得應有 credit；
AS 弱時，BT 沒有足夠證據可以學習；
兩者一起弱時，outcome-gradient 對二者的提升信號都很弱；
模型因此停留在低信息量 interaction pattern 中。

AREW 的思路也很直接：既然最終 reward 很難自動分配 credit，就利用 active reasoning 中天然存在的局部診斷信號，把 trajectory 內部的 credit 重新分配給更有信息價值的決策。

這帶來幾個 takeaway：

第一，active reasoning 的訓練不能只看最終 reward。 Reward 上升不等于模型真的學會了更好地交互。我們需要關注 agent 是否更會主動獲取信息，以及是否更會整合新證據。

第二，LLM agent 的訓練失敗有時不是單一能力不足，而是多個能力之間的耦合失效。 AS 和 BT 單獨看都重要，但真正的問題發生在二者互相依賴、互相 masking 的訓練動態中。

第三，弱監督也可以很有用。 AREW 不要求人工標注精確中間獎勵，也不需要訓練 dense reward model。只要能判斷某些步驟大致應該鼓勵還是抑制，就可以顯著改善 credit assignment。

第四，這類方法可能對更復雜的 agentic systems 有啟發。在 Deep Research、coding、customer service、computer use 等任務中，agent 都需要不斷決定 “下一步獲取什么信息” 以及 “如何吸收新信息”。這正是 AS/BT coupling 最容易出現的地方。

歡迎查閱論文與代碼以獲取更多技術細節。

如果您覺得這篇工作有幫助，歡迎關注與引用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.