最近的 AI 研究圈有一個明顯的風向變化。大家不再滿足于“讓大模型說得對”,而是開始追問“讓大模型想得對”。尤其是當 LLM 被塞進多輪交互的Agent 框架里,模型不再是一次性輸出答案,而是要像人一樣觀察、思考、行動、再思考。這個過程一旦進入強化學習(RL)階段,訓練就變成了一場“推理質量的持久戰”。
李飛飛團隊最近在做的,就是把這場持久戰里最隱蔽、最危險的問題挖了出來。
01為什么RAGEN?2值得被重寫一遍
過去幾年,Agent 訓練的穩定性幾乎完全依賴兩個指標:獎勵(reward)和熵(entropy)。獎勵代表結果好不好,熵代表推理過程是不是多樣。大家默認這兩個指標穩定,就意味著模型訓練健康。
RAGEN?2 的出現,直接把這套邏輯掀翻了。
研究團隊告訴我們:熵其實是一個非常迷惑人的幻覺。模型的推理過程可以在“熵看起來很正常”的情況下,悄悄地、系統性地崩潰。你看到的是模型在認真“思考”,但它實際上已經不再聽輸入了,只是在重復一套固定模板。
這就是 RAGEN?2 提出的核心問題:推理崩潰(Reasoning Collapse)。
為了抓住這種隱蔽的崩潰,研究團隊提出了兩個關鍵工具。一個是互信息代理(MI Proxy),用來判斷模型的推理是否真的依賴輸入。另一個是信噪比理論(SNR View),用來解釋為什么 RL 會把模型推向“模板化推理”。
這個項目的團隊陣容也非常豪華。核心來自 Northwestern University,聯合了斯坦福(李飛飛、Yejin Choi、Jiajun Wu)、Microsoft、Oxford、Imperial、UIUC等機構。
項目主頁在這里,可以看到完整資料與代碼:https://ragen-ai.github.io/v2/
02推理崩潰是什么?為什么以前沒人發現?
推理崩潰這個詞聽起來有點抽象,但它其實描述的是一種非常直觀的現象:模型看起來在認真思考,但它的思考內容和輸入毫無關系。
就像你問一個人“今天上海天氣怎么樣”,對方卻每次都回答“讓我一步一步想清楚這個任務”。你會覺得他在思考,但其實他根本沒在聽你說什么。
RAGEN?2 就是把這種“假思考”現象系統性地揭露出來。
傳統指標的盲點:熵只能看到“內部多樣性”
為什么以前沒人發現推理崩潰?因為大家一直盯著熵。
熵 H(Z|X) 這個指標,只能看到“同一個輸入內部,模型的推理是不是多樣”。如果模型在同一個輸入下生成了很多不同的推理鏈,熵就會很高。
問題是,熵完全不知道這些推理鏈是不是真的和輸入有關。
這就導致一個非常危險的情況: 模型的熵看起來很健康,但它的推理已經完全脫離輸入,進入一種“模板化自言自語”的狀態。
研究團隊用一句非常關鍵的公式解釋了為什么熵不夠:
熵只是右邊的第二項。真正衡量“推理是否依賴輸入”的,是互信息I(X;Z)。
也就是說,熵高不代表推理好,甚至可能掩蓋推理正在崩潰。
模板崩潰的定義:高熵 + 低互信息
RAGEN?2 把這種現象命名為“模板崩潰(Template Collapse)”。
它的特征非常鮮明,推理鏈條看起來很豐富 但不同輸入之間幾乎一模一樣 模型像是背了一套“萬能推理模板”,無論你問什么,它都先來一句:“Let me think step by step…”或者“I need to solve this task carefully.”
這些句子看起來像推理,但它們完全不依賴輸入。
這不是偶然,而是多輪 Agent RL 的系統性失敗模式。
四象限推理狀態圖:熵 × 互信息
研究團隊把推理狀態分成四種,特別直觀。
當熵高、互信息也高時,模型的推理既多樣又依賴輸入,這是理想狀態。
當熵高、互信息低時,就是模板崩潰。模型看起來在思考,但其實在“背稿子”。
當熵低、互信息高時,模型推理很依賴輸入,但過于確定,像是死記硬背。
當熵低、互信息也低時,就是完全退化,模型既不多樣也不聽輸入。
這四種狀態里,最危險的就是模板崩潰,因為它最容易被熵“偽裝”成健康狀態。
![]()
圖1|左:輸入驅動推理適應當前狀態;模板推理在不同的輸入中產生幾乎相同的響應。右:四種推理機制,沿兩個軸進行描述:條件熵( | ) (在輸入多樣性范圍內)和相互信息(; ) (輸入依賴性)。
03RAGEN?2:互信息視角重構推理質量
如果說 RAGEN?2 的第一重貢獻是“發現問題”,那么第二重貢獻就是“重新定義什么叫推理質量”。過去我們太依賴熵了,覺得推理多樣就代表模型在認真思考。但 RAGEN?2 告訴我們,推理多樣不等于推理有效,甚至可能是推理正在崩潰的假象。
真正能衡量推理質量的,是互信息 MI。
這一點在研究中被用一個非常經典的信息論公式點破了:
這行公式的意義非常直白。 左邊是推理的總熵,右邊分成兩部分。
H(Z|X) 代表“同一個輸入內部的多樣性” I(X;Z) 代表“推理是否真的依賴輸入”,過去大家只看H(Z|X),也就是“推理是不是多樣”。 但真正重要的是 I(X;Z),也就是“推理是不是聽輸入的”。
這就像你看一個學生寫作文,寫得花里胡哨不代表他理解題目。 MI 才是判斷他有沒有讀懂題目的關鍵。
RAGEN?2 的貢獻,就是把 MI 從理論里拉出來,變成一個可以在訓練中實時監控的指標。
MI Proxy:如何在訓練中實時估計互信息?
互信息本身很難直接算,因為推理鏈是高維離散序列。 RAGEN?2 的聰明之處在于,它沒有硬算 MI,而是設計了一套“互信息代理指標”,用訓練過程中的數據就能估出來。
核心方法叫 In?Batch Cross?Scoring。
簡單說,就是把每條推理鏈 Z?,k拿去和所有輸入 X?做一次“匹配度評分”,看看它到底更像是從哪個輸入生成的。
如果推理真的依賴輸入,那么 Z?,k在自己的輸入 X?上得分最高。 如果推理已經模板化,那么它在所有輸入上得分都差不多。
研究團隊把這個評分拆成兩個量:matched:推理在真實輸入上的 log?prob ;marginal:推理在所有輸入混合上的 log?prob。
這兩個量的差值,就是互信息的影子。
基于這個思想,研究團隊提出了兩個主力指標。
Retrieval?Accuracy 看推理鏈能不能“認回自己的輸入”。 如果模型崩潰,這個準確率會掉到隨機水平。
MI?ZScore?EMA 把 matched ? marginal 做成連續指標,再加上 z?score 和 EMA 平滑。 更穩定,也更適合訓練監控。
最關鍵的是,這些指標不需要額外模型,不需要額外推理,訓練過程本身就能算出來。
這讓 MI 從一個“理論概念”變成了一個“工程可用的監控信號”。
MI與任務性能的強相關性
RAGEN?2 的實驗里有一個非常震撼的發現。
MI 和最終任務成功率的相關性非常高。 熵和任務成功率的相關性不僅低,甚至是負的。
換句話說,熵越高,任務可能越差。 這就像你看到一個人說話越來越流利,但內容越來越離譜。
這說明熵不僅不可靠,還可能誤導訓練判斷。 而 MI 才是那個真正能告訴你“模型有沒有在認真思考”的指標。
RAGEN?2 在這里做的事情,本質上是把“推理質量”從一個模糊概念,變成了一個可量化、可監控、可優化的指標體系。
04推理崩潰的根因:SNR(信噪比)機制
如果說 MI Proxy 是“診斷工具”,那么 SNR 理論就是“病因分析”。 RAGEN?2 的第三個重大貢獻,就是解釋了為什么 RL 會讓模型推理崩潰。
這部分是研究團隊最有洞察力的地方。
![]()
圖2|RL更新的信噪比(SNR)示意圖。左:總梯度分解為任務梯度(隨著輸入獎勵方差的增加而銳化)和正則化梯度。正確的高獎勵方差產生強任務梯度和更好的收斂性(高信噪比);低獎勵方差使正則化梯度占主導地位,產生不穩定的更新和輸入無關的推理(低信噪比)。
關鍵發現:獎勵方差決定任務梯度強度
研究團隊的實驗發現非常清晰。
當一個輸入的獎勵方差高時,模型能從不同軌跡里學到有用的信號,任務梯度強,推理自然會依賴輸入。
當獎勵方差低時,模型幾乎學不到什么有用差異,任務梯度弱,正則項(KL + 熵)就會成為主導力量。
這就導致推理被“推向模板化”。
高獎勵方差 → 強任務信號 → 推理依賴輸入 低獎勵方差 → 任務信號弱 → 正則項主導 → 推理模板化。
這就是推理崩潰的根本誘因。
梯度分解:任務信號 vs 任務噪聲 vs 正則噪聲
研究團隊把 RL 的梯度拆成了三部分:
gsignal 是真正有用的任務信號, gtask-noise 是采樣噪聲, greg 是 KL 和熵正則項。
當獎勵方差低時,gsignal 會趨近于 0。 但greg 完全不會變小,它是輸入無關的“統一收縮力”。
于是 greg 就成了主導力量,把推理往“輸入無關的模板”方向拉。
這就是為什么模型會出現“看起來在思考,但其實在背模板”的現象。
![]()
圖3|提示分為六個大小相等的獎勵方差桶Q1-Q6。我們發現:(a)任務梯度范數隨桶RV單調增加;(b)當RV接近0時,盡管幾乎沒有攜帶有用信號,但任務梯度仍然存在;(c)正則化器梯度范數(KL+熵)在桶內是平坦的。這直接支持兩種算法下的信噪比機制。
低獎勵方差的危險性
最危險的地方在于,即使獎勵方差接近 0,梯度范數仍然不為 0。
因為正則項仍然在“強推”。
這意味著模型會持續更新,但更新方向完全與任務無關。 推理就會越來越偏離輸入,越來越模板化。
這就是推理崩潰的根本原因,也是為什么熵會誤導訓練判斷。
05解決方案:SNR?Aware Filtering
當 RAGEN?2 把“推理崩潰”這個隱蔽問題挖出來之后,接下來最關鍵的問題就是怎么解決。研究團隊給出的答案非常工程化,它沒有引入復雜的新模型,也沒有修改 RL 的核心結構,而是提出了一個輕量級、幾乎零成本的策略——SNR?Aware Filtering。
![]()
圖4|信噪比感知濾波工作流程。在每次訓練迭代中:(1)滾動生成收集軌跡;(2)將即時獎勵內方差作為信噪比代理計算;(3)提示按RV排名,保留top-p分數,僅對高信號子集執行策略更新。這種過濾循環可以防止對嘈雜的展開進行更新,并且不需要標準RL之外的額外模型/展開。
這個方法的核心思想其實很樸素。既然推理崩潰的根因是“低獎勵方差導致任務信號弱、正則項主導更新”,那就讓模型盡量只從“高獎勵方差”的樣本里學習。每次訓練都只保留那些真正能提供任務信號的 prompts,把那些獎勵方差幾乎為零、只會帶來正則噪聲的 prompts 過濾掉。
這就像你在嘈雜的房間里想聽清一個人的講話,你會靠近那個聲音更清晰的人,而不是讓所有噪聲一起灌進耳朵。
SNR?Aware Filtering 做的,就是讓模型“靠近信號,遠離噪聲”。
核心思想
訓練時的每一批數據里,都會包含一些“高方差、高信號”的 prompts,也會包含一些“低方差、低信號”的 prompts。后者的問題在于,它們的獎勵幾乎沒有差異,導致任務梯度幾乎為零,但正則項仍然在強推,于是模型就被往“模板化推理”方向拉。
SNR?Aware Filtering 的做法,就是每次訓練只保留獎勵方差最高的 top?p prompts,把低方差的 prompts 全部過濾掉。
高方差意味著高信號 低方差意味著高噪聲
過濾掉噪聲,保留信號,推理結構自然就能保持輸入依賴。
方法流程
研究團隊圖 4 把整個流程畫得非常清楚,但我們可以用更大白話的方式講一遍。
訓練開始時,模型會像往常一樣采樣多條軌跡。 每個 prompt 都會得到一組獎勵值。 然后計算每個 prompt 的獎勵方差。 把所有 prompts 按方差從高到低排序。 保留 top?p 的那一部分,其余全部丟棄。 最后只用這些“高信號 prompts”來更新模型參數。
整個過程不需要額外模型,不需要額外推理,不需要額外算力。 只是把訓練數據做了一次“按信號強度排序的篩選”。
但效果卻非常顯著。
為什么有效?
SNR?Aware Filtering 的有效性來自一個非常直觀的數學事實。
在 RL 的梯度分解里:
當獎勵方差低時,gsignal 會趨近于 0。 但greg 完全不會變小,它是輸入無關的“統一收縮力”。 于是 greg 就成了主導力量,把推理往“輸入無關的模板”方向拉。
SNR?Aware Filtering 的作用,就是把那些 gsignal ≈ 0 的 prompts 全部過濾掉,讓模型只在 g_signal 足夠強的樣本上更新。
這會帶來三個直接效果。
梯度 SNR 被顯著提升 任務信號被保留下來 正則噪聲被抑制
最終的結果,就是模型的推理重新變得“聽輸入的”,互信息 MI 上升,模板化推理被抑制。
這是一種非常“工程友好”的解決方案,不需要改模型、不需要改算法,只需要改訓練數據的選擇方式。
06實驗:跨任務、跨算法、跨規模的驗證
RAGEN?2 的實驗部分非常扎實,覆蓋了七大環境、四類 RL 算法、多個模型規模。它不是在一個小玩具任務上證明自己的方法有效,而是在一整套真實的、多模態、多輪、多決策環境里驗證推理崩潰的普遍性和 SNR Filtering 的有效性。
![]()
圖5 |不同干預策略下的訓練動態。(a)任務成功率,(b)MI代理(檢索準確性),以及(c)推理熵。如果不進行過濾,MI會在熵峰值時早期降解,信號模板會崩潰。濾波有效地緩解了檢索準確性的下降,top-p SNR Aware濾波最好地保留了任務性能和推理多樣性。
七大環境覆蓋多模態、多任務、多決策類型
研究團隊選取的七個環境非常有代表性,幾乎覆蓋了當前 Agent 研究的所有關鍵場景。
Sokoban 是不可逆規劃任務,考驗模型的長期推理能力 FrozenLake 是隨機導航任務,考驗模型在不確定環境下的策略穩定性MetaMathQA 是數學推理任務,考驗模型的符號推理能力 Countdown 是算式構造任務,考驗模型的組合推理能力 SearchQA 是多輪檢索任務,考驗模型的信息整合能力 WebShop 是網頁導航任務,考驗模型的工具使用與決策能力 DeepCoder 是代碼合成任務,考驗模型的程序推理能力
這些任務的共同點是都需要模型在多輪交互中保持穩定、輸入依賴的推理結構。
RAGEN?2 的實驗顯示,推理崩潰在這些任務中普遍存在,而 SNR Filtering 在這些任務中普遍有效。
關鍵實驗現象
實驗里最重要的三個現象非常值得強調。
互信息 MI 的下降早于性能下降,是更敏感的診斷指標,熵在崩潰過程中保持高位,完全無法反映問題,SNR Filtering 顯著提升 MI 與任務成功率。
這說明 MI Proxy 不只是一個“好看的指標”,而是真正能提前預警推理崩潰的信號。
而 SNR Filtering 則是一個真正能阻止崩潰、恢復推理質量的解決方案。
不同 RL 算法的一致性
研究團隊還在 PPO、GRPO、DAPO、Dr.GRPO 四種 RL 算法上驗證了推理崩潰的普遍性。
結果非常一致。
推理崩潰是算法無關的系統性問題,SNR Filtering 是普適解決方案。
這意味著推理崩潰不是某個算法的 bug,而是多輪 Agent RL 的結構性風險。
而 SNR Filtering 則是一個結構性修復。
![]()
圖6 |顯示頂部的過濾策略比較-持續超越Top-并且在四個環境中沒有過濾器基線。
07Agentic RL的新范式
RAGEN?2 的意義遠不止提出一個新指標或一個新技巧。它實際上重塑了我們理解 Agent 推理質量的方式,也重塑了我們訓練 Agent 的范式。
RAGEN?2 把推理質量的衡量從“熵”轉向“互信息”。 把 RL 訓練穩定性的理解從“獎勵”轉向“SNR”。 把推理崩潰從一個模糊現象變成一個可解釋、可診斷、可干預的機制。
這為未來的 Agentic RL 提供了一個新的理論框架。
MI Proxy 可以直接集成到現有的 RLHF、GRPO、PPO 訓練管線里。 SNR Filtering 是一個輕量級、幾乎零成本的增強方法。 對多模態 Agent、工具使用 Agent、Web Agent 都有價值。
這意味著 RAGEN?2 的方法不是“只能在研究團隊里跑”,而是可以直接落地到真實系統里。
Agent 時代的核心問題不是“模型能力”,而是“推理穩定性”。 RAGEN?2 提供了穩定性評估與訓練的新標準。 對 AI Agent 的產品化具有直接影響。
未來的 Agent 系統,不再只是比誰能調用更多工具、執行更多步驟,而是比誰能在多輪推理中保持穩定、可靠、輸入依賴的思考結構。
RAGEN?2 給了我們一套方法,讓這種穩定性變得可控。(END)
參考資料:https://arxiv.org/pdf/2604.06268
![]()
關于波動智能——
波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系,融合人工智能與意識科學,構建覆蓋情緒識別、建模與推薦的智能引擎,自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法,形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”,其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構,賦能企業實現更高效的用戶洞察與精準情緒交互,推動從功能驅動到意圖驅動的產業范式升級。
親愛的人工智能研究者,為了確保您不會錯過*波動智能*的最新推送,請星標*波動智能*。我們傾心打造并精選每篇內容,只為為您帶來啟發和深思,希望能成為您理性思考路上的伙伴!
加入AI交流群請掃碼加微信
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.