網易首頁 > 網易號 > 正文 申請入駐

復旦提出簡單指標,找出推理蒸餾中真正有教學價值的數據

0
分享至



什么樣的思維鏈,能「教會」學生更好地推理?


許多人都有這樣的學習體驗:內容過于熟悉,難以帶來新的收獲;內容過于陌生,又往往超出理解能力,難以消化吸收。

類似的現象同樣出現在大語言模型的推理蒸餾中。來自能力更強的教師模型的思維鏈,可能過于晦澀,學生模型難以掌握其推理模式;而與學生認知相近的教師模型,其推理軌跡又常常缺乏新信息,難以帶來實質提升。

因此,要獲得理想的蒸餾效果,關鍵在于為不同學生模型選擇恰好合適的數據,在「熟悉」與「陌生」之間找到最佳平衡。然而,現有基于概率的篩選或度量方法(如 Perplexity)難以刻畫這種細粒度的適配關系。

那么,是否存在一種直觀且易于計算的數據適配度指標,能夠量化這種平衡?

來自復旦大學和上海人工智能實驗室的研究者提出了一種簡單而有效的度量方法,Rank-Surprisal Ratio (RSR):



RSR 從學生模型的視角出發,綜合考慮樣本的信息量與對齊程度,旨在找出那些既足夠「新」,又未超出學生認知邊界的推理數據。

在大規模蒸餾實驗中,RSR 與學生模型后訓練性能的相關性高達 0.86,并且可以直接用于篩選推理軌跡以及選擇教師模型,無需實際訓練即可找到更合適的思維鏈數據。



  • 論文鏈接:https://arxiv.org/pdf/2601.14249
  • 代碼鏈接:https://github.com/UmeanNever/RankSurprisalRatio

反直覺的現象


長思維鏈(CoT)的生成被普遍認為是大模型推理能力的核心。相應地,包含長思維鏈的推理軌跡常被視為高質量的監督信號,可以用于有監督微調(SFT)訓練學生模型,或助力強化學習的冷啟動。

但越來越多的實驗呈現出一個反直覺現象:教師模型越強,學生模型未必學得越好。

在這篇工作中,作者系統性地構建了 11 個 teacher(教師模型)× 5 個 student(學生模型)的蒸餾實驗,覆蓋從 4B 到 671B 的主流推理模型。結果顯示:

  • teacher 的參數規模、推理準確率與 student 的推理提升相關性很弱;
  • 同一個 teacher 的數據在不同 student 上的訓練效果差異顯著;
  • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
  • 推理數據是否「適合」當前 student 是關鍵。



表一:蒸餾實驗結果,在多個數學 benchmark 上評測 student 模型使用 teacher 數據訓練后的性能。

現有數據篩選方法的問題

當前主流的數據篩選或評估方法,大多依賴一個信號:student 模型生成該數據的概率(perplexity /log-likelihood/surprisal),認為 student 覺得「自然」的數據就更容易學。



但問題在于:

  • 太「自然」的推理數據,往往信息增量有限;
  • 真正有價值的推理數據,恰恰是 student 尚未充分掌握的部分。

這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge:如何在提供新知識的 informativeness 與符合學生當前認知的 alignment 之間取得平衡?

關鍵洞察

「絕對陌生 (Absolute unfamiliarity) + 相對熟悉 (Relative familiarity)」的推理數據最有學習價值

面對看似難以兼顧的「熟悉 - 陌生」的平衡,作者從 token 級別重新審視 student 的預測分布,提出一個直觀、但之前被忽略的視角:

  • Informativeness 關注的是當前 token 在概率層面的絕對陌生度,可由 Surprisal(?log p / 負對數似然)刻畫;
  • Alignment 關注的是當前 token對比其它候選 token 的相對熟悉度,可由 Rank(在詞表預測中的名次)衡量。

在這一視角下,一個 token 可以同時滿足:

  • 被 student 生成的概率不高(informative)
  • 但在候選詞表中排名靠前(aligned)

因此,informativeness 與 alignment 并非天然沖突。恰恰是同時滿足這兩點的 token,構成了最適合 student 學習的推理數據。



圖一:Rank-Surprisal Ratio 的設計動機 —— 合適的推理數據應當兼顧 informativeness 與 alignment

直觀的指標:Rank-Surprisal Ratio


基于前文在 token 級別的觀察,以及相關仿真分析與數學推導,論文提出了一個形式上極其簡潔的樣本級指標:



直覺解釋:

  • 分子(Rank)越小,表示當前樣本越符合 student 的行為模式,對齊程度(alignment)越高;
  • 分母(Surprisal)越大,表示當前樣本提供的信息量越充分,信息性(informativeness)越強;
  • RSR 越小 → 信息量與對齊程度的平衡越好。

在實現上:

  • 僅需對 student 進行一次前向計算;
  • 不依賴 verifier 或額外測試數據;
  • 融合了 rank clipping 與 surprisal 加權平均機制,在極端情況下具有更好的數值穩定性。

實驗:與訓練效果的相關性

作者將 RSR 與多種已有指標進行了對比,包括 teacher 模型及訓練數據的若干統計量、常用的數據質量評估方法、基于概率的指標,以及其他基于 student 模型計算的指標。

實驗結果在 5 個 student 模型上高度一致:RSR 與 student 模型后訓練性能的 Spearman 相關系數平均達到 0.86,顯著高于其它指標。



表二:不同指標與模型后訓練推理性能之間的相關性

在實際場景中的應用

場景 1:Trajectory Selection (選擇最合適的推理軌跡數據)

  • 在該場景中,針對訓練集中的每一道題目,作者從多個 teacher 模型生成的 33 條候選思維鏈中,依據不同指標選擇一條最合適的推理軌跡,從而構建用于訓練 student 的推理數據集。
  • 實驗結果表明,基于 Rank-Surprisal Ratio 篩選得到的數據,在不同 student 模型上訓練后均取得了最優的推理性能,優于其它方法。



表三:不同數據篩選方法的后訓練性能

場景 2:Teacher Selection(選擇最合適的教師模型)

  • 在該場景中,作者僅使用每個 teacher 模型生成的 200 條推理軌跡來估計其與不同 student 的適配程度,從而模擬實際蒸餾前的 teacher 選擇過程。
  • 實驗結果顯示,RSR 能穩定選出接近 oracle(真實最優)的 teacher 模型,整體表現優于其它方法。



表三:不同 teacher 模型選擇方法的表現

結語

這項工作重新審視了推理蒸餾中一個看似簡單卻難以回答的的問題:什么樣的推理軌跡能「教會」student 更好地推理。通過將 token 的 相對熟悉度(rank) 與 絕對信息量(surprisal) 結合,Rank-Surprisal Ratio 給出了一個直觀、易于計算、且在大規模實驗中被驗證有效的答案。

更重要的是,RSR 并不依賴額外的評估數據或驗證器,而是直接從 student 的視角出發刻畫數據價值。這使它不僅是一個分析工具,也具備作為實際數據工程指標的潛力。

向前看,這種「informative alignment」的視角或許可以進一步擴展到:

  • 更通用的 reasoning 任務(如 code、tool use);
  • 推理軌跡的重寫與合成,而不僅是選擇;
  • 以及與 On-policy Distillation、RL 結合的動態數據調度。

當推理模型的瓶頸逐漸從「規模」轉向「數據的高效利用」,理解哪些思維過程真正具有教學價值,可能將成為下一階段 post-training 的關鍵問題。

作者介紹

楊宇銘,復旦大學自然語言處理實驗室博士生,導師為張奇教授。本科畢業于復旦大學數學系,碩士畢業于密歇根大學統計學系。博士階段前曾在微軟擔任數據科學家。研究方向為自然語言處理與大語言模型,作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級會議發表多篇論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

妍妍教育日記
2026-04-24 09:05:03
5月19日上午10時!島內彈劾投票日確定,令賴清德難堪

5月19日上午10時!島內彈劾投票日確定,令賴清德難堪

環球網資訊
2026-04-25 06:32:07
一場120-108的大逆轉,讓馬刺揚名立萬,掘金徹底后悔,雷霆失算

一場120-108的大逆轉,讓馬刺揚名立萬,掘金徹底后悔,雷霆失算

毒舌NBA
2026-04-25 14:06:39
虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

火山詩話
2026-04-25 06:12:02
演員毛曉彤凌晨從醫美診所離開引網友熱議,其曬醫院檢測報告回應:作為一個從小愛吃面食的天津人,查出面粉不耐受可怎么辦

演員毛曉彤凌晨從醫美診所離開引網友熱議,其曬醫院檢測報告回應:作為一個從小愛吃面食的天津人,查出面粉不耐受可怎么辦

魯中晨報
2026-04-25 08:56:26
隨著阿森納1-0,英超最新積分榜出爐:榜首易主,爭冠超白熱化

隨著阿森納1-0,英超最新積分榜出爐:榜首易主,爭冠超白熱化

側身凌空斬
2026-04-26 02:31:58
一覺醒來!美伊談判,最新消息!美軍發表聲明

一覺醒來!美伊談判,最新消息!美軍發表聲明

中國基金報
2026-04-26 07:04:39
四川省第一大鎮,沒有爭議

四川省第一大鎮,沒有爭議

石辰搞笑日常
2026-04-24 13:27:13
江蘇一女子曬出剛完工的新家,因滿墻柜子徹底火了,太高級!

江蘇一女子曬出剛完工的新家,因滿墻柜子徹底火了,太高級!

手工制作阿愛
2026-04-25 18:13:57
整整70艘驅逐艦,配備4700發垂發導彈,追美國海軍,進入關鍵時刻

整整70艘驅逐艦,配備4700發垂發導彈,追美國海軍,進入關鍵時刻

愛吃醋的貓咪
2026-04-25 23:03:26
中東的戰火,終究還是燒到了中國頭上!

中東的戰火,終究還是燒到了中國頭上!

故事終將光明磊落
2026-04-25 15:03:28
別瞎找了!光纖+液冷+航天,2026十大真龍頭全在這(建議收藏)

別瞎找了!光纖+液冷+航天,2026十大真龍頭全在這(建議收藏)

Thurman在昆明
2026-04-25 19:21:49
“骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

“骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

妍妍教育日記
2026-04-24 11:15:25
遼、吉兩省發布聯合通告

遼、吉兩省發布聯合通告

吉刻新聞
2026-04-25 10:43:19
9中7!東部庫里神準!NBA準備誕生黑八奇跡

9中7!東部庫里神準!NBA準備誕生黑八奇跡

籃球實戰寶典
2026-04-26 05:47:45
寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

番外行
2026-04-23 07:43:15
美專家一致認為:戰勝中國只有一個辦法,但這條紅線美國不敢跨越

美專家一致認為:戰勝中國只有一個辦法,但這條紅線美國不敢跨越

歷史龍元閣
2026-04-25 12:20:12
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
泡泡瑪特:4月30日發售兩款Labubu冰箱,售價5999元,每款全球限量發售999臺

泡泡瑪特:4月30日發售兩款Labubu冰箱,售價5999元,每款全球限量發售999臺

魯中晨報
2026-04-24 20:08:07
對賴因德斯說了啥?瓜迪奧拉:我說我想弄死他,因為他太棒了

對賴因德斯說了啥?瓜迪奧拉:我說我想弄死他,因為他太棒了

懂球帝
2026-04-26 03:21:42
2026-04-26 07:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

教育要聞

校長領導力三要素:品德為基,思想為核,行動為要

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

手機
時尚
家居
數碼
親子

手機要聞

停更一年憋大招!小米大折疊攜玄戒O3回歸,系統也是新的

這些穿搭適合春天!外套彩色內搭白色、褲子穿基礎款,舒適大方

家居要聞

自然肌理 溫潤美學

數碼要聞

聯發科亮相2026北京車展:主動式智能體座艙解決方案

親子要聞

總感覺她們兩是上輩子的情人!

無障礙瀏覽 進入關懷版