无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦提出簡單指標,找出推理蒸餾中真正有教學(xué)價值的數(shù)據(jù)

0
分享至



什么樣的思維鏈,能「教會」學(xué)生更好地推理?


許多人都有這樣的學(xué)習(xí)體驗:內(nèi)容過于熟悉,難以帶來新的收獲;內(nèi)容過于陌生,又往往超出理解能力,難以消化吸收。

類似的現(xiàn)象同樣出現(xiàn)在大語言模型的推理蒸餾中。來自能力更強的教師模型的思維鏈,可能過于晦澀,學(xué)生模型難以掌握其推理模式;而與學(xué)生認知相近的教師模型,其推理軌跡又常常缺乏新信息,難以帶來實質(zhì)提升。

因此,要獲得理想的蒸餾效果,關(guān)鍵在于為不同學(xué)生模型選擇恰好合適的數(shù)據(jù),在「熟悉」與「陌生」之間找到最佳平衡。然而,現(xiàn)有基于概率的篩選或度量方法(如 Perplexity)難以刻畫這種細粒度的適配關(guān)系。

那么,是否存在一種直觀且易于計算的數(shù)據(jù)適配度指標,能夠量化這種平衡?

來自復(fù)旦大學(xué)和上海人工智能實驗室的研究者提出了一種簡單而有效的度量方法,Rank-Surprisal Ratio (RSR):



RSR 從學(xué)生模型的視角出發(fā),綜合考慮樣本的信息量與對齊程度,旨在找出那些既足夠「新」,又未超出學(xué)生認知邊界的推理數(shù)據(jù)。

在大規(guī)模蒸餾實驗中,RSR 與學(xué)生模型后訓(xùn)練性能的相關(guān)性高達 0.86,并且可以直接用于篩選推理軌跡以及選擇教師模型,無需實際訓(xùn)練即可找到更合適的思維鏈數(shù)據(jù)。



  • 論文鏈接:https://arxiv.org/pdf/2601.14249
  • 代碼鏈接:https://github.com/UmeanNever/RankSurprisalRatio

反直覺的現(xiàn)象


長思維鏈(CoT)的生成被普遍認為是大模型推理能力的核心。相應(yīng)地,包含長思維鏈的推理軌跡常被視為高質(zhì)量的監(jiān)督信號,可以用于有監(jiān)督微調(diào)(SFT)訓(xùn)練學(xué)生模型,或助力強化學(xué)習(xí)的冷啟動。

但越來越多的實驗呈現(xiàn)出一個反直覺現(xiàn)象:教師模型越強,學(xué)生模型未必學(xué)得越好。

在這篇工作中,作者系統(tǒng)性地構(gòu)建了 11 個 teacher(教師模型)× 5 個 student(學(xué)生模型)的蒸餾實驗,覆蓋從 4B 到 671B 的主流推理模型。結(jié)果顯示:

  • teacher 的參數(shù)規(guī)模、推理準確率與 student 的推理提升相關(guān)性很弱;
  • 同一個 teacher 的數(shù)據(jù)在不同 student 上的訓(xùn)練效果差異顯著;
  • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
  • 推理數(shù)據(jù)是否「適合」當前 student 是關(guān)鍵。



表一:蒸餾實驗結(jié)果,在多個數(shù)學(xué) benchmark 上評測 student 模型使用 teacher 數(shù)據(jù)訓(xùn)練后的性能。

現(xiàn)有數(shù)據(jù)篩選方法的問題

當前主流的數(shù)據(jù)篩選或評估方法,大多依賴一個信號:student 模型生成該數(shù)據(jù)的概率(perplexity /log-likelihood/surprisal),認為 student 覺得「自然」的數(shù)據(jù)就更容易學(xué)。



但問題在于:

  • 太「自然」的推理數(shù)據(jù),往往信息增量有限;
  • 真正有價值的推理數(shù)據(jù),恰恰是 student 尚未充分掌握的部分。

這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge:如何在提供新知識的 informativeness 與符合學(xué)生當前認知的 alignment 之間取得平衡?

關(guān)鍵洞察

「絕對陌生 (Absolute unfamiliarity) + 相對熟悉 (Relative familiarity)」的推理數(shù)據(jù)最有學(xué)習(xí)價值

面對看似難以兼顧的「熟悉 - 陌生」的平衡,作者從 token 級別重新審視 student 的預(yù)測分布,提出一個直觀、但之前被忽略的視角:

  • Informativeness 關(guān)注的是當前 token 在概率層面的絕對陌生度,可由 Surprisal(?log p / 負對數(shù)似然)刻畫;
  • Alignment 關(guān)注的是當前 token對比其它候選 token 的相對熟悉度,可由 Rank(在詞表預(yù)測中的名次)衡量。

在這一視角下,一個 token 可以同時滿足:

  • 被 student 生成的概率不高(informative)
  • 但在候選詞表中排名靠前(aligned)

因此,informativeness 與 alignment 并非天然沖突。恰恰是同時滿足這兩點的 token,構(gòu)成了最適合 student 學(xué)習(xí)的推理數(shù)據(jù)。



圖一:Rank-Surprisal Ratio 的設(shè)計動機 —— 合適的推理數(shù)據(jù)應(yīng)當兼顧 informativeness 與 alignment

直觀的指標:Rank-Surprisal Ratio


基于前文在 token 級別的觀察,以及相關(guān)仿真分析與數(shù)學(xué)推導(dǎo),論文提出了一個形式上極其簡潔的樣本級指標:



直覺解釋:

  • 分子(Rank)越小,表示當前樣本越符合 student 的行為模式,對齊程度(alignment)越高;
  • 分母(Surprisal)越大,表示當前樣本提供的信息量越充分,信息性(informativeness)越強;
  • RSR 越小 → 信息量與對齊程度的平衡越好。

在實現(xiàn)上:

  • 僅需對 student 進行一次前向計算;
  • 不依賴 verifier 或額外測試數(shù)據(jù);
  • 融合了 rank clipping 與 surprisal 加權(quán)平均機制,在極端情況下具有更好的數(shù)值穩(wěn)定性。

實驗:與訓(xùn)練效果的相關(guān)性

作者將 RSR 與多種已有指標進行了對比,包括 teacher 模型及訓(xùn)練數(shù)據(jù)的若干統(tǒng)計量、常用的數(shù)據(jù)質(zhì)量評估方法、基于概率的指標,以及其他基于 student 模型計算的指標。

實驗結(jié)果在 5 個 student 模型上高度一致:RSR 與 student 模型后訓(xùn)練性能的 Spearman 相關(guān)系數(shù)平均達到 0.86,顯著高于其它指標。



表二:不同指標與模型后訓(xùn)練推理性能之間的相關(guān)性

在實際場景中的應(yīng)用

場景 1:Trajectory Selection (選擇最合適的推理軌跡數(shù)據(jù))

  • 在該場景中,針對訓(xùn)練集中的每一道題目,作者從多個 teacher 模型生成的 33 條候選思維鏈中,依據(jù)不同指標選擇一條最合適的推理軌跡,從而構(gòu)建用于訓(xùn)練 student 的推理數(shù)據(jù)集。
  • 實驗結(jié)果表明,基于 Rank-Surprisal Ratio 篩選得到的數(shù)據(jù),在不同 student 模型上訓(xùn)練后均取得了最優(yōu)的推理性能,優(yōu)于其它方法。



表三:不同數(shù)據(jù)篩選方法的后訓(xùn)練性能

場景 2:Teacher Selection(選擇最合適的教師模型)

  • 在該場景中,作者僅使用每個 teacher 模型生成的 200 條推理軌跡來估計其與不同 student 的適配程度,從而模擬實際蒸餾前的 teacher 選擇過程。
  • 實驗結(jié)果顯示,RSR 能穩(wěn)定選出接近 oracle(真實最優(yōu))的 teacher 模型,整體表現(xiàn)優(yōu)于其它方法。



表三:不同 teacher 模型選擇方法的表現(xiàn)

結(jié)語

這項工作重新審視了推理蒸餾中一個看似簡單卻難以回答的的問題:什么樣的推理軌跡能「教會」student 更好地推理。通過將 token 的 相對熟悉度(rank) 與 絕對信息量(surprisal) 結(jié)合,Rank-Surprisal Ratio 給出了一個直觀、易于計算、且在大規(guī)模實驗中被驗證有效的答案。

更重要的是,RSR 并不依賴額外的評估數(shù)據(jù)或驗證器,而是直接從 student 的視角出發(fā)刻畫數(shù)據(jù)價值。這使它不僅是一個分析工具,也具備作為實際數(shù)據(jù)工程指標的潛力。

向前看,這種「informative alignment」的視角或許可以進一步擴展到:

  • 更通用的 reasoning 任務(wù)(如 code、tool use);
  • 推理軌跡的重寫與合成,而不僅是選擇;
  • 以及與 On-policy Distillation、RL 結(jié)合的動態(tài)數(shù)據(jù)調(diào)度。

當推理模型的瓶頸逐漸從「規(guī)模」轉(zhuǎn)向「數(shù)據(jù)的高效利用」,理解哪些思維過程真正具有教學(xué)價值,可能將成為下一階段 post-training 的關(guān)鍵問題。

作者介紹

楊宇銘,復(fù)旦大學(xué)自然語言處理實驗室博士生,導(dǎo)師為張奇教授。本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系,碩士畢業(yè)于密歇根大學(xué)統(tǒng)計學(xué)系。博士階段前曾在微軟擔(dān)任數(shù)據(jù)科學(xué)家。研究方向為自然語言處理與大語言模型,作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級會議發(fā)表多篇論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
股價兩連板后,500億龍頭公告

股價兩連板后,500億龍頭公告

中新經(jīng)緯
2026-06-14 18:10:09
那個被郭士強破格提拔的2米06混血少年,打的可不止是天賦

那個被郭士強破格提拔的2米06混血少年,打的可不止是天賦

阿嵀體育評論
2026-06-14 13:47:11
俞敏洪拋出驚人言論:我有兩個大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

俞敏洪拋出驚人言論:我有兩個大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

心理觀察局
2026-06-03 07:17:10
75萬根鋼針從天而降,上千士兵10分鐘被刺身亡,萬人崩潰跪地求饒

75萬根鋼針從天而降,上千士兵10分鐘被刺身亡,萬人崩潰跪地求饒

迷彩前沿
2026-06-12 13:55:53
16歲少女被五人灌“快樂水”,強奸后跳樓身亡,5人里有2名警察?

16歲少女被五人灌“快樂水”,強奸后跳樓身亡,5人里有2名警察?

法紀實錄簿
2026-06-10 10:49:17
中國終于松口了!中國外長訪問蒙古,日本總算等到了這句話!

中國終于松口了!中國外長訪問蒙古,日本總算等到了這句話!

阿龍聊軍事
2026-06-14 13:23:00
世界杯重大技術(shù)翻車!國際足聯(lián)在壓力下被迫公開VAR影像,引爭議

世界杯重大技術(shù)翻車!國際足聯(lián)在壓力下被迫公開VAR影像,引爭議

夜白侃球
2026-06-14 09:59:08
生涯首冠!唐斯7中1提前6犯畢業(yè)仍躺冠 擁抱女友情緒激動

生涯首冠!唐斯7中1提前6犯畢業(yè)仍躺冠 擁抱女友情緒激動

醉臥浮生
2026-06-14 11:44:12
C 羅機場亮相西裝造型干練,氣場拉滿備戰(zhàn)世界杯

C 羅機場亮相西裝造型干練,氣場拉滿備戰(zhàn)世界杯

述家娛記
2026-06-13 13:07:39
只差3個球!克洛澤:梅西本屆世界杯能破我的紀錄,他是天才!

只差3個球!克洛澤:梅西本屆世界杯能破我的紀錄,他是天才!

海浪星體育
2026-06-13 22:08:00
快訊!臺灣沈富雄表態(tài)了!

快訊!臺灣沈富雄表態(tài)了!

故事終將光明磊落
2026-06-14 13:37:09
一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習(xí)生
2026-06-12 13:36:01
摩根士丹利:更多跡象顯示中國二手房銷售走弱

摩根士丹利:更多跡象顯示中國二手房銷售走弱

新浪財經(jīng)
2026-06-13 18:15:03
王楚然骨架大,但是大得恰到好處

王楚然骨架大,但是大得恰到好處

娛你同歡
2026-06-09 20:06:02
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

阿傖說事
2026-06-13 14:00:30
大批鋼鐵項目密集開工、投產(chǎn)

大批鋼鐵項目密集開工、投產(chǎn)

新浪財經(jīng)
2026-06-14 13:10:52
莎拉彈劾案再生變數(shù)!參議院大法官被捕,誓言:仍要主審副總統(tǒng)

莎拉彈劾案再生變數(shù)!參議院大法官被捕,誓言:仍要主審副總統(tǒng)

夢想的現(xiàn)實
2026-06-14 13:30:04
炸裂!37萬周薪神鋒易主!曼聯(lián)極限截胡,切爾西半年籌備徹底白費

炸裂!37萬周薪神鋒易主!曼聯(lián)極限截胡,切爾西半年籌備徹底白費

一口桃
2026-06-14 14:55:13
1992年,我因超生被開除公職,沒想到卻因此改變命運

1992年,我因超生被開除公職,沒想到卻因此改變命運

靜若梨花
2026-06-13 10:38:09
日本一杯半價冰沙引爆全網(wǎng)!排隊2小時、機器干到報廢!日網(wǎng)友:感覺日本變窮了…

日本一杯半價冰沙引爆全網(wǎng)!排隊2小時、機器干到報廢!日網(wǎng)友:感覺日本變窮了…

東京新青年
2026-06-13 18:04:12
2026-06-14 18:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13249文章數(shù) 142669關(guān)注度
往期回顧 全部

教育要聞

高考500分左右,推薦報考這3所大學(xué),50%以上畢業(yè)生都能進央國企

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風(fēng)報信

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

教育
藝術(shù)
時尚
健康
本地

教育要聞

2026高考作文:萬古融雪,終貫滄海

藝術(shù)要聞

明代高僧寫的《春江花月夜》,美得令人驚嘆

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

老人、小孩、孕婦,吃粽子有啥風(fēng)險

本地新聞

AK劉彰邂逅河北南大港濕地

無障礙瀏覽 進入關(guān)懷版