无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

SFT「不完全學習」之后,研究的下一個前沿在哪?ACL 2026 騰訊混元論文未來方向展望

0
分享至


作者 | 薛超

編輯 | 蔡芳芳

每一篇定義新領域的論文,都會打開更多的研究問題。本文從不完全學習現象(ILP,Incomplete Learning Phenomenon)出發,展望 SFT 領域的未來研究方向——有些來自騰訊混元與 UNSW 聯合撰寫的論文,有些則從框架本身推導而來。

論文標題: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models
arXiv 鏈接: https://arxiv.org/abs/2604.10079

1 方向一:未知根因——被 ILP 框架遺漏的 3%

論文承認約 3%的未學習樣本不屬于五大根因中的任何一個。這些樣本的特征是:

基模型 zero-shot 表現正常(>25%準確率)

  • SFT 標簽正確

  • 訓練集中沒有 Sim>0.85 的矛盾樣本對

  • 在訓練序列中的位置隨機

  • Loss 曲線正常(平穩收斂)

所有已知的歸因信號都“正常”,但模型就是沒學會。

可能的解釋:

  • 樣本本身的“內在難度”過高——問題表述過于復雜,模型雖然具備知識但無法準確理解問題

  • 多步推理缺失——樣本需要多步推理,但基模型在推理鏈中間步驟就出錯了

  • 語義漂移——訓練集標注和預訓練知識在語義上不完全匹配,但又不是明顯的“沖突”

  • 解碼策略的固有缺陷——某些樣本的正確答案在解碼空間中概率分布平坦,與采樣溫度相互作用后不穩定

研究價值:如果找到新的根因,ILP 的歸因覆蓋率可以從 97%提升到接近 100%。更重要的是,新根因可能會揭示 SFT 目前尚未被理解的深層限制。

實操建議:對于你的項目中那 3%的“疑難雜癥”樣本,建議單獨標注和追蹤。它們可能是下一個根因發現的第一批線索。


2 方向二:檢測方法的改進——從 MC 到自由文本

MC 轉換+pass@5 是論文提出的檢測方法,但它不是一個“最終方案”。有兩個可以改進的方向:

方向 2a:自由文本的自動判分

MC 轉換的核心局限是它改變了任務的格式——雖然論文用“訓練-評估解耦”規避了影響,但能否直接在自由文本輸出上做 pass@N 檢測?

關鍵是“如何判斷自由文本輸出是否等價于正確答案”。目前有三種思路:

  • 基于 LLM 的自動判分(如 GPT-4 作為評判者)

  • 基于語義嵌入的相似度計算(如 Sentence-BERT 余弦相似度)

  • 基于信息覆蓋的判定(如輸出是否覆蓋了正確答案的所有關鍵信息)

論文選擇 MC 轉換的原因是它提供了客觀、可復現、跨模型可比的基線。自由文本判分方案如果能達到同樣的客觀性,將是檢測方法的重要進步。

方向 2b:動態溫度的選擇

論文使用的是固定溫度 0.7 做 pass@5 采樣。但不同樣本可能需要不同的溫度來展示其“靈活性”——有的樣本在低溫下就穩定正確,有的需要高溫才能展現多樣性。

一個可能的改進是:針對每條樣本動態選擇最佳檢測溫度,甚至使用多種溫度的 ensemble 結果。

3 方向三:歸因框架的深入——更精細的根因子類

根因 I 的子類化

根因 I(預訓練知識缺失)目前是一個統一類別。但“知識缺失”有不同層級:

  • 完全缺失:預訓練語料中完全不存在相關知識——論文的 8.2%匹配率

  • 部分缺失:預訓練語料中有部分相關信息但不夠形成完整表征

  • 邊緣缺失:預訓練語料中有相關知識但不在 SFT 樣本所在的具體子領域

不同層級的缺失可能需要不同的 CPT 策略——是完全從零構建,還是在已有基礎上精煉?

根因 III 的細化

根因 III(數據內部矛盾)的定義目前依賴 Sim>0.85 的相似度閾值。但矛盾的具體類型可能不同:

  • 標簽矛盾:兩樣本完全一樣但標簽不同

  • 語義矛盾:樣本相似但標簽指向矛盾的結論

  • 視角矛盾:樣本從不同角度描述同一事物,標簽看似不同但實際不矛盾

“假的”根因 III——表面上矛盾但實際不矛盾的樣本對——可能在某些數據集中被誤歸為根因 III。

根因 IV 的邊界

根因 IV(左側遺忘)目前關注訓練序列的位置效應。但“位置”的定義可以更精細:

  • 絕對位置:在訓練序列中的絕對序號——最簡單

  • 相對位置:在總長度中的相對比例——論文使用的方式

  • 上下文位置:與該樣本語義相關的其他樣本的相對位置——更復雜但可能更精確

如果使用語義嵌入來定義“語義鄰居”的位置,可能會發現根因 IV 的本質是“被相似語義的后續樣本覆蓋”,而不簡單是“在序列前段”。


4 方向四:根因交互——多個根因同時存在時的處理

論文目前的分析是單根因分析——一個樣本被歸因為一個根因。但在實際項目中,一個未學習樣本可能同時涉及多個根因:

  • 根因 I 樣本恰好位于訓練序列前段→根因 I+根因 IV

  • 根因 II 樣本在訓練集中也有矛盾樣本對→根因 II+根因 III

  • 根因 III 樣本同時是難樣本→根因 III+根因 V

論文目前把所有樣本歸入“主導根因”,但“主導”的含義可能不明確——哪些樣本真的是單根因,哪些只是被歸到最顯著的根因?

多根因處理策略

如果未來研究證實多根因樣本占相當比例,需要開發多根因處理策略:

  • 并行修復:同時對涉及的多個根因執行對應方案

  • 串行修復:按根因優先級逐一修復、逐一驗證

  • 組合策略:設計一個方案同時處理多個根因(如全局打亂+動態分桶+漸進 Epoch 的方案組合)

5 方向五:泛化到其他訓練范式

論文的“檢測→歸因→干預→驗證”框架不只是針對 SFT 的。它可以被推廣到:

RLHF/DPO(基于人類反饋的強化學習/直接偏好優化)


  • 檢測:模型的偏好是否被真正內化?RLHF 模型在偏好數據上的“通過率”是否也有 ILP?

  • 歸因:偏好數據中的 ILP 根因是什么?預訓練知識沖突是否也是 RLHF 中“獎勵黑客”的原因?

  • 干預:CPT 是否也能解決 RLHF 中的未學習問題?

持續學習

  • 檢測:增量訓練中,新數據是否被真正學會?舊知識是否被覆蓋?

  • 歸因:增量學習中的遺忘是根因 IV(位置)的變體嗎?

  • 干預:重采樣策略是否也能用于持續學習的遺忘緩解?

多模態訓練


  • 檢測:多模態模型中,“語言對齊→視覺理解”的轉換中是否有 ILP?

  • 歸因:未對齊的根因是視覺編碼器知識缺失(根因 I 變體),還是文本沖突(根因 II 變體)?

  • 干預:CPT 在視覺語言模型中的模擬——對比學習是否需要“知識增強”?

6 方向六:CPT 的精細化研究

論文證明了 CPT 對根因 I/II 有效,但 CPT 本身還有很多未解決的問題:

CPT 數據選擇

  • 如何自動選擇最優的 CPT 語料?——相關性+質量+覆蓋率的平衡

  • 是否需要領域特異性?——通用語料 vs 完全領域特異的語料

  • CPT 的“配比”——目標語料和通用語料的比例

CPT 訓練策略

  • CPT 的訓練步數對效果和代價的影響——論文使用 5B token,但多少是最優的?

  • CPT 的學習率選擇——太低無效,太高導致通用能力災難性下降

  • CPT 的早停策略——何時停止 CPT 可以最大化領域知識增量、最小化通用能力損失

CPT 的代價減輕

  • 如何減少 CPT 帶來的 MMLU 下降?——論文混合了~15%通用語料

  • 混合配比的精細實驗——10%、15%、20%、25%的最優配比是多少?

  • CPT 后的“恢復訓練”——用少量通用語料重新訓練能否恢復通用能力?

7 方向七:ILP 的行業應用與標準化

建立 ILP 檢測的行業標準


  • 論文展示了 ILP 檢測的價值,但行業標準還沒有建立:

  • 是否需要統一的檢測流程?——MC 轉換+pass@5 是否應該成為 SFT 評估的標準組件?

  • 是否需要建立 ILP 的 benchmark?——如同 MMLU、HumanEval 一樣?

ILP 與模型安全

  • ILP 可能對 AI 安全有重要啟示:

  • 未學習樣本是否也是“安全對齊未成功”的樣本?——如果模型對 15%的樣本“沒學會”,那 15%的安全規則是否也“沒被對齊”?

  • ILP 檢測能否作為“紅隊測試”的前置篩選——先跑 pass@5 找出未對齊樣本,再做人工紅隊測試?

降低 ILP 檢測的門檻

論文的 ILP 檢測需要 GPT-4(干擾項生成)和一定的計算資源。降低門檻也是重要的推進方向:

  • 用開源模型替代 GPT-4 進行干擾項生成

  • 開發一鍵式 ILP 檢測工具

  • 將 ILP 檢測集成到主流的 SFT 訓練框架中

8 寫在最后:ILP 研究的“無窮遠方”

ACL 2026 論文對 ILP 的發現不是終點,而是起點。

它打開了一個全新的研究方向——“SFT 病理學”:ILP 是癥狀,五大根因是病因,五種方案是處方,“檢測→歸因→干預→驗證”是診療流程。

這個框架可以被推廣到 RLHF、DPO、多模態、持續學習等所有涉及“訓練數據是否被有效學習”的場景。每一步推廣都會產生新的科學問題。

對研究者:篇篇論文都有做——每一個“方向”都是一篇新論文的核心內容。未知根因、多根因交互、CPT 精細化、RLHF 推廣、自由文本檢測……隨便選一個方向深挖,就是一篇新的頂會論文。

對工程師:這些方向中最有工程價值的是 ILP 檢測標準化和 CPT 精細化。把 ILP 檢測集成到 SFT 訓練框架中,就像把 unit test 集成到軟件開發流程中一樣自然。這可能是未來 1-2 年內 SFT 工程領域最重要的基礎設施升級。

ILP 不只是這篇論文的發現,它是整個后訓練研究范式的起點。

未來的研究議程

基于對 ILP 框架的完整理解,我列出未來研究中應該優先推動的方向:

Tier 1(高優先級,1-2 年內有望突破)

  • 未知根因的發現與驗證——論文已確定的 3%樣本

  • 自由文本 pass@N 檢測——替代 MC 轉換的局限性

  • ILP 檢測的標準化工具——讓檢測流程可以一鍵運行

Tier 2(中優先級,2-3 年內有望突破)

  • 多根因樣本的聯合歸因與修復策略

  • CPT 數據選擇的精細化——自動尋找最優語料

  • ILP 在 RLHF/DPO 中的推廣

Tier 3(長期目標,3 年以上)

  • ILP 與 AI 安全交叉——未對齊樣本檢測

  • 預訓練階段 ILP——大模型在預訓練階段的“”不完全學習“”

  • 跨模態 ILP——視覺語言對齊中的未學習現象

對研究社區的建議

ILP 的出現,讓 SFT 研究從“怎么做更好”進入了“為什么沒做好”的階段。這個范式轉變需要社區共同努力:

建立 ILP 的通用 benchmark:統一的檢測標準、歸因標準、評估標準,讓不同研究的成果可以公平比較

開發 ILP 的開源工具包:包括 MC 轉換、pass@5 檢測、2x2 歸因矩陣、干預方案驗證等模塊

共享根因分布數據:不同領域、不同模型、不同數據集上的根因分布數據,幫助社區建立更完整的 ILP 認知地圖

這是一條新的研究道路,但不是最后一條。


論文: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models 會議: ACL 2026 | 單位: 騰訊混元 與 UNSW arXiv: https://arxiv.org/abs/2604.10079


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯:荷蘭點球3-4無緣16強!創隊史最差戰績 摩洛哥踢加拿大

世界杯:荷蘭點球3-4無緣16強!創隊史最差戰績 摩洛哥踢加拿大

念洲
2026-06-30 11:55:27
女籃功臣終身未婚,26歲強制退役,病逝時還穿著隊服

女籃功臣終身未婚,26歲強制退役,病逝時還穿著隊服

樂趣紀史
2026-06-30 19:22:34
趙繼偉地位改變,世預賽郭士強確立三大核心,首發陣容呼之欲出

趙繼偉地位改變,世預賽郭士強確立三大核心,首發陣容呼之欲出

徐觳解說
2026-07-01 00:38:18
WTT大冷門,王曼昱被橫掃,誕生3個意想不到,打削球還看孫穎莎

WTT大冷門,王曼昱被橫掃,誕生3個意想不到,打削球還看孫穎莎

南海浪花
2026-07-01 10:21:49
韓旭WNBA總裁杯第2冠!自由人力克王牌加冕 斯圖爾特MVP

韓旭WNBA總裁杯第2冠!自由人力克王牌加冕 斯圖爾特MVP

醉臥浮生
2026-07-01 09:25:44
黎巴嫩真主黨真不經打:經營近二十年的博福特嶺,幾小時就陷落

黎巴嫩真主黨真不經打:經營近二十年的博福特嶺,幾小時就陷落

民間馬后炮
2026-06-29 01:51:44
不統而統!社科院專家首提新概念,或成兩岸統一“第三條路”?

不統而統!社科院專家首提新概念,或成兩岸統一“第三條路”?

時光漫游志
2026-06-30 06:34:18
世界杯“點球之王”爆冷出局!德國曾在12碼罰球點“打遍群雄無敵手”

世界杯“點球之王”爆冷出局!德國曾在12碼罰球點“打遍群雄無敵手”

上游新聞
2026-06-30 13:32:37
日本贏不了巴西,問題不出在技術,出在最后5分鐘

日本贏不了巴西,問題不出在技術,出在最后5分鐘

樂樂哥
2026-06-30 13:24:51
科里納談德國進球被吹:進攻球員沒有奔球而去,干擾防守就是犯規

科里納談德國進球被吹:進攻球員沒有奔球而去,干擾防守就是犯規

懂球帝
2026-07-01 10:13:28
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

細說職場
2026-06-24 10:55:30
姆巴佩:我不會看射手榜,相信梅西還會繼續進球

姆巴佩:我不會看射手榜,相信梅西還會繼續進球

懂球帝
2026-07-01 08:37:30
馬伊琍帶火了一種“極簡風”穿法:白T恤+黑半裙,時髦減齡還高級

馬伊琍帶火了一種“極簡風”穿法:白T恤+黑半裙,時髦減齡還高級

蓓小西
2026-07-01 10:07:49
世界杯:英格蘭vs剛果(金)

世界杯:英格蘭vs剛果(金)

足球賽事交流解析
2026-07-01 09:00:03
4年2400萬美金!尼克斯第2筆簽約達成!冠軍中鋒成搶手貨

4年2400萬美金!尼克斯第2筆簽約達成!冠軍中鋒成搶手貨

世界體育圈
2026-06-30 16:51:23
74個國家免簽,唯獨讓中國交五倍簽證費,選亞運會開幕前何意味?

74個國家免簽,唯獨讓中國交五倍簽證費,選亞運會開幕前何意味?

深析古今
2026-06-30 13:54:46
美國大滿貫:首個冷門誕生,2大世界冠軍出局,王曼昱大戰佐藤瞳

美國大滿貫:首個冷門誕生,2大世界冠軍出局,王曼昱大戰佐藤瞳

瀲滟晴方DAY
2026-06-30 14:11:15
王晶沒說謊,58歲久居日本農村的鄭伊健,印證了他的評價

王晶沒說謊,58歲久居日本農村的鄭伊健,印證了他的評價

陳意小可愛
2026-06-20 15:03:28
降維打擊到底有多恐怖 看網友講述 原來換個招數可以這樣玩學到了

降維打擊到底有多恐怖 看網友講述 原來換個招數可以這樣玩學到了

侃神評故事
2026-06-30 18:15:03
日本沒料到,模擬攻擊遼寧艦會惹這么大麻煩,中俄轟炸機都出動了

日本沒料到,模擬攻擊遼寧艦會惹這么大麻煩,中俄轟炸機都出動了

半壁胭脂色
2026-07-01 07:31:46
2026-07-01 12:11:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12598文章數 51963關注度
往期回顧 全部

教育要聞

教育孩子沒有應該

頭條要聞

老人獲幫助后車禍去世 孫子:視頻里他笑得合不攏嘴

頭條要聞

老人獲幫助后車禍去世 孫子:視頻里他笑得合不攏嘴

體育要聞

德國足球,臉都不要了

娛樂要聞

羅晉大孤山素顏照,禿頂白發引熱議

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

科技要聞

美國放行,Anthropic兩款頂級模型將恢復

汽車要聞

奇瑞風云A9探店 五個理由一定來看看

態度原創

本地
數碼
房產
手機
公開課

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

數碼要聞

三星首款AI眼鏡Galaxy Glasses曝光:支持Ring戒指手勢控制

房產要聞

突發!萬億資本巨頭,悄悄殺入海棠灣!

手機要聞

紅米K90至尊版體驗:主動散熱很贊,玩游戲很爽的一款機子

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版