亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型SFT后效果≠RL潛力!港科大、阿里提出自適應(yīng)冷啟動(dòng)新范式

0
分享至



本文第一作者是來(lái)自香港科技大學(xué)的博士生李欣然,并由胡張廣達(dá)、廈門大學(xué)沈思淇副教授、阿里集團(tuán)陳慶國(guó)、徐昭、駱衛(wèi)華、張凱夫和香港科技大學(xué)張軍教授合作完成。

自 2025 年以來(lái),強(qiáng)化學(xué)習(xí)(RL)逐漸成為了大語(yǔ)言模型(LLM)后訓(xùn)練(Post-training)階段的默認(rèn)范式。大量研究與實(shí)踐表明:不依賴海量人工標(biāo)注,僅靠 RL 就能激發(fā)出模型令人驚嘆的復(fù)雜推理和長(zhǎng)思維鏈(Long-CoT)能力,甚至賦予了模型達(dá)成超人類表現(xiàn)的潛力。

然而,盡管強(qiáng)化學(xué)習(xí)范式提供了極高的理論上限,許多研究者和開(kāi)發(fā)者在復(fù)現(xiàn) RL 訓(xùn)練時(shí)卻遭遇了現(xiàn)實(shí)的問(wèn)題:如果直接把一個(gè)普通的基座模型扔給強(qiáng)化學(xué)習(xí)算法,由于缺乏方向性的引導(dǎo),RL 算法往往會(huì)像個(gè)無(wú)頭蒼蠅一樣亂撞,在有限的步數(shù)內(nèi)根本探索不出正確的推理路徑。

為了解決這個(gè)問(wèn)題,目前的標(biāo)準(zhǔn)做法是:在 RL 之前,先用少量的優(yōu)質(zhì)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT),給模型做一個(gè)「冷啟動(dòng)(Cold-start)」熱身,以此提高 RL 階段的效率。

但這又引出了一個(gè)極具爭(zhēng)議的新問(wèn)題:冷啟動(dòng) SFT 到底要訓(xùn)練到什么程度?SFT 的分?jǐn)?shù)越高,后續(xù)的 RL 效果就一定越好嗎?

近期,來(lái)自香港科技大學(xué)、阿里巴巴以及廈門大學(xué)的研究團(tuán)隊(duì),聯(lián)合發(fā)表了一項(xiàng)已被ICLR 2026接收的重磅研究。他們首次揭示了 SFT 冷啟動(dòng)階段的一個(gè)「致命陷阱」——冷啟后表現(xiàn)最好的 Checkpoint,往往并不對(duì)應(yīng)最大的強(qiáng)化學(xué)習(xí)潛力

研究團(tuán)隊(duì)指出,想要模型最終在后訓(xùn)練整體效果達(dá)到最佳,SFT 冷啟階段就不應(yīng)過(guò)度追求測(cè)試集準(zhǔn)確率,而必須兼顧準(zhǔn)確率與多樣性(Diversity)?;诖?,團(tuán)隊(duì)提出了一種全新的自適應(yīng)早停損失函數(shù)(AESL),為大模型的 RL 訓(xùn)練打造了最完美的起跑線。

目前,該論文的代碼已全面開(kāi)源。



  • 論文標(biāo)題:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
  • 論文鏈接:https://openreview.net/pdf?id=yezWGJmODg
  • 代碼主頁(yè):https://github.com/LXXXXR/AESL

一個(gè)反直覺(jué)的真相:

「好學(xué)生」反而跑不遠(yuǎn)?

在傳統(tǒng)認(rèn)知里,SFT 的目標(biāo)是讓模型完美模仿訓(xùn)練數(shù)據(jù)。損失(Loss)越低、準(zhǔn)確率越高,說(shuō)明學(xué)得越好。但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)極度反直覺(jué)的現(xiàn)象:把 SFT 階段評(píng)估性能最好的 Checkpoint 拿去跑 RL,最終成績(jī)往往不是最好的,甚至?xí)雇耍?/strong>

為什么會(huì)「南轅北轍」?

研究人員指出,這主要是因?yàn)?strong>「作為 RL 冷啟動(dòng)的 SFT」與「單純的 SFT」在核心目標(biāo)上存在根本分歧。

在以往只依靠 SFT 的后訓(xùn)練范式中,目的是盡可能多地從數(shù)據(jù)集中學(xué)習(xí),且數(shù)據(jù)集往往充足且豐富,因此傳統(tǒng)的交叉熵(CE)損失完美契合這一目標(biāo)。但在作為 RL 準(zhǔn)備的冷啟動(dòng)階段,情況發(fā)生了變化:

  • 數(shù)據(jù)量有限:過(guò)度優(yōu)化會(huì)導(dǎo)致模型過(guò)擬合(Overfit),變成單純「背誦」小數(shù)據(jù)集。
  • 探索與利用的失衡:RL 算法的成功高度依賴于「探索(Exploration)」與「利用(Exploitation)」的平衡。如果模型在進(jìn)入 RL 階段之前就丟失了輸出的多樣性,RL 階段就會(huì)因?yàn)樘剿骺臻g不足,導(dǎo)致最終效果大打折扣。

我們可以打個(gè)比方:基座模型就像是一個(gè)充滿想象力但缺乏解題套路的孩子。SFT 冷啟動(dòng)的目的,是為了教他一些基本的解題格式(比如長(zhǎng)思維鏈的思考模式)。但是,如果 SFT 訓(xùn)練過(guò)度,傳統(tǒng)的交叉熵?fù)p失函數(shù)會(huì)強(qiáng)迫模型「死記硬背」演示數(shù)據(jù)中的每一個(gè)細(xì)節(jié)。模型雖然學(xué)會(huì)了套路,卻丟失了原本豐富的知識(shí)分布和生成多樣性。當(dāng)這個(gè)「做題機(jī)器」進(jìn)入 RL 階段時(shí),它已失去探索新路徑的能力,RL 的上限就被死死鎖住了。



圖1:研究團(tuán)隊(duì)發(fā)現(xiàn),隨著 SFT 步數(shù)的增加,模型在驗(yàn)證集上的性能(黃線)還在上升,但經(jīng)過(guò) RL 訓(xùn)練后的最終潛力(藍(lán)線)卻早早開(kāi)始下滑。

破局關(guān)鍵:

尋找「多樣性」的黃金拐點(diǎn)

既然準(zhǔn)確率不能作為 SFT 冷啟動(dòng)停止的標(biāo)準(zhǔn),那我們?cè)摽词裁矗?/p>

研究團(tuán)隊(duì)將目光投向了「輸出多樣性」,追蹤了模型在冷啟動(dòng)訓(xùn)練過(guò)程中的熵(Entropy)和 self-BLEU 分?jǐn)?shù)。

奇妙的現(xiàn)象出現(xiàn)了:在 SFT 的早期,模型在學(xué)習(xí)新推理格式的同時(shí),還保留著基座的原始知識(shí),此時(shí)模型的多樣性會(huì)達(dá)到一個(gè)峰值。而隨著訓(xùn)練繼續(xù),模型開(kāi)始過(guò)擬合,多樣性迅速暴跌。

這個(gè)多樣性的「黃金拐點(diǎn)」,恰恰就對(duì)應(yīng)著模型 RL 潛力的最高點(diǎn)!





冷啟動(dòng)過(guò)程中的多樣性指標(biāo)變化。多樣性達(dá)到頂峰的時(shí)刻,正是開(kāi)啟 RL 訓(xùn)練的最佳時(shí)機(jī)。

基于這一洞察,最簡(jiǎn)單的改進(jìn)方法就是「基于多樣性早停(Diversity-based Early Stopping)」。但這還不夠完美,因?yàn)椤敢坏肚小沟娜衷缤:雎粤艘粋€(gè)事實(shí):模型對(duì)不同 Token 和不同上下文的掌握速度是完全不同的。

AESL:深入大模型

「毛細(xì)血管」的自適應(yīng)冷啟動(dòng)

為了實(shí)現(xiàn)更靈活、更極致的冷啟動(dòng),研究團(tuán)隊(duì)改進(jìn)了傳統(tǒng)的交叉熵?fù)p失,提出了一種全新的輕量級(jí)訓(xùn)練目標(biāo)——自適應(yīng)早停損失(Adaptive Early-Stop Loss,簡(jiǎn)稱 AESL)。

AESL 的核心數(shù)學(xué)表達(dá)如下:



其中的自適應(yīng)權(quán)重定義為:



AESL 的核心哲學(xué)是「因材施教」:它不再盲目要求模型在所有地方都完美擬合演示數(shù)據(jù),而是在 Token 和子序列(Subsequence)兩個(gè)微觀層面上,動(dòng)態(tài)調(diào)節(jié)學(xué)習(xí)的力度。

  • Token 級(jí)別的調(diào)控

生成每個(gè)詞時(shí),如果模型當(dāng)前預(yù)測(cè)概率已經(jīng)很高,AESL 會(huì)自動(dòng)降低該 Token 的損失權(quán)重。就像告訴模型:「這道題你已經(jīng)會(huì)了,不用反復(fù)抄寫,保留你原本的直覺(jué)吧?!惯@有效防止了對(duì)特定詞匯的過(guò)擬合。

  • Subsequence 級(jí)別的調(diào)控

AESL 會(huì)實(shí)時(shí)計(jì)算當(dāng)前生成前綴的平均置信度。如果前半句話已經(jīng)非常符合目標(biāo)分布,AESL 會(huì)在后續(xù)生成中放寬限制。就像走迷宮:前面走對(duì)了方向,后面就可以大膽探索;前面不確定,后面就老實(shí)跟著指示走。

通過(guò)這種精細(xì)的動(dòng)態(tài)平衡,AESL 成功地讓模型在「學(xué)會(huì)長(zhǎng)思維鏈推理模式」和「保留基座原始探索能力」之間,找到了完美的平衡點(diǎn)。

以退為進(jìn):更優(yōu)的 RL 后性能

研究團(tuán)隊(duì)在極具挑戰(zhàn)性的數(shù)學(xué)推理任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。選用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作為基座,在 AIME 24/25、AMC 23、MATH-500 等榜單上進(jìn)行了測(cè)試。

結(jié)果令人振奮:無(wú)論是在哪種基座模型上,使用 AESL 作為冷啟動(dòng)策略,其后續(xù)經(jīng)過(guò) RL 訓(xùn)練的最終性能,全面碾壓了直接 RL、標(biāo)準(zhǔn) CE 損失 SFT 以及現(xiàn)有的其他前沿方法。AESL 真正做到了「贏在起跑線」。



在 Qwen2.5 系列模型上,AESL + RL 的組合在各項(xiàng)數(shù)學(xué)競(jìng)賽級(jí)榜單中均取得了最高平均分。

此外,研究團(tuán)隊(duì)還測(cè)試了不同數(shù)據(jù)量以及不同難度數(shù)據(jù)切分下的表現(xiàn)。結(jié)果證明,無(wú)論數(shù)據(jù)多寡、無(wú)論數(shù)據(jù)難易,AESL 都能穩(wěn)定發(fā)揮,始終提供優(yōu)于傳統(tǒng)方法的 RL 潛力。



不同冷啟動(dòng)數(shù)據(jù)量下,AESL都能帶來(lái)更好的冷啟動(dòng)性能



不同冷啟動(dòng)數(shù)據(jù)難度下,AESL都能帶來(lái)更好的冷啟動(dòng)性能

結(jié)語(yǔ):重塑我們對(duì)「后訓(xùn)練」的認(rèn)知

在通往 AGI 的征程上,強(qiáng)化學(xué)習(xí)(RL)無(wú)疑是極具潛力的一條道路,因?yàn)樗哂衅渌妒剿鶝](méi)有的「超越人類本身能力」的潛力。

但比起傳統(tǒng)的監(jiān)督學(xué)習(xí),RL 的過(guò)程更加復(fù)雜,特別是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本質(zhì)上來(lái)源于模型的基礎(chǔ)能力和它產(chǎn)生多種「Educated Guess(有根據(jù)的猜測(cè))」的能力,因此保持輸出多樣性至關(guān)重要

ICLR 2026 的這項(xiàng)研究給我們敲響了警鐘:多樣性的丟失,甚至可能早于 RL 階段的開(kāi)始。因此,我們需要在后訓(xùn)練的每一個(gè)環(huán)節(jié)都對(duì)多樣性保持敬畏。

AESL 的提出,不僅僅是一個(gè)損失函數(shù)的改進(jìn),更是一次對(duì) LLM 后訓(xùn)練范式的認(rèn)知刷新。它打破了「SFT 擬合越好越好」的迷思,證明了在冷啟動(dòng)階段,「保持多樣性」比「滿分模仿」在后續(xù)的 RL 訓(xùn)練中更具長(zhǎng)期價(jià)值。

未來(lái),我們相信在從 SFT 到 RL 范式的轉(zhuǎn)變過(guò)程中,會(huì)有更多的研究去探索這兩種范式帶來(lái)的根本不同。而 AESL,無(wú)疑為這場(chǎng)探索提供了一個(gè)絕佳的起點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
愛(ài)馬仕股票開(kāi)盤時(shí)暫停交易

愛(ài)馬仕股票開(kāi)盤時(shí)暫停交易

每日經(jīng)濟(jì)新聞
2026-04-15 15:15:30
建設(shè)方急用錢,他花85萬(wàn)元買5套“工抵房”,領(lǐng)鑰匙裝修時(shí)開(kāi)發(fā)商稱多支付工程款不給交房

建設(shè)方急用錢,他花85萬(wàn)元買5套“工抵房”,領(lǐng)鑰匙裝修時(shí)開(kāi)發(fā)商稱多支付工程款不給交房

大風(fēng)新聞
2026-04-15 11:36:05
多地新能源車牌綠色變白色?有博主發(fā)布“車牌褪色”教程;交管部門:不合法

多地新能源車牌綠色變白色?有博主發(fā)布“車牌褪色”教程;交管部門:不合法

上觀新聞
2026-04-14 11:34:06
石油枯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來(lái)

石油枯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來(lái)

丁丁鯉史紀(jì)
2026-04-13 16:00:40
“月薪?jīng)]有10萬(wàn),不配娶我”40歲相親男怒懟:請(qǐng)問(wèn)你是完整的嗎?

“月薪?jīng)]有10萬(wàn),不配娶我”40歲相親男怒懟:請(qǐng)問(wèn)你是完整的嗎?

多久情感
2026-04-14 21:43:03
歐洲人在性方面有多開(kāi)放?德國(guó)再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

歐洲人在性方面有多開(kāi)放?德國(guó)再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

西樓知趣雜談
2026-03-24 14:38:30
43歲劉翔再婚10年仍無(wú)子,并非不愿生,背后隱情令人痛心!

43歲劉翔再婚10年仍無(wú)子,并非不愿生,背后隱情令人痛心!

拳擊時(shí)空
2026-04-15 06:22:38
U20女足亞洲杯半決賽賽后評(píng)球,中國(guó)vs日本

U20女足亞洲杯半決賽賽后評(píng)球,中國(guó)vs日本

酷馬西者野
2026-04-16 00:33:22
常規(guī)賽裝死,附加賽爆發(fā),狂砍27+7,不愧是輔佐庫(kù)里奪冠的男人

常規(guī)賽裝死,附加賽爆發(fā),狂砍27+7,不愧是輔佐庫(kù)里奪冠的男人

蘭亭墨未干
2026-04-15 19:16:26
別搶石油了!美高官急呼特朗普大誤判,中國(guó)砸千億布局科技已超車

別搶石油了!美高官急呼特朗普大誤判,中國(guó)砸千億布局科技已超車

詩(shī)酒趁的年華
2026-04-15 08:29:50
巴薩無(wú)能狂怒,這個(gè)賽季的西蒙尼讓他們參不透

巴薩無(wú)能狂怒,這個(gè)賽季的西蒙尼讓他們參不透

澎湃新聞
2026-04-15 12:28:28
1米7僅80多斤,女演員孟子義帶8斤重狗狗直播,僅幾秒就喊抱不動(dòng),形容自己像被抽干了

1米7僅80多斤,女演員孟子義帶8斤重狗狗直播,僅幾秒就喊抱不動(dòng),形容自己像被抽干了

極目新聞
2026-04-15 15:36:59
中國(guó)幾毛錢止瀉藥竟是“天然司美”?廉價(jià)神藥火到海外,老外瘋搶

中國(guó)幾毛錢止瀉藥竟是“天然司美”?廉價(jià)神藥火到海外,老外瘋搶

思思夜話
2026-04-15 17:56:06
美方要求伊朗暫停鈾濃縮20年遭拒絕 雙方分歧仍存

美方要求伊朗暫停鈾濃縮20年遭拒絕 雙方分歧仍存

財(cái)聯(lián)社
2026-04-16 00:24:08
狂砍41+12!NBA歷史第3!拿邊角料換全明星,5換1交易賺大了

狂砍41+12!NBA歷史第3!拿邊角料換全明星,5換1交易賺大了

毒舌NBA
2026-04-15 19:52:29
霍爾木茲大消息!剛剛,直線拉升!

霍爾木茲大消息!剛剛,直線拉升!

中國(guó)基金報(bào)
2026-04-15 19:14:00
乘聯(lián)分會(huì):4月1-12日全國(guó)乘用車市場(chǎng)零售37.7萬(wàn)輛,同比下降20%

乘聯(lián)分會(huì):4月1-12日全國(guó)乘用車市場(chǎng)零售37.7萬(wàn)輛,同比下降20%

界面新聞
2026-04-15 16:53:19
烏軍女兵淪為指揮官玩物:要么就陪睡,要么就眼睜睜看老公去死?

烏軍女兵淪為指揮官玩物:要么就陪睡,要么就眼睜睜看老公去死?

歲暮的歸南山
2026-04-16 00:40:35
美上將發(fā)出警告:中國(guó)應(yīng)該停止建造軍艦,海軍實(shí)力已經(jīng)足夠強(qiáng)大!

美上將發(fā)出警告:中國(guó)應(yīng)該停止建造軍艦,海軍實(shí)力已經(jīng)足夠強(qiáng)大!

可樂(lè)愛(ài)微笑
2026-04-16 00:43:31
2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

蔥哥說(shuō)
2026-04-14 22:04:16
2026-04-16 01:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142629關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美航母及1萬(wàn)多士兵將抵中東 特朗普:戰(zhàn)爭(zhēng)或持續(xù)至11月

頭條要聞

美航母及1萬(wàn)多士兵將抵中東 特朗普:戰(zhàn)爭(zhēng)或持續(xù)至11月

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

旅游
藝術(shù)
本地
公開(kāi)課
軍事航空

旅游要聞

遼寧大連星海灣廣場(chǎng),135萬(wàn)元承包給私人旅拍:野生攝影師被驅(qū)趕

藝術(shù)要聞

看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動(dòng)不已!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

萬(wàn)斯:對(duì)當(dāng)前美伊局勢(shì)進(jìn)展“感到樂(lè)觀”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版