无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南加州大學(xué)的AI研究團(tuán)隊(duì)如何讓"模仿學(xué)習(xí)"變得更聰明

0
分享至


這項(xiàng)研究來(lái)自南加州大學(xué)(University of Southern California)的三位研究人員,論文于2026年6月發(fā)表,ArXiv編號(hào)為2606.05152。有興趣深入了解的讀者可以通過(guò)該編號(hào)在ArXiv平臺(tái)查詢完整論文。

當(dāng)下,人工智能領(lǐng)域流行著一種訓(xùn)練方法:讓模型生成很多答案,再告訴它哪些是對(duì)的、哪些是錯(cuò)的,通過(guò)不斷試錯(cuò)來(lái)進(jìn)步。這就像是一個(gè)學(xué)生反復(fù)做題,只有最后一道判斷題告訴他"全對(duì)"或"全錯(cuò)",卻從不告訴他哪一步推理出了問(wèn)題。這種方式在很多場(chǎng)景下效果不錯(cuò),但也存在明顯的局限。

南加州大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的"強(qiáng)化學(xué)習(xí)"訓(xùn)練方式就像一個(gè)只會(huì)打分、從不給詳細(xì)批語(yǔ)的老師:每次都等學(xué)生把整道題做完,只給一個(gè)最終分?jǐn)?shù),而不告訴學(xué)生哪句話說(shuō)錯(cuò)了、哪步推理跑偏了。在數(shù)學(xué)解題、代碼編寫(xiě)或科學(xué)推理這些領(lǐng)域,這種粗放式的反饋導(dǎo)致了一個(gè)令人頭疼的問(wèn)題——AI很難知道它是因?yàn)榈谌酵评沓鲥e(cuò)而最終答錯(cuò)的,還是因?yàn)榈谝徊骄瓦x錯(cuò)了方向。

正是為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練框架,命名為**DistIL**(Distributional Imitation Learning,分布式模仿學(xué)習(xí)),并通過(guò)嚴(yán)格的數(shù)學(xué)證明和大量實(shí)驗(yàn)驗(yàn)證了它的有效性。這篇文章將帶你完整理解這個(gè)研究背后的故事——從"老師說(shuō)了算"的傳統(tǒng)方式,到"聰明模仿"帶來(lái)的真正進(jìn)步。

一、為什么現(xiàn)在的AI訓(xùn)練方式像個(gè)"粗心批卷老師"

要理解這項(xiàng)研究,先得明白AI是怎么被訓(xùn)練出來(lái)的。目前最主流的方式叫做"強(qiáng)化學(xué)習(xí)"(Reinforcement Learning),或者更具體地說(shuō),叫做"基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"(RLVR)。

可以把這個(gè)過(guò)程想象成這樣:AI學(xué)生每次解一道數(shù)學(xué)題,寫(xiě)出一整篇解答過(guò)程,然后有一個(gè)評(píng)分系統(tǒng)檢查最終答案對(duì)不對(duì),給出"1分(正確)"或"0分(錯(cuò)誤)"。這個(gè)分?jǐn)?shù)會(huì)被均勻地"攤"到整篇解答的每一個(gè)字上,無(wú)論哪句話實(shí)際上貢獻(xiàn)了多少。

這里暗藏著一個(gè)巨大的問(wèn)題。假設(shè)AI寫(xiě)了一百個(gè)字的解題過(guò)程,其中第八十個(gè)字寫(xiě)錯(cuò)了導(dǎo)致最終答案出錯(cuò),但評(píng)分系統(tǒng)只會(huì)告訴整篇文章"這次錯(cuò)了"。于是第一個(gè)字到第七十九個(gè)字都收到了同樣的"錯(cuò)誤"信號(hào),盡管它們可能寫(xiě)得非常好。這種"一竿子打翻一船人"的反饋方式,在研究者的語(yǔ)言里叫做"信用分配困難"——系統(tǒng)搞不清楚到底應(yīng)該把功勞或過(guò)失歸給哪一步。

還有另一個(gè)問(wèn)題:當(dāng)AI每次都全對(duì)或全錯(cuò)時(shí),訓(xùn)練系統(tǒng)就徹底失去方向感了。全對(duì)意味著沒(méi)什么可學(xué)的,全錯(cuò)意味著不知道從哪里改起。這在很難的題目上尤其棘手——AI從未做對(duì)過(guò)一道題,那RLVR方法就永遠(yuǎn)沒(méi)有正向反饋可以利用。

好消息是,現(xiàn)實(shí)中往往存在比"對(duì)或錯(cuò)"更豐富的信息。代碼運(yùn)行后會(huì)產(chǎn)生報(bào)錯(cuò)信息,告訴你哪里語(yǔ)法出了問(wèn)題;數(shù)學(xué)題有參考解答可以逐步對(duì)照;科學(xué)問(wèn)題可以有人工批注指出推理漏洞。這些"富反饋"信息遠(yuǎn)比一個(gè)簡(jiǎn)單的0/1信號(hào)有價(jià)值,但如何有效利用它們,一直是個(gè)難題。

于是,研究界開(kāi)始探索一種叫做"自蒸餾"的方法:讓同一個(gè)AI模型在看到反饋信息(比如正確答案)后扮演"老師",再讓沒(méi)有看到反饋信息的同一個(gè)模型扮演"學(xué)生",然后讓學(xué)生去模仿老師。這就好比一個(gè)人分飾兩角——左手看著答案解題,右手在沒(méi)看答案的情況下嘗試達(dá)到同樣的效果。

兩種典型的自蒸餾方法由此出現(xiàn):SDPO(使用"反向KL散度"作為衡量老師和學(xué)生差距的尺子)和OPSD(使用"詹森-香農(nóng)散度"作為那把尺子)。它們的共同思路是:先讓學(xué)生自己做題,然后測(cè)量學(xué)生的回答和看過(guò)答案的老師的回答之間的差距,再根據(jù)這個(gè)差距來(lái)調(diào)整學(xué)生的學(xué)習(xí)方向。

然而,南加州大學(xué)的研究團(tuán)隊(duì)仔細(xì)分析后發(fā)現(xiàn),這兩種方法存在兩個(gè)根本性的缺陷——即便理論上老師比學(xué)生答得更好,這些方法也可能把學(xué)生引向錯(cuò)誤的方向。

二、看似合理卻暗藏陷阱:現(xiàn)有方法的兩大致命問(wèn)題

第一個(gè)問(wèn)題涉及"學(xué)習(xí)方向"。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)證明揭示了一個(gè)反直覺(jué)的事實(shí):即使老師的平均成績(jī)比學(xué)生高,使用反向KL散度或詹森-香農(nóng)散度來(lái)縮小師生差距,也可能導(dǎo)致學(xué)生在某些題目上反而退步,甚至提高了做錯(cuò)題的概率。

這個(gè)結(jié)論用一個(gè)具體例子來(lái)理解會(huì)更清晰。假設(shè)有三種答題策略:優(yōu)秀策略(得分1)、平庸策略(得分0.5)和糟糕策略(得分0)。老師偏愛(ài)優(yōu)秀策略,但比學(xué)生更少使用平庸策略。這時(shí),反向KL散度更新會(huì)認(rèn)為學(xué)生對(duì)平庸策略"過(guò)度依賴",于是努力糾正這一點(diǎn)。但糾正的過(guò)程中,由于概率必須歸一(所有策略的概率之和等于1),減少對(duì)平庸策略的依賴可能導(dǎo)致糟糕策略的概率悄悄上升。這就像在調(diào)整三個(gè)水龍頭的流量時(shí),把中間那個(gè)水龍頭關(guān)小了,結(jié)果反而讓最差的那個(gè)水龍頭流量變大了。

研究團(tuán)隊(duì)不僅從理論上證明了這種情況存在,還構(gòu)造了一個(gè)具體的三臂賭博機(jī)實(shí)例來(lái)驗(yàn)證:老師在平均得分上比學(xué)生高出一定差距,但經(jīng)過(guò)反向KL梯度更新后,學(xué)生的預(yù)期得分反而下降了。這說(shuō)明,"老師比學(xué)生好"并不足以保證"向老師學(xué)習(xí)就會(huì)變好"——學(xué)習(xí)的方向必須本身就與獎(jiǎng)勵(lì)對(duì)齊。

第二個(gè)問(wèn)題涉及"信用歸屬"。SDPO和OPSD在計(jì)算梯度時(shí),用了一種數(shù)學(xué)上的簡(jiǎn)化手段:他們只看當(dāng)前那個(gè)詞語(yǔ)(token)上老師和學(xué)生的差距,卻忽略了"選擇這個(gè)詞語(yǔ)會(huì)如何影響后續(xù)所有步驟中的師生差距"。

可以用一個(gè)走迷宮的比喻來(lái)理解。你在迷宮的第一個(gè)路口做了選擇,這個(gè)選擇決定了你后來(lái)會(huì)遇到哪些岔路。如果你走了左邊,你后來(lái)可能會(huì)遇到一個(gè)很難的岔路,在那里老師的選擇和你的選擇差距很大。但如果你走了右邊,就不會(huì)遇到那個(gè)難的岔路,師生之間也沒(méi)什么分歧。那么,第一個(gè)路口的選擇是否重要?當(dāng)然重要,因?yàn)樗鼪Q定了后續(xù)差距的出現(xiàn)。然而,SDPO和OPSD的簡(jiǎn)化方法在對(duì)第一個(gè)路口的選擇進(jìn)行評(píng)分時(shí),完全沒(méi)有考慮到這個(gè)路口的選擇會(huì)帶來(lái)的"未來(lái)后果"——它們只看"此時(shí)此地"的差距,忘記了"前因后果"。

研究團(tuán)隊(duì)同樣通過(guò)數(shù)學(xué)證明展示了這個(gè)問(wèn)題的后果:在一個(gè)簡(jiǎn)單的兩步?jīng)Q策場(chǎng)景中,采用局部信用分配方法最終學(xué)到的策略,預(yù)期得分只有1/3;而采用完整的序列級(jí)信用分配,可以學(xué)到預(yù)期得分為2/5的更好策略。看起來(lái)差距不大,但這只是一個(gè)極簡(jiǎn)化的模型——在真實(shí)的復(fù)雜推理場(chǎng)景中,這種差距會(huì)被放大很多倍。

這兩個(gè)問(wèn)題合在一起,解釋了為什么現(xiàn)有的自蒸餾方法在很多場(chǎng)景下表現(xiàn)不穩(wěn)定,甚至?xí)谟?xùn)練到一半時(shí)突然開(kāi)始退步。研究團(tuán)隊(duì)在實(shí)驗(yàn)中也觀察到了這種現(xiàn)象:SDPO在生物學(xué)推理任務(wù)上,訓(xùn)練進(jìn)行到約100步時(shí),最佳表現(xiàn)突然大幅下滑。

三、DistIL:用"前向交叉熵"打造更聰明的模仿學(xué)習(xí)

針對(duì)上述兩個(gè)問(wèn)題,南加州大學(xué)的團(tuán)隊(duì)設(shè)計(jì)了DistIL,其核心思想來(lái)自一個(gè)經(jīng)典的模仿學(xué)習(xí)框架——DAgger(Dataset Aggregation)。

DAgger的原始思想是:讓學(xué)生自己走路,遇到每個(gè)狀態(tài)時(shí)就問(wèn)專(zhuān)家"在這種情況下,你會(huì)怎么做?"然后讓學(xué)生向?qū)<铱待R。關(guān)鍵是,學(xué)生遇到的是自己走出來(lái)的路上的狀態(tài),而不是專(zhuān)家走出來(lái)的路上的狀態(tài)。這很重要,因?yàn)閷W(xué)生和專(zhuān)家的行為習(xí)慣不同,他們遇到的場(chǎng)景也會(huì)不同。如果只在專(zhuān)家遇到的場(chǎng)景上學(xué)習(xí),等學(xué)生真的上路時(shí),可能會(huì)遇到很多從未訓(xùn)練過(guò)的情況。

DistIL把這個(gè)思想"分布化"了:不是讓專(zhuān)家在某個(gè)狀態(tài)給出一個(gè)具體行動(dòng),而是給出整個(gè)行動(dòng)的概率分布——專(zhuān)家不說(shuō)"你應(yīng)該說(shuō)這個(gè)詞",而是說(shuō)"在這種情況下,各個(gè)詞語(yǔ)的概率應(yīng)該是這樣的"。然后學(xué)生用一種叫做"前向交叉熵"的目標(biāo)函數(shù)來(lái)向?qū)<曳植伎繑n。

為什么是"前向交叉熵"而不是反向KL散度?這里有個(gè)關(guān)鍵區(qū)別。前向交叉熵(Forward Cross-Entropy)的計(jì)算方式是:按照老師對(duì)各個(gè)選項(xiàng)的重視程度,加權(quán)來(lái)衡量學(xué)生的表現(xiàn)——老師覺(jué)得重要的選項(xiàng),學(xué)生沒(méi)做好就扣更多分。反向KL散度則是反過(guò)來(lái):按照學(xué)生自己對(duì)各個(gè)選項(xiàng)的重視程度來(lái)衡量差距——學(xué)生自己覺(jué)得重要的選項(xiàng),和老師差距大就扣分。

這個(gè)區(qū)別導(dǎo)致了截然不同的學(xué)習(xí)方向。前向交叉熵迫使學(xué)生向老師的分布移動(dòng),使更新方向天然地與獎(jiǎng)勵(lì)改進(jìn)對(duì)齊——因?yàn)槔蠋煴葘W(xué)生好,所以往老師的方向走就是在往更高獎(jiǎng)勵(lì)的方向走。反向KL則受制于學(xué)生自身對(duì)選項(xiàng)重視程度的扭曲,可能導(dǎo)致學(xué)習(xí)方向偏離獎(jiǎng)勵(lì)改進(jìn)的方向。

DistIL的另一個(gè)創(chuàng)新在于它如何計(jì)算梯度。研究團(tuán)隊(duì)沒(méi)有采用只看"此時(shí)此地"的局部梯度,而是完整地計(jì)算了整個(gè)序列的梯度。這意味著,第一個(gè)詞語(yǔ)上的更新,會(huì)同時(shí)考慮"如果我在這里選了這個(gè)詞,后續(xù)所有步驟中老師和學(xué)生之間的差距會(huì)有多大"。在數(shù)學(xué)形式上,完整梯度分成了兩部分:一部分是"局部信用分配",即當(dāng)前詞語(yǔ)上老師和學(xué)生的直接差異;另一部分是"未來(lái)信用分配",即當(dāng)前詞語(yǔ)的選擇對(duì)后續(xù)所有步驟師生差距的貢獻(xiàn)。這兩部分合在一起,才構(gòu)成了完整的、能夠正確評(píng)價(jià)每一步?jīng)Q策價(jià)值的學(xué)習(xí)信號(hào)。

在實(shí)際操作上,DistIL還有一個(gè)實(shí)用優(yōu)勢(shì):它不需要能訪問(wèn)老師的具體概率值,只需要能從老師那里采樣——也就是說(shuō),即使老師是一個(gè)完全黑箱的外部系統(tǒng)(比如人類(lèi)專(zhuān)家或者另一個(gè)不開(kāi)源的模型),DistIL同樣可以工作。相比之下,SDPO要求能獲取老師的概率輸出,這在實(shí)際應(yīng)用中往往是個(gè)限制。

四、理論保證:三重?cái)?shù)學(xué)承諾

DistIL不僅在直覺(jué)上更合理,研究團(tuán)隊(duì)還從三個(gè)不同角度給出了嚴(yán)格的數(shù)學(xué)證明,確保它在理論上也是可靠的。

第一重保證是"單調(diào)改進(jìn)"。在一定的條件下(具體是說(shuō),老師和學(xué)生的差距在局部可以被學(xué)生的模型類(lèi)所表達(dá)),DistIL的每一步自然梯度更新都能保證學(xué)生的預(yù)期得分提高。更精確地說(shuō),每次更新后的得分提升量近似等于"老師比學(xué)生好多少"乘以"學(xué)習(xí)率"。這意味著只要老師比學(xué)生強(qiáng),每一步更新都是向好的方向走,不會(huì)出現(xiàn)反向KL那種"老師更好卻把學(xué)生越訓(xùn)越差"的情況。

第二重保證是"遺憾界限"。研究團(tuán)隊(duì)證明,在一定假設(shè)下(主要是老師和學(xué)生的策略之間覆蓋關(guān)系有限),DistIL經(jīng)過(guò)n輪訓(xùn)練后返回的策略,與老師策略的差距會(huì)以大約n的負(fù)四分之一次方的速度縮小(當(dāng)老師策略本身有較高隨機(jī)性時(shí)),或者以n的負(fù)二分之一次方的速度縮小(當(dāng)老師策略接近確定性時(shí))。用更通俗的語(yǔ)言說(shuō):訓(xùn)練輪數(shù)越多,學(xué)生就越接近老師,而且這個(gè)收斂是有數(shù)學(xué)保證的,而不只是實(shí)驗(yàn)中觀察到的現(xiàn)象。遺憾界限的大小還受到兩個(gè)關(guān)鍵參數(shù)的影響:一是老師策略的"隨機(jī)性程度"(老師對(duì)同一道題會(huì)給出差異多大的解法),二是"可恢復(fù)性"(偏離老師一步之后還能不能追上來(lái))。老師越確定、環(huán)境越寬容,學(xué)習(xí)就越容易。

第三重保證是"成功概率下界"。研究團(tuán)隊(duì)發(fā)現(xiàn),最小化前向交叉熵,實(shí)際上在最大化一個(gè)被老師成功概率加權(quán)過(guò)的學(xué)生成功對(duì)數(shù)概率的下界。這個(gè)聽(tīng)起來(lái)拗口的結(jié)論,有一個(gè)非常直接的實(shí)踐意義:前向交叉熵的最小化,天然地更關(guān)注那些老師能夠做對(duì)的題目,并努力讓學(xué)生在那些題目上的成功概率提高。這與近年來(lái)一些關(guān)于"最大似然強(qiáng)化學(xué)習(xí)"的研究結(jié)論相呼應(yīng)——最大化成功軌跡的對(duì)數(shù)似然,能夠改善Pass@N(在N次嘗試中至少有一次成功的概率)這個(gè)指標(biāo),對(duì)任意N都成立。反向KL散度則沒(méi)有這個(gè)性質(zhì)——研究團(tuán)隊(duì)也給出了反例證明這一點(diǎn)。

五、實(shí)驗(yàn)驗(yàn)證:在三類(lèi)場(chǎng)景中全面超越對(duì)手

理論再漂亮,也需要實(shí)驗(yàn)來(lái)說(shuō)話。研究團(tuán)隊(duì)在三類(lèi)截然不同的場(chǎng)景中測(cè)試了DistIL,每類(lèi)場(chǎng)景都代表了不同的反饋豐富程度。

第一類(lèi)場(chǎng)景是"科學(xué)推理",使用了SciKnowEval這個(gè)數(shù)據(jù)集,包含大學(xué)水平的化學(xué)、物理、生物和材料科學(xué)題目。在這個(gè)場(chǎng)景中,反饋相對(duì)稀疏——沒(méi)有額外的解題提示,只有模型自己做對(duì)的那些答案可以用作參考。研究團(tuán)隊(duì)在Qwen3-8B和OLMo3-7B-Instruct兩個(gè)模型上分別測(cè)試,將DistIL與SDPO、在線GRPO和離線GRPO進(jìn)行比較,并以墻鐘時(shí)間(實(shí)際訓(xùn)練耗時(shí))而不是訓(xùn)練步數(shù)來(lái)衡量效率。

結(jié)果顯示,DistIL在絕大多數(shù)列(即不同學(xué)科和不同訓(xùn)練時(shí)長(zhǎng)的組合)上取得了最好的Avg@16分?jǐn)?shù)(即從16次嘗試中取平均正確率)。最大的提升出現(xiàn)在物理和化學(xué)領(lǐng)域:Qwen3-8B上,物理成績(jī)領(lǐng)先第二名8.1個(gè)百分點(diǎn);OLMo3上,物理成績(jī)領(lǐng)先9.6個(gè)百分點(diǎn)。從訓(xùn)練過(guò)程圖像來(lái)看,DistIL大約在訓(xùn)練20步時(shí)就開(kāi)始領(lǐng)先,并且這種領(lǐng)先基本保持穩(wěn)定,而SDPO則在訓(xùn)練后期出現(xiàn)了明顯的震蕩甚至下滑。

第二類(lèi)場(chǎng)景是"編程",使用了LiveCodeBench(LCBv6),一個(gè)持續(xù)更新的代碼競(jìng)賽題庫(kù)。在這個(gè)場(chǎng)景中,反饋非常豐富:代碼可以被實(shí)際運(yùn)行,執(zhí)行日志(報(bào)錯(cuò)信息、測(cè)試結(jié)果等)作為"富反饋"被注入到老師策略的輸入中。研究團(tuán)隊(duì)初始化了Qwen3-8B模型,并以訓(xùn)練第80步的檢查點(diǎn)進(jìn)行評(píng)估。

DistIL的Accuracy/Avg@16達(dá)到0.656,Score/Avg@16達(dá)到0.482,優(yōu)于SDPO的0.643和0.467,以及GRPO的0.600和0.405。GRPO與其他方法的巨大差距(約5個(gè)百分點(diǎn))直接來(lái)自于它根本無(wú)法利用執(zhí)行日志這類(lèi)富反饋信息——它只能用最終的"通過(guò)/不通過(guò)"信號(hào),而這個(gè)信號(hào)對(duì)于很多難題來(lái)說(shuō)過(guò)于稀疏。在所有k值(2、4、8、16)的Best@k和Maj@k指標(biāo)上,DistIL都保持了一致的優(yōu)勢(shì),而且在小k值時(shí)優(yōu)勢(shì)更為明顯。

第三類(lèi)場(chǎng)景是"極難數(shù)學(xué)題",這是對(duì)現(xiàn)有方法最嚴(yán)酷的考驗(yàn)。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含738道極難數(shù)學(xué)題的訓(xùn)練集,這些題目的特點(diǎn)是:即使讓Qwen3-4B-Instruct嘗試512次,也從未做對(duì)過(guò)。這意味著GRPO在這里完全失效——因?yàn)槟P蛷奈唇o出正確答案,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)永遠(yuǎn)是零,無(wú)從學(xué)習(xí)。

在這個(gè)場(chǎng)景中,研究團(tuán)隊(duì)提供了"正確解答"作為富反饋,讓老師策略能夠看到標(biāo)準(zhǔn)答案并據(jù)此生成高質(zhì)量的推理過(guò)程。對(duì)比方法包括OPSD(使用前向KL散度)、SDPO(反向KL散度)、GRPO和SFT(直接監(jiān)督微調(diào))。

結(jié)果完全驗(yàn)證了預(yù)期:GRPO與基礎(chǔ)模型得分完全相同,確認(rèn)了在零成功率場(chǎng)景下強(qiáng)化學(xué)習(xí)的徹底失效。SFT在大多數(shù)測(cè)試集上得分低于基礎(chǔ)模型,說(shuō)明簡(jiǎn)單地模仿解答文本導(dǎo)致了過(guò)擬合而非真正的推理能力提升。DistIL在兩個(gè)模型規(guī)模上都取得了最好的結(jié)果。在AIME25(美國(guó)數(shù)學(xué)邀請(qǐng)賽2025年題目)的Avg@16指標(biāo)上,Qwen3-4B上DistIL領(lǐng)先第二名3.8個(gè)百分點(diǎn),Qwen3-8B上領(lǐng)先1.4個(gè)百分點(diǎn)。

六、消融實(shí)驗(yàn):每一個(gè)設(shè)計(jì)選擇都有其道理

為了進(jìn)一步驗(yàn)證DistIL各個(gè)設(shè)計(jì)組件的必要性,研究團(tuán)隊(duì)進(jìn)行了兩組消融實(shí)驗(yàn)。

第一組比較了"完整信用分配"和"局部信用分配"。研究團(tuán)隊(duì)構(gòu)造了一個(gè)叫做"CE基線"的對(duì)比方法——它使用相同的前向交叉熵目標(biāo)函數(shù),但只保留局部梯度,去掉了未來(lái)信用分配項(xiàng),類(lèi)似于SDPO和OPSD處理梯度的方式。在材料科學(xué)領(lǐng)域的實(shí)驗(yàn)中,DistIL(完整信用分配)全程穩(wěn)定優(yōu)于CE基線(局部信用分配),而且CE基線的訓(xùn)練曲線方差更大,表現(xiàn)更不穩(wěn)定。這直接印證了理論證明中關(guān)于"局部信用分配會(huì)導(dǎo)致次優(yōu)策略"的結(jié)論。

第二組比較了使用不同數(shù)量的老師詞語(yǔ)概率進(jìn)行蒸餾的效果。研究團(tuán)隊(duì)測(cè)試了Top-1(只用老師概率最高的那個(gè)詞)、Top-100(用概率最高的100個(gè)詞)和Full(全詞匯表)三種設(shè)置,在物理領(lǐng)域進(jìn)行對(duì)比。結(jié)果顯示:Top-1表現(xiàn)最差,因?yàn)橹挥幸粋€(gè)詞的信息太少,訓(xùn)練信號(hào)過(guò)于稀疏;Full蒸餾雖然競(jìng)爭(zhēng)力更強(qiáng),但引入了大量低概率詞語(yǔ)的噪聲,略微拖累了性能;Top-100在最終性能和訓(xùn)練穩(wěn)定性上都最優(yōu)。這個(gè)發(fā)現(xiàn)也解釋了為什么論文中所有正式實(shí)驗(yàn)都使用K=100的設(shè)置。

七、說(shuō)到底,這項(xiàng)研究意味著什么

回到最開(kāi)始的問(wèn)題:為什么AI訓(xùn)練方式很重要,為什么要花這么大精力去改進(jìn)它?

從宏觀角度看,這項(xiàng)研究觸及了AI能力提升的一個(gè)核心機(jī)制——如何利用比"對(duì)錯(cuò)判斷"更豐富的信息來(lái)加速學(xué)習(xí)。隨著AI系統(tǒng)越來(lái)越多地被部署在復(fù)雜推理場(chǎng)景中,純靠最終結(jié)果判斷的訓(xùn)練方式逐漸遭遇瓶頸,尤其是在那些模型從來(lái)就做不對(duì)的超難題目上,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法徹底啞火了。DistIL提供的思路——把富反饋轉(zhuǎn)化為老師策略,然后用正確的方向和完整的信用分配來(lái)模仿——打開(kāi)了在困難場(chǎng)景中持續(xù)改進(jìn)AI的大門(mén)。

從具體影響看,這項(xiàng)研究對(duì)三類(lèi)實(shí)際應(yīng)用有直接意義。在代碼輔助工具領(lǐng)域,執(zhí)行報(bào)錯(cuò)日志是天然的富反饋,DistIL框架可以幫助AI編程助手更快地從自己的錯(cuò)誤中學(xué)習(xí)。在科學(xué)研究輔助領(lǐng)域,專(zhuān)家批注或參考解答可以作為老師信號(hào),讓AI在專(zhuān)業(yè)知識(shí)領(lǐng)域更快速地提升水平。在教育領(lǐng)域,一個(gè)AI教學(xué)系統(tǒng)如果能利用學(xué)生的詳細(xì)解題過(guò)程(而不只是最終答案對(duì)不對(duì))來(lái)改進(jìn)自身,理論上能提供更有針對(duì)性的輔導(dǎo)。

當(dāng)然,這項(xiàng)研究也有它的前提假設(shè)和局限。理論保證依賴于"老師確實(shí)比學(xué)生好"這個(gè)條件——如果富反饋質(zhì)量很差,或者老師策略本身不靠譜,那么向它靠攏只會(huì)越學(xué)越糟。此外,未來(lái)信用分配項(xiàng)的完整計(jì)算會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo),如何在大規(guī)模系統(tǒng)中高效實(shí)現(xiàn),還需要進(jìn)一步的工程工作。

歸根結(jié)底,這項(xiàng)研究用一個(gè)相當(dāng)優(yōu)雅的方式解決了"向老師學(xué)習(xí)卻可能越學(xué)越差"這個(gè)反直覺(jué)難題:關(guān)鍵不在于用什么尺子衡量師生差距,而在于學(xué)習(xí)的方向本身是否與變好對(duì)齊,以及是否完整地追溯了每一個(gè)早期決策對(duì)后續(xù)結(jié)果的影響。前向交叉熵提供了對(duì)齊方向,完整梯度提供了完整追溯,兩者結(jié)合,才讓"模仿學(xué)習(xí)"真正變得聰明了。

有意思的是,這個(gè)道理在人類(lèi)學(xué)習(xí)中其實(shí)早就被認(rèn)知科學(xué)研究所印證——好的學(xué)生不只是模仿老師的行為,他們還會(huì)理解"為什么這樣做能在后續(xù)步驟中創(chuàng)造更好的條件"。DistIL在AI訓(xùn)練領(lǐng)域?qū)崿F(xiàn)了類(lèi)似的機(jī)制,這或許才是它最值得關(guān)注的地方。

Q&A

Q1:DistIL和SDPO有什么本質(zhì)區(qū)別?

A:DistIL用"前向交叉熵"替代了SDPO的"反向KL散度"來(lái)衡量老師和學(xué)生的差距。前向交叉熵按老師的重視程度加權(quán)評(píng)估學(xué)生,學(xué)習(xí)方向天然朝向獎(jiǎng)勵(lì)提升;反向KL按學(xué)生的重視程度加權(quán),可能導(dǎo)致更新方向偏離獎(jiǎng)勵(lì)改進(jìn)目標(biāo),甚至在老師更好的情況下讓學(xué)生退步。此外,DistIL還使用完整序列級(jí)梯度而非局部梯度,能追溯早期決策對(duì)后續(xù)步驟的影響。

Q2:DistIL在什么情況下無(wú)法正常工作?

A:DistIL依賴"老師策略比學(xué)生策略更優(yōu)"這個(gè)前提。如果提供給老師的富反饋信息質(zhì)量很差(比如錯(cuò)誤的參考答案、誤導(dǎo)性的報(bào)錯(cuò)信息),老師策略本身就不可靠,向它靠攏只會(huì)適得其反。此外,理論保證還要求老師和學(xué)生策略之間存在合理的覆蓋關(guān)系,即老師關(guān)注的區(qū)域?qū)W生也有一定的概率涉及,如果兩者差距過(guò)大則效果會(huì)打折扣。

Q3:DistIL為什么能改善Pass@N這個(gè)指標(biāo)?

A:研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)證明,最小化前向交叉熵等價(jià)于最大化一個(gè)被老師成功概率加權(quán)的學(xué)生成功對(duì)數(shù)概率的下界。簡(jiǎn)單說(shuō),前向交叉熵會(huì)自動(dòng)把更多"注意力"放在老師能做對(duì)的題目上,努力提升學(xué)生在這些題目上的成功概率。根據(jù)最大似然強(qiáng)化學(xué)習(xí)的相關(guān)研究,這種最大化成功軌跡似然的方式能系統(tǒng)性地提升Pass@N指標(biāo),對(duì)任意采樣次數(shù)N都成立。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人不會(huì)平白無(wú)故患帶狀皰疹!醫(yī)生強(qiáng)調(diào):得帶狀皰疹,多半有3共性

人不會(huì)平白無(wú)故患帶狀皰疹!醫(yī)生強(qiáng)調(diào):得帶狀皰疹,多半有3共性

39健康網(wǎng)
2026-06-12 20:16:42
巴拉圭一對(duì)球迷姐弟因高顏值走紅,被譽(yù)為世界杯女友/男友

巴拉圭一對(duì)球迷姐弟因高顏值走紅,被譽(yù)為世界杯女友/男友

可樂(lè)談情感
2026-06-13 19:28:40
太平島又發(fā)生激烈對(duì)峙,現(xiàn)場(chǎng)情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

太平島又發(fā)生激烈對(duì)峙,現(xiàn)場(chǎng)情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

馬探解說(shuō)體育
2026-06-14 08:00:22
西方為什么死咬新疆不放?

西方為什么死咬新疆不放?

杰絲聊古今
2026-06-13 18:57:12
高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關(guān)鍵是他們愛(ài)你

高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關(guān)鍵是他們愛(ài)你

娛人細(xì)品
2026-06-13 18:29:45
伊布談阿什拉夫犯規(guī)維尼修斯:裁判應(yīng)該保護(hù)球員,他沒(méi)做到

伊布談阿什拉夫犯規(guī)維尼修斯:裁判應(yīng)該保護(hù)球員,他沒(méi)做到

懂球帝
2026-06-14 17:15:19
新冠后遺癥的長(zhǎng)期侵襲,無(wú)數(shù)人在不知不覺(jué)中深陷困境

新冠后遺癥的長(zhǎng)期侵襲,無(wú)數(shù)人在不知不覺(jué)中深陷困境

律法刑道
2026-04-01 10:15:47
蘇超一晚三場(chǎng)冷門(mén),主場(chǎng)隊(duì)伍全翻車(chē)

蘇超一晚三場(chǎng)冷門(mén),主場(chǎng)隊(duì)伍全翻車(chē)

林子說(shuō)事
2026-06-14 14:36:50
《火遮眼》北美票房出爐,回本無(wú)壓力,謝苗要登上巔峰了

《火遮眼》北美票房出爐,回本無(wú)壓力,謝苗要登上巔峰了

凡知
2026-06-14 14:19:46
大家都難了嗎?網(wǎng)傳胖東來(lái)要降薪,成本會(huì)計(jì)3600工資竟來(lái)23人面試

大家都難了嗎?網(wǎng)傳胖東來(lái)要降薪,成本會(huì)計(jì)3600工資竟來(lái)23人面試

慧翔百科
2026-06-12 08:39:57
澳大利亞公開(kāi)賽,國(guó)羽三冠兩亞收官,陳柏陽(yáng)劉毅登頂,董天堯摘銀

澳大利亞公開(kāi)賽,國(guó)羽三冠兩亞收官,陳柏陽(yáng)劉毅登頂,董天堯摘銀

天涯遠(yuǎn)行人
2026-06-14 17:29:16
摩洛哥18歲天才完爆巴西中場(chǎng),阿森納后悔7000萬(wàn)要價(jià)

摩洛哥18歲天才完爆巴西中場(chǎng),阿森納后悔7000萬(wàn)要價(jià)

老糿尾聲體育解說(shuō)
2026-06-14 13:27:41
“都絕戶了,還拼命掙錢(qián)干嘛?”看見(jiàn)父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢(qián)干嘛?”看見(jiàn)父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
路易斯王子陽(yáng)臺(tái)搶盡風(fēng)頭,12歲的喬治王子身高暴漲,幾乎追上凱特

路易斯王子陽(yáng)臺(tái)搶盡風(fēng)頭,12歲的喬治王子身高暴漲,幾乎追上凱特

譯言
2026-06-14 06:09:35
王鶴隸早期出道視頻曝光引熱議

王鶴隸早期出道視頻曝光引熱議

淺遇時(shí)光
2026-06-14 01:16:31
鄭麗文這番話一放出來(lái),火藥味一下就上來(lái)了。

鄭麗文這番話一放出來(lái),火藥味一下就上來(lái)了。

果媽聊娛樂(lè)
2026-06-14 17:20:53
就差最后一步,伊朗人自己打起來(lái)!萬(wàn)人血誓:復(fù)仇未竟,休想妥協(xié)

就差最后一步,伊朗人自己打起來(lái)!萬(wàn)人血誓:復(fù)仇未竟,休想妥協(xié)

菁菁子衿
2026-06-14 09:01:10
調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場(chǎng)決賽,林詩(shī)棟爭(zhēng)冠

調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場(chǎng)決賽,林詩(shī)棟爭(zhēng)冠

煙潯渺渺
2026-06-14 14:29:13
伊朗新領(lǐng)袖打破40年潛規(guī)則!正面打擊以色列,一場(chǎng)國(guó)運(yùn)豪賭開(kāi)始了

伊朗新領(lǐng)袖打破40年潛規(guī)則!正面打擊以色列,一場(chǎng)國(guó)運(yùn)豪賭開(kāi)始了

凡知
2026-06-12 12:34:32
玩過(guò)14位男星!人前玉女,人后“欲女”,47歲至今未婚無(wú)人敢娶

玩過(guò)14位男星!人前玉女,人后“欲女”,47歲至今未婚無(wú)人敢娶

翰飛觀事
2026-06-13 14:19:51
2026-06-14 19:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車(chē)要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

教育
旅游
本地
游戲
公開(kāi)課

教育要聞

2026高考作文:萬(wàn)古融雪,終貫滄海

旅游要聞

重慶長(zhǎng)壽洪湖鎮(zhèn)首屆“湖畔果香”采摘暢玩節(jié)甜蜜啟幕

本地新聞

AK劉彰邂逅河北南大港濕地

《殺戮尖塔》UP主承認(rèn)作弊!并承諾退回禮物重打挑戰(zhàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版