網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

南加州大學(xué)的AI研究團(tuán)隊(duì)如何讓"模仿學(xué)習(xí)"變得更聰明

2026-06-13 14:54:23　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)研究來(lái)自南加州大學(xué)（University of Southern California）的三位研究人員，論文于2026年6月發(fā)表，ArXiv編號(hào)為2606.05152。有興趣深入了解的讀者可以通過(guò)該編號(hào)在ArXiv平臺(tái)查詢完整論文。

當(dāng)下，人工智能領(lǐng)域流行著一種訓(xùn)練方法：讓模型生成很多答案，再告訴它哪些是對(duì)的、哪些是錯(cuò)的，通過(guò)不斷試錯(cuò)來(lái)進(jìn)步。這就像是一個(gè)學(xué)生反復(fù)做題，只有最后一道判斷題告訴他"全對(duì)"或"全錯(cuò)"，卻從不告訴他哪一步推理出了問(wèn)題。這種方式在很多場(chǎng)景下效果不錯(cuò)，但也存在明顯的局限。

南加州大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的"強(qiáng)化學(xué)習(xí)"訓(xùn)練方式就像一個(gè)只會(huì)打分、從不給詳細(xì)批語(yǔ)的老師：每次都等學(xué)生把整道題做完，只給一個(gè)最終分?jǐn)?shù)，而不告訴學(xué)生哪句話說(shuō)錯(cuò)了、哪步推理跑偏了。在數(shù)學(xué)解題、代碼編寫(xiě)或科學(xué)推理這些領(lǐng)域，這種粗放式的反饋導(dǎo)致了一個(gè)令人頭疼的問(wèn)題——AI很難知道它是因?yàn)榈谌酵评沓鲥e(cuò)而最終答錯(cuò)的，還是因?yàn)榈谝徊骄瓦x錯(cuò)了方向。

正是為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練框架，命名為**DistIL**（Distributional Imitation Learning，分布式模仿學(xué)習(xí)），并通過(guò)嚴(yán)格的數(shù)學(xué)證明和大量實(shí)驗(yàn)驗(yàn)證了它的有效性。這篇文章將帶你完整理解這個(gè)研究背后的故事——從"老師說(shuō)了算"的傳統(tǒng)方式，到"聰明模仿"帶來(lái)的真正進(jìn)步。

一、為什么現(xiàn)在的AI訓(xùn)練方式像個(gè)"粗心批卷老師"

要理解這項(xiàng)研究，先得明白AI是怎么被訓(xùn)練出來(lái)的。目前最主流的方式叫做"強(qiáng)化學(xué)習(xí)"（Reinforcement Learning），或者更具體地說(shuō)，叫做"基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"（RLVR）。

可以把這個(gè)過(guò)程想象成這樣：AI學(xué)生每次解一道數(shù)學(xué)題，寫(xiě)出一整篇解答過(guò)程，然后有一個(gè)評(píng)分系統(tǒng)檢查最終答案對(duì)不對(duì)，給出"1分（正確）"或"0分（錯(cuò)誤）"。這個(gè)分?jǐn)?shù)會(huì)被均勻地"攤"到整篇解答的每一個(gè)字上，無(wú)論哪句話實(shí)際上貢獻(xiàn)了多少。

這里暗藏著一個(gè)巨大的問(wèn)題。假設(shè)AI寫(xiě)了一百個(gè)字的解題過(guò)程，其中第八十個(gè)字寫(xiě)錯(cuò)了導(dǎo)致最終答案出錯(cuò)，但評(píng)分系統(tǒng)只會(huì)告訴整篇文章"這次錯(cuò)了"。于是第一個(gè)字到第七十九個(gè)字都收到了同樣的"錯(cuò)誤"信號(hào)，盡管它們可能寫(xiě)得非常好。這種"一竿子打翻一船人"的反饋方式，在研究者的語(yǔ)言里叫做"信用分配困難"——系統(tǒng)搞不清楚到底應(yīng)該把功勞或過(guò)失歸給哪一步。

還有另一個(gè)問(wèn)題：當(dāng)AI每次都全對(duì)或全錯(cuò)時(shí)，訓(xùn)練系統(tǒng)就徹底失去方向感了。全對(duì)意味著沒(méi)什么可學(xué)的，全錯(cuò)意味著不知道從哪里改起。這在很難的題目上尤其棘手——AI從未做對(duì)過(guò)一道題，那RLVR方法就永遠(yuǎn)沒(méi)有正向反饋可以利用。

好消息是，現(xiàn)實(shí)中往往存在比"對(duì)或錯(cuò)"更豐富的信息。代碼運(yùn)行后會(huì)產(chǎn)生報(bào)錯(cuò)信息，告訴你哪里語(yǔ)法出了問(wèn)題；數(shù)學(xué)題有參考解答可以逐步對(duì)照；科學(xué)問(wèn)題可以有人工批注指出推理漏洞。這些"富反饋"信息遠(yuǎn)比一個(gè)簡(jiǎn)單的0/1信號(hào)有價(jià)值，但如何有效利用它們，一直是個(gè)難題。

于是，研究界開(kāi)始探索一種叫做"自蒸餾"的方法：讓同一個(gè)AI模型在看到反饋信息（比如正確答案）后扮演"老師"，再讓沒(méi)有看到反饋信息的同一個(gè)模型扮演"學(xué)生"，然后讓學(xué)生去模仿老師。這就好比一個(gè)人分飾兩角——左手看著答案解題，右手在沒(méi)看答案的情況下嘗試達(dá)到同樣的效果。

兩種典型的自蒸餾方法由此出現(xiàn)：SDPO（使用"反向KL散度"作為衡量老師和學(xué)生差距的尺子）和OPSD（使用"詹森-香農(nóng)散度"作為那把尺子）。它們的共同思路是：先讓學(xué)生自己做題，然后測(cè)量學(xué)生的回答和看過(guò)答案的老師的回答之間的差距，再根據(jù)這個(gè)差距來(lái)調(diào)整學(xué)生的學(xué)習(xí)方向。

然而，南加州大學(xué)的研究團(tuán)隊(duì)仔細(xì)分析后發(fā)現(xiàn)，這兩種方法存在兩個(gè)根本性的缺陷——即便理論上老師比學(xué)生答得更好，這些方法也可能把學(xué)生引向錯(cuò)誤的方向。

二、看似合理卻暗藏陷阱：現(xiàn)有方法的兩大致命問(wèn)題

第一個(gè)問(wèn)題涉及"學(xué)習(xí)方向"。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)證明揭示了一個(gè)反直覺(jué)的事實(shí)：即使老師的平均成績(jī)比學(xué)生高，使用反向KL散度或詹森-香農(nóng)散度來(lái)縮小師生差距，也可能導(dǎo)致學(xué)生在某些題目上反而退步，甚至提高了做錯(cuò)題的概率。

這個(gè)結(jié)論用一個(gè)具體例子來(lái)理解會(huì)更清晰。假設(shè)有三種答題策略：優(yōu)秀策略（得分1）、平庸策略（得分0.5）和糟糕策略（得分0）。老師偏愛(ài)優(yōu)秀策略，但比學(xué)生更少使用平庸策略。這時(shí)，反向KL散度更新會(huì)認(rèn)為學(xué)生對(duì)平庸策略"過(guò)度依賴"，于是努力糾正這一點(diǎn)。但糾正的過(guò)程中，由于概率必須歸一（所有策略的概率之和等于1），減少對(duì)平庸策略的依賴可能導(dǎo)致糟糕策略的概率悄悄上升。這就像在調(diào)整三個(gè)水龍頭的流量時(shí)，把中間那個(gè)水龍頭關(guān)小了，結(jié)果反而讓最差的那個(gè)水龍頭流量變大了。

研究團(tuán)隊(duì)不僅從理論上證明了這種情況存在，還構(gòu)造了一個(gè)具體的三臂賭博機(jī)實(shí)例來(lái)驗(yàn)證：老師在平均得分上比學(xué)生高出一定差距，但經(jīng)過(guò)反向KL梯度更新后，學(xué)生的預(yù)期得分反而下降了。這說(shuō)明，"老師比學(xué)生好"并不足以保證"向老師學(xué)習(xí)就會(huì)變好"——學(xué)習(xí)的方向必須本身就與獎(jiǎng)勵(lì)對(duì)齊。

第二個(gè)問(wèn)題涉及"信用歸屬"。SDPO和OPSD在計(jì)算梯度時(shí)，用了一種數(shù)學(xué)上的簡(jiǎn)化手段：他們只看當(dāng)前那個(gè)詞語(yǔ)（token）上老師和學(xué)生的差距，卻忽略了"選擇這個(gè)詞語(yǔ)會(huì)如何影響后續(xù)所有步驟中的師生差距"。

可以用一個(gè)走迷宮的比喻來(lái)理解。你在迷宮的第一個(gè)路口做了選擇，這個(gè)選擇決定了你后來(lái)會(huì)遇到哪些岔路。如果你走了左邊，你后來(lái)可能會(huì)遇到一個(gè)很難的岔路，在那里老師的選擇和你的選擇差距很大。但如果你走了右邊，就不會(huì)遇到那個(gè)難的岔路，師生之間也沒(méi)什么分歧。那么，第一個(gè)路口的選擇是否重要？當(dāng)然重要，因?yàn)樗鼪Q定了后續(xù)差距的出現(xiàn)。然而，SDPO和OPSD的簡(jiǎn)化方法在對(duì)第一個(gè)路口的選擇進(jìn)行評(píng)分時(shí)，完全沒(méi)有考慮到這個(gè)路口的選擇會(huì)帶來(lái)的"未來(lái)后果"——它們只看"此時(shí)此地"的差距，忘記了"前因后果"。

研究團(tuán)隊(duì)同樣通過(guò)數(shù)學(xué)證明展示了這個(gè)問(wèn)題的后果：在一個(gè)簡(jiǎn)單的兩步?jīng)Q策場(chǎng)景中，采用局部信用分配方法最終學(xué)到的策略，預(yù)期得分只有1/3；而采用完整的序列級(jí)信用分配，可以學(xué)到預(yù)期得分為2/5的更好策略。看起來(lái)差距不大，但這只是一個(gè)極簡(jiǎn)化的模型——在真實(shí)的復(fù)雜推理場(chǎng)景中，這種差距會(huì)被放大很多倍。

這兩個(gè)問(wèn)題合在一起，解釋了為什么現(xiàn)有的自蒸餾方法在很多場(chǎng)景下表現(xiàn)不穩(wěn)定，甚至?xí)谟?xùn)練到一半時(shí)突然開(kāi)始退步。研究團(tuán)隊(duì)在實(shí)驗(yàn)中也觀察到了這種現(xiàn)象：SDPO在生物學(xué)推理任務(wù)上，訓(xùn)練進(jìn)行到約100步時(shí)，最佳表現(xiàn)突然大幅下滑。

三、DistIL：用"前向交叉熵"打造更聰明的模仿學(xué)習(xí)

針對(duì)上述兩個(gè)問(wèn)題，南加州大學(xué)的團(tuán)隊(duì)設(shè)計(jì)了DistIL，其核心思想來(lái)自一個(gè)經(jīng)典的模仿學(xué)習(xí)框架——DAgger（Dataset Aggregation）。

DAgger的原始思想是：讓學(xué)生自己走路，遇到每個(gè)狀態(tài)時(shí)就問(wèn)專(zhuān)家"在這種情況下，你會(huì)怎么做？"然后讓學(xué)生向?qū)＜铱待R。關(guān)鍵是，學(xué)生遇到的是自己走出來(lái)的路上的狀態(tài)，而不是專(zhuān)家走出來(lái)的路上的狀態(tài)。這很重要，因?yàn)閷W(xué)生和專(zhuān)家的行為習(xí)慣不同，他們遇到的場(chǎng)景也會(huì)不同。如果只在專(zhuān)家遇到的場(chǎng)景上學(xué)習(xí)，等學(xué)生真的上路時(shí)，可能會(huì)遇到很多從未訓(xùn)練過(guò)的情況。

DistIL把這個(gè)思想"分布化"了：不是讓專(zhuān)家在某個(gè)狀態(tài)給出一個(gè)具體行動(dòng)，而是給出整個(gè)行動(dòng)的概率分布——專(zhuān)家不說(shuō)"你應(yīng)該說(shuō)這個(gè)詞"，而是說(shuō)"在這種情況下，各個(gè)詞語(yǔ)的概率應(yīng)該是這樣的"。然后學(xué)生用一種叫做"前向交叉熵"的目標(biāo)函數(shù)來(lái)向?qū)＜曳植伎繑n。

為什么是"前向交叉熵"而不是反向KL散度？這里有個(gè)關(guān)鍵區(qū)別。前向交叉熵（Forward Cross-Entropy）的計(jì)算方式是：按照老師對(duì)各個(gè)選項(xiàng)的重視程度，加權(quán)來(lái)衡量學(xué)生的表現(xiàn)——老師覺(jué)得重要的選項(xiàng)，學(xué)生沒(méi)做好就扣更多分。反向KL散度則是反過(guò)來(lái)：按照學(xué)生自己對(duì)各個(gè)選項(xiàng)的重視程度來(lái)衡量差距——學(xué)生自己覺(jué)得重要的選項(xiàng)，和老師差距大就扣分。

這個(gè)區(qū)別導(dǎo)致了截然不同的學(xué)習(xí)方向。前向交叉熵迫使學(xué)生向老師的分布移動(dòng)，使更新方向天然地與獎(jiǎng)勵(lì)改進(jìn)對(duì)齊——因?yàn)槔蠋煴葘W(xué)生好，所以往老師的方向走就是在往更高獎(jiǎng)勵(lì)的方向走。反向KL則受制于學(xué)生自身對(duì)選項(xiàng)重視程度的扭曲，可能導(dǎo)致學(xué)習(xí)方向偏離獎(jiǎng)勵(lì)改進(jìn)的方向。

DistIL的另一個(gè)創(chuàng)新在于它如何計(jì)算梯度。研究團(tuán)隊(duì)沒(méi)有采用只看"此時(shí)此地"的局部梯度，而是完整地計(jì)算了整個(gè)序列的梯度。這意味著，第一個(gè)詞語(yǔ)上的更新，會(huì)同時(shí)考慮"如果我在這里選了這個(gè)詞，后續(xù)所有步驟中老師和學(xué)生之間的差距會(huì)有多大"。在數(shù)學(xué)形式上，完整梯度分成了兩部分：一部分是"局部信用分配"，即當(dāng)前詞語(yǔ)上老師和學(xué)生的直接差異；另一部分是"未來(lái)信用分配"，即當(dāng)前詞語(yǔ)的選擇對(duì)后續(xù)所有步驟師生差距的貢獻(xiàn)。這兩部分合在一起，才構(gòu)成了完整的、能夠正確評(píng)價(jià)每一步?jīng)Q策價(jià)值的學(xué)習(xí)信號(hào)。

在實(shí)際操作上，DistIL還有一個(gè)實(shí)用優(yōu)勢(shì)：它不需要能訪問(wèn)老師的具體概率值，只需要能從老師那里采樣——也就是說(shuō)，即使老師是一個(gè)完全黑箱的外部系統(tǒng)（比如人類(lèi)專(zhuān)家或者另一個(gè)不開(kāi)源的模型），DistIL同樣可以工作。相比之下，SDPO要求能獲取老師的概率輸出，這在實(shí)際應(yīng)用中往往是個(gè)限制。

四、理論保證：三重?cái)?shù)學(xué)承諾

DistIL不僅在直覺(jué)上更合理，研究團(tuán)隊(duì)還從三個(gè)不同角度給出了嚴(yán)格的數(shù)學(xué)證明，確保它在理論上也是可靠的。

第一重保證是"單調(diào)改進(jìn)"。在一定的條件下（具體是說(shuō)，老師和學(xué)生的差距在局部可以被學(xué)生的模型類(lèi)所表達(dá)），DistIL的每一步自然梯度更新都能保證學(xué)生的預(yù)期得分提高。更精確地說(shuō)，每次更新后的得分提升量近似等于"老師比學(xué)生好多少"乘以"學(xué)習(xí)率"。這意味著只要老師比學(xué)生強(qiáng)，每一步更新都是向好的方向走，不會(huì)出現(xiàn)反向KL那種"老師更好卻把學(xué)生越訓(xùn)越差"的情況。

第二重保證是"遺憾界限"。研究團(tuán)隊(duì)證明，在一定假設(shè)下（主要是老師和學(xué)生的策略之間覆蓋關(guān)系有限），DistIL經(jīng)過(guò)n輪訓(xùn)練后返回的策略，與老師策略的差距會(huì)以大約n的負(fù)四分之一次方的速度縮小（當(dāng)老師策略本身有較高隨機(jī)性時(shí)），或者以n的負(fù)二分之一次方的速度縮小（當(dāng)老師策略接近確定性時(shí)）。用更通俗的語(yǔ)言說(shuō)：訓(xùn)練輪數(shù)越多，學(xué)生就越接近老師，而且這個(gè)收斂是有數(shù)學(xué)保證的，而不只是實(shí)驗(yàn)中觀察到的現(xiàn)象。遺憾界限的大小還受到兩個(gè)關(guān)鍵參數(shù)的影響：一是老師策略的"隨機(jī)性程度"（老師對(duì)同一道題會(huì)給出差異多大的解法），二是"可恢復(fù)性"（偏離老師一步之后還能不能追上來(lái)）。老師越確定、環(huán)境越寬容，學(xué)習(xí)就越容易。

第三重保證是"成功概率下界"。研究團(tuán)隊(duì)發(fā)現(xiàn)，最小化前向交叉熵，實(shí)際上在最大化一個(gè)被老師成功概率加權(quán)過(guò)的學(xué)生成功對(duì)數(shù)概率的下界。這個(gè)聽(tīng)起來(lái)拗口的結(jié)論，有一個(gè)非常直接的實(shí)踐意義：前向交叉熵的最小化，天然地更關(guān)注那些老師能夠做對(duì)的題目，并努力讓學(xué)生在那些題目上的成功概率提高。這與近年來(lái)一些關(guān)于"最大似然強(qiáng)化學(xué)習(xí)"的研究結(jié)論相呼應(yīng)——最大化成功軌跡的對(duì)數(shù)似然，能夠改善Pass@N（在N次嘗試中至少有一次成功的概率）這個(gè)指標(biāo)，對(duì)任意N都成立。反向KL散度則沒(méi)有這個(gè)性質(zhì)——研究團(tuán)隊(duì)也給出了反例證明這一點(diǎn)。

五、實(shí)驗(yàn)驗(yàn)證：在三類(lèi)場(chǎng)景中全面超越對(duì)手

理論再漂亮，也需要實(shí)驗(yàn)來(lái)說(shuō)話。研究團(tuán)隊(duì)在三類(lèi)截然不同的場(chǎng)景中測(cè)試了DistIL，每類(lèi)場(chǎng)景都代表了不同的反饋豐富程度。

第一類(lèi)場(chǎng)景是"科學(xué)推理"，使用了SciKnowEval這個(gè)數(shù)據(jù)集，包含大學(xué)水平的化學(xué)、物理、生物和材料科學(xué)題目。在這個(gè)場(chǎng)景中，反饋相對(duì)稀疏——沒(méi)有額外的解題提示，只有模型自己做對(duì)的那些答案可以用作參考。研究團(tuán)隊(duì)在Qwen3-8B和OLMo3-7B-Instruct兩個(gè)模型上分別測(cè)試，將DistIL與SDPO、在線GRPO和離線GRPO進(jìn)行比較，并以墻鐘時(shí)間（實(shí)際訓(xùn)練耗時(shí)）而不是訓(xùn)練步數(shù)來(lái)衡量效率。

結(jié)果顯示，DistIL在絕大多數(shù)列（即不同學(xué)科和不同訓(xùn)練時(shí)長(zhǎng)的組合）上取得了最好的Avg@16分?jǐn)?shù)（即從16次嘗試中取平均正確率）。最大的提升出現(xiàn)在物理和化學(xué)領(lǐng)域：Qwen3-8B上，物理成績(jī)領(lǐng)先第二名8.1個(gè)百分點(diǎn)；OLMo3上，物理成績(jī)領(lǐng)先9.6個(gè)百分點(diǎn)。從訓(xùn)練過(guò)程圖像來(lái)看，DistIL大約在訓(xùn)練20步時(shí)就開(kāi)始領(lǐng)先，并且這種領(lǐng)先基本保持穩(wěn)定，而SDPO則在訓(xùn)練后期出現(xiàn)了明顯的震蕩甚至下滑。

第二類(lèi)場(chǎng)景是"編程"，使用了LiveCodeBench（LCBv6），一個(gè)持續(xù)更新的代碼競(jìng)賽題庫(kù)。在這個(gè)場(chǎng)景中，反饋非常豐富：代碼可以被實(shí)際運(yùn)行，執(zhí)行日志（報(bào)錯(cuò)信息、測(cè)試結(jié)果等）作為"富反饋"被注入到老師策略的輸入中。研究團(tuán)隊(duì)初始化了Qwen3-8B模型，并以訓(xùn)練第80步的檢查點(diǎn)進(jìn)行評(píng)估。

DistIL的Accuracy/Avg@16達(dá)到0.656，Score/Avg@16達(dá)到0.482，優(yōu)于SDPO的0.643和0.467，以及GRPO的0.600和0.405。GRPO與其他方法的巨大差距（約5個(gè)百分點(diǎn)）直接來(lái)自于它根本無(wú)法利用執(zhí)行日志這類(lèi)富反饋信息——它只能用最終的"通過(guò)/不通過(guò)"信號(hào)，而這個(gè)信號(hào)對(duì)于很多難題來(lái)說(shuō)過(guò)于稀疏。在所有k值（2、4、8、16）的Best@k和Maj@k指標(biāo)上，DistIL都保持了一致的優(yōu)勢(shì)，而且在小k值時(shí)優(yōu)勢(shì)更為明顯。

第三類(lèi)場(chǎng)景是"極難數(shù)學(xué)題"，這是對(duì)現(xiàn)有方法最嚴(yán)酷的考驗(yàn)。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含738道極難數(shù)學(xué)題的訓(xùn)練集，這些題目的特點(diǎn)是：即使讓Qwen3-4B-Instruct嘗試512次，也從未做對(duì)過(guò)。這意味著GRPO在這里完全失效——因?yàn)槟Ｐ蛷奈唇o出正確答案，強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)永遠(yuǎn)是零，無(wú)從學(xué)習(xí)。

在這個(gè)場(chǎng)景中，研究團(tuán)隊(duì)提供了"正確解答"作為富反饋，讓老師策略能夠看到標(biāo)準(zhǔn)答案并據(jù)此生成高質(zhì)量的推理過(guò)程。對(duì)比方法包括OPSD（使用前向KL散度）、SDPO（反向KL散度）、GRPO和SFT（直接監(jiān)督微調(diào)）。

結(jié)果完全驗(yàn)證了預(yù)期：GRPO與基礎(chǔ)模型得分完全相同，確認(rèn)了在零成功率場(chǎng)景下強(qiáng)化學(xué)習(xí)的徹底失效。SFT在大多數(shù)測(cè)試集上得分低于基礎(chǔ)模型，說(shuō)明簡(jiǎn)單地模仿解答文本導(dǎo)致了過(guò)擬合而非真正的推理能力提升。DistIL在兩個(gè)模型規(guī)模上都取得了最好的結(jié)果。在AIME25（美國(guó)數(shù)學(xué)邀請(qǐng)賽2025年題目）的Avg@16指標(biāo)上，Qwen3-4B上DistIL領(lǐng)先第二名3.8個(gè)百分點(diǎn)，Qwen3-8B上領(lǐng)先1.4個(gè)百分點(diǎn)。

六、消融實(shí)驗(yàn)：每一個(gè)設(shè)計(jì)選擇都有其道理

為了進(jìn)一步驗(yàn)證DistIL各個(gè)設(shè)計(jì)組件的必要性，研究團(tuán)隊(duì)進(jìn)行了兩組消融實(shí)驗(yàn)。

第一組比較了"完整信用分配"和"局部信用分配"。研究團(tuán)隊(duì)構(gòu)造了一個(gè)叫做"CE基線"的對(duì)比方法——它使用相同的前向交叉熵目標(biāo)函數(shù)，但只保留局部梯度，去掉了未來(lái)信用分配項(xiàng)，類(lèi)似于SDPO和OPSD處理梯度的方式。在材料科學(xué)領(lǐng)域的實(shí)驗(yàn)中，DistIL（完整信用分配）全程穩(wěn)定優(yōu)于CE基線（局部信用分配），而且CE基線的訓(xùn)練曲線方差更大，表現(xiàn)更不穩(wěn)定。這直接印證了理論證明中關(guān)于"局部信用分配會(huì)導(dǎo)致次優(yōu)策略"的結(jié)論。

第二組比較了使用不同數(shù)量的老師詞語(yǔ)概率進(jìn)行蒸餾的效果。研究團(tuán)隊(duì)測(cè)試了Top-1（只用老師概率最高的那個(gè)詞）、Top-100（用概率最高的100個(gè)詞）和Full（全詞匯表）三種設(shè)置，在物理領(lǐng)域進(jìn)行對(duì)比。結(jié)果顯示：Top-1表現(xiàn)最差，因?yàn)橹挥幸粋€(gè)詞的信息太少，訓(xùn)練信號(hào)過(guò)于稀疏；Full蒸餾雖然競(jìng)爭(zhēng)力更強(qiáng)，但引入了大量低概率詞語(yǔ)的噪聲，略微拖累了性能；Top-100在最終性能和訓(xùn)練穩(wěn)定性上都最優(yōu)。這個(gè)發(fā)現(xiàn)也解釋了為什么論文中所有正式實(shí)驗(yàn)都使用K=100的設(shè)置。

七、說(shuō)到底，這項(xiàng)研究意味著什么

回到最開(kāi)始的問(wèn)題：為什么AI訓(xùn)練方式很重要，為什么要花這么大精力去改進(jìn)它？

從宏觀角度看，這項(xiàng)研究觸及了AI能力提升的一個(gè)核心機(jī)制——如何利用比"對(duì)錯(cuò)判斷"更豐富的信息來(lái)加速學(xué)習(xí)。隨著AI系統(tǒng)越來(lái)越多地被部署在復(fù)雜推理場(chǎng)景中，純靠最終結(jié)果判斷的訓(xùn)練方式逐漸遭遇瓶頸，尤其是在那些模型從來(lái)就做不對(duì)的超難題目上，傳統(tǒng)強(qiáng)化學(xué)習(xí)方法徹底啞火了。DistIL提供的思路——把富反饋轉(zhuǎn)化為老師策略，然后用正確的方向和完整的信用分配來(lái)模仿——打開(kāi)了在困難場(chǎng)景中持續(xù)改進(jìn)AI的大門(mén)。

從具體影響看，這項(xiàng)研究對(duì)三類(lèi)實(shí)際應(yīng)用有直接意義。在代碼輔助工具領(lǐng)域，執(zhí)行報(bào)錯(cuò)日志是天然的富反饋，DistIL框架可以幫助AI編程助手更快地從自己的錯(cuò)誤中學(xué)習(xí)。在科學(xué)研究輔助領(lǐng)域，專(zhuān)家批注或參考解答可以作為老師信號(hào)，讓AI在專(zhuān)業(yè)知識(shí)領(lǐng)域更快速地提升水平。在教育領(lǐng)域，一個(gè)AI教學(xué)系統(tǒng)如果能利用學(xué)生的詳細(xì)解題過(guò)程（而不只是最終答案對(duì)不對(duì)）來(lái)改進(jìn)自身，理論上能提供更有針對(duì)性的輔導(dǎo)。

當(dāng)然，這項(xiàng)研究也有它的前提假設(shè)和局限。理論保證依賴于"老師確實(shí)比學(xué)生好"這個(gè)條件——如果富反饋質(zhì)量很差，或者老師策略本身不靠譜，那么向它靠攏只會(huì)越學(xué)越糟。此外，未來(lái)信用分配項(xiàng)的完整計(jì)算會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo)，如何在大規(guī)模系統(tǒng)中高效實(shí)現(xiàn)，還需要進(jìn)一步的工程工作。

歸根結(jié)底，這項(xiàng)研究用一個(gè)相當(dāng)優(yōu)雅的方式解決了"向老師學(xué)習(xí)卻可能越學(xué)越差"這個(gè)反直覺(jué)難題：關(guān)鍵不在于用什么尺子衡量師生差距，而在于學(xué)習(xí)的方向本身是否與變好對(duì)齊，以及是否完整地追溯了每一個(gè)早期決策對(duì)后續(xù)結(jié)果的影響。前向交叉熵提供了對(duì)齊方向，完整梯度提供了完整追溯，兩者結(jié)合，才讓"模仿學(xué)習(xí)"真正變得聰明了。

有意思的是，這個(gè)道理在人類(lèi)學(xué)習(xí)中其實(shí)早就被認(rèn)知科學(xué)研究所印證——好的學(xué)生不只是模仿老師的行為，他們還會(huì)理解"為什么這樣做能在后續(xù)步驟中創(chuàng)造更好的條件"。DistIL在AI訓(xùn)練領(lǐng)域?qū)崿F(xiàn)了類(lèi)似的機(jī)制，這或許才是它最值得關(guān)注的地方。

Q&A

Q1：DistIL和SDPO有什么本質(zhì)區(qū)別？

A：DistIL用"前向交叉熵"替代了SDPO的"反向KL散度"來(lái)衡量老師和學(xué)生的差距。前向交叉熵按老師的重視程度加權(quán)評(píng)估學(xué)生，學(xué)習(xí)方向天然朝向獎(jiǎng)勵(lì)提升；反向KL按學(xué)生的重視程度加權(quán)，可能導(dǎo)致更新方向偏離獎(jiǎng)勵(lì)改進(jìn)目標(biāo)，甚至在老師更好的情況下讓學(xué)生退步。此外，DistIL還使用完整序列級(jí)梯度而非局部梯度，能追溯早期決策對(duì)后續(xù)步驟的影響。

Q2：DistIL在什么情況下無(wú)法正常工作？

A：DistIL依賴"老師策略比學(xué)生策略更優(yōu)"這個(gè)前提。如果提供給老師的富反饋信息質(zhì)量很差（比如錯(cuò)誤的參考答案、誤導(dǎo)性的報(bào)錯(cuò)信息），老師策略本身就不可靠，向它靠攏只會(huì)適得其反。此外，理論保證還要求老師和學(xué)生策略之間存在合理的覆蓋關(guān)系，即老師關(guān)注的區(qū)域?qū)W生也有一定的概率涉及，如果兩者差距過(guò)大則效果會(huì)打折扣。

Q3：DistIL為什么能改善Pass@N這個(gè)指標(biāo)？

A：研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)證明，最小化前向交叉熵等價(jià)于最大化一個(gè)被老師成功概率加權(quán)的學(xué)生成功對(duì)數(shù)概率的下界。簡(jiǎn)單說(shuō)，前向交叉熵會(huì)自動(dòng)把更多"注意力"放在老師能做對(duì)的題目上，努力提升學(xué)生在這些題目上的成功概率。根據(jù)最大似然強(qiáng)化學(xué)習(xí)的相關(guān)研究，這種最大化成功軌跡似然的方式能系統(tǒng)性地提升Pass@N指標(biāo)，對(duì)任意采樣次數(shù)N都成立。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.