![]()
這項(xiàng)研究來(lái)自南加州大學(xué)(University of Southern California)的三位研究人員,論文于2026年6月發(fā)表,ArXiv編號(hào)為2606.05152。有興趣深入了解的讀者可以通過(guò)該編號(hào)在ArXiv平臺(tái)查詢完整論文。
當(dāng)下,人工智能領(lǐng)域流行著一種訓(xùn)練方法:讓模型生成很多答案,再告訴它哪些是對(duì)的、哪些是錯(cuò)的,通過(guò)不斷試錯(cuò)來(lái)進(jìn)步。這就像是一個(gè)學(xué)生反復(fù)做題,只有最后一道判斷題告訴他"全對(duì)"或"全錯(cuò)",卻從不告訴他哪一步推理出了問(wèn)題。這種方式在很多場(chǎng)景下效果不錯(cuò),但也存在明顯的局限。
南加州大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的"強(qiáng)化學(xué)習(xí)"訓(xùn)練方式就像一個(gè)只會(huì)打分、從不給詳細(xì)批語(yǔ)的老師:每次都等學(xué)生把整道題做完,只給一個(gè)最終分?jǐn)?shù),而不告訴學(xué)生哪句話說(shuō)錯(cuò)了、哪步推理跑偏了。在數(shù)學(xué)解題、代碼編寫(xiě)或科學(xué)推理這些領(lǐng)域,這種粗放式的反饋導(dǎo)致了一個(gè)令人頭疼的問(wèn)題——AI很難知道它是因?yàn)榈谌酵评沓鲥e(cuò)而最終答錯(cuò)的,還是因?yàn)榈谝徊骄瓦x錯(cuò)了方向。
正是為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練框架,命名為**DistIL**(Distributional Imitation Learning,分布式模仿學(xué)習(xí)),并通過(guò)嚴(yán)格的數(shù)學(xué)證明和大量實(shí)驗(yàn)驗(yàn)證了它的有效性。這篇文章將帶你完整理解這個(gè)研究背后的故事——從"老師說(shuō)了算"的傳統(tǒng)方式,到"聰明模仿"帶來(lái)的真正進(jìn)步。
一、為什么現(xiàn)在的AI訓(xùn)練方式像個(gè)"粗心批卷老師"
要理解這項(xiàng)研究,先得明白AI是怎么被訓(xùn)練出來(lái)的。目前最主流的方式叫做"強(qiáng)化學(xué)習(xí)"(Reinforcement Learning),或者更具體地說(shuō),叫做"基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"(RLVR)。
可以把這個(gè)過(guò)程想象成這樣:AI學(xué)生每次解一道數(shù)學(xué)題,寫(xiě)出一整篇解答過(guò)程,然后有一個(gè)評(píng)分系統(tǒng)檢查最終答案對(duì)不對(duì),給出"1分(正確)"或"0分(錯(cuò)誤)"。這個(gè)分?jǐn)?shù)會(huì)被均勻地"攤"到整篇解答的每一個(gè)字上,無(wú)論哪句話實(shí)際上貢獻(xiàn)了多少。
這里暗藏著一個(gè)巨大的問(wèn)題。假設(shè)AI寫(xiě)了一百個(gè)字的解題過(guò)程,其中第八十個(gè)字寫(xiě)錯(cuò)了導(dǎo)致最終答案出錯(cuò),但評(píng)分系統(tǒng)只會(huì)告訴整篇文章"這次錯(cuò)了"。于是第一個(gè)字到第七十九個(gè)字都收到了同樣的"錯(cuò)誤"信號(hào),盡管它們可能寫(xiě)得非常好。這種"一竿子打翻一船人"的反饋方式,在研究者的語(yǔ)言里叫做"信用分配困難"——系統(tǒng)搞不清楚到底應(yīng)該把功勞或過(guò)失歸給哪一步。
還有另一個(gè)問(wèn)題:當(dāng)AI每次都全對(duì)或全錯(cuò)時(shí),訓(xùn)練系統(tǒng)就徹底失去方向感了。全對(duì)意味著沒(méi)什么可學(xué)的,全錯(cuò)意味著不知道從哪里改起。這在很難的題目上尤其棘手——AI從未做對(duì)過(guò)一道題,那RLVR方法就永遠(yuǎn)沒(méi)有正向反饋可以利用。
好消息是,現(xiàn)實(shí)中往往存在比"對(duì)或錯(cuò)"更豐富的信息。代碼運(yùn)行后會(huì)產(chǎn)生報(bào)錯(cuò)信息,告訴你哪里語(yǔ)法出了問(wèn)題;數(shù)學(xué)題有參考解答可以逐步對(duì)照;科學(xué)問(wèn)題可以有人工批注指出推理漏洞。這些"富反饋"信息遠(yuǎn)比一個(gè)簡(jiǎn)單的0/1信號(hào)有價(jià)值,但如何有效利用它們,一直是個(gè)難題。
于是,研究界開(kāi)始探索一種叫做"自蒸餾"的方法:讓同一個(gè)AI模型在看到反饋信息(比如正確答案)后扮演"老師",再讓沒(méi)有看到反饋信息的同一個(gè)模型扮演"學(xué)生",然后讓學(xué)生去模仿老師。這就好比一個(gè)人分飾兩角——左手看著答案解題,右手在沒(méi)看答案的情況下嘗試達(dá)到同樣的效果。
兩種典型的自蒸餾方法由此出現(xiàn):SDPO(使用"反向KL散度"作為衡量老師和學(xué)生差距的尺子)和OPSD(使用"詹森-香農(nóng)散度"作為那把尺子)。它們的共同思路是:先讓學(xué)生自己做題,然后測(cè)量學(xué)生的回答和看過(guò)答案的老師的回答之間的差距,再根據(jù)這個(gè)差距來(lái)調(diào)整學(xué)生的學(xué)習(xí)方向。
然而,南加州大學(xué)的研究團(tuán)隊(duì)仔細(xì)分析后發(fā)現(xiàn),這兩種方法存在兩個(gè)根本性的缺陷——即便理論上老師比學(xué)生答得更好,這些方法也可能把學(xué)生引向錯(cuò)誤的方向。
二、看似合理卻暗藏陷阱:現(xiàn)有方法的兩大致命問(wèn)題
第一個(gè)問(wèn)題涉及"學(xué)習(xí)方向"。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)證明揭示了一個(gè)反直覺(jué)的事實(shí):即使老師的平均成績(jī)比學(xué)生高,使用反向KL散度或詹森-香農(nóng)散度來(lái)縮小師生差距,也可能導(dǎo)致學(xué)生在某些題目上反而退步,甚至提高了做錯(cuò)題的概率。
這個(gè)結(jié)論用一個(gè)具體例子來(lái)理解會(huì)更清晰。假設(shè)有三種答題策略:優(yōu)秀策略(得分1)、平庸策略(得分0.5)和糟糕策略(得分0)。老師偏愛(ài)優(yōu)秀策略,但比學(xué)生更少使用平庸策略。這時(shí),反向KL散度更新會(huì)認(rèn)為學(xué)生對(duì)平庸策略"過(guò)度依賴",于是努力糾正這一點(diǎn)。但糾正的過(guò)程中,由于概率必須歸一(所有策略的概率之和等于1),減少對(duì)平庸策略的依賴可能導(dǎo)致糟糕策略的概率悄悄上升。這就像在調(diào)整三個(gè)水龍頭的流量時(shí),把中間那個(gè)水龍頭關(guān)小了,結(jié)果反而讓最差的那個(gè)水龍頭流量變大了。
研究團(tuán)隊(duì)不僅從理論上證明了這種情況存在,還構(gòu)造了一個(gè)具體的三臂賭博機(jī)實(shí)例來(lái)驗(yàn)證:老師在平均得分上比學(xué)生高出一定差距,但經(jīng)過(guò)反向KL梯度更新后,學(xué)生的預(yù)期得分反而下降了。這說(shuō)明,"老師比學(xué)生好"并不足以保證"向老師學(xué)習(xí)就會(huì)變好"——學(xué)習(xí)的方向必須本身就與獎(jiǎng)勵(lì)對(duì)齊。
第二個(gè)問(wèn)題涉及"信用歸屬"。SDPO和OPSD在計(jì)算梯度時(shí),用了一種數(shù)學(xué)上的簡(jiǎn)化手段:他們只看當(dāng)前那個(gè)詞語(yǔ)(token)上老師和學(xué)生的差距,卻忽略了"選擇這個(gè)詞語(yǔ)會(huì)如何影響后續(xù)所有步驟中的師生差距"。
可以用一個(gè)走迷宮的比喻來(lái)理解。你在迷宮的第一個(gè)路口做了選擇,這個(gè)選擇決定了你后來(lái)會(huì)遇到哪些岔路。如果你走了左邊,你后來(lái)可能會(huì)遇到一個(gè)很難的岔路,在那里老師的選擇和你的選擇差距很大。但如果你走了右邊,就不會(huì)遇到那個(gè)難的岔路,師生之間也沒(méi)什么分歧。那么,第一個(gè)路口的選擇是否重要?當(dāng)然重要,因?yàn)樗鼪Q定了后續(xù)差距的出現(xiàn)。然而,SDPO和OPSD的簡(jiǎn)化方法在對(duì)第一個(gè)路口的選擇進(jìn)行評(píng)分時(shí),完全沒(méi)有考慮到這個(gè)路口的選擇會(huì)帶來(lái)的"未來(lái)后果"——它們只看"此時(shí)此地"的差距,忘記了"前因后果"。
研究團(tuán)隊(duì)同樣通過(guò)數(shù)學(xué)證明展示了這個(gè)問(wèn)題的后果:在一個(gè)簡(jiǎn)單的兩步?jīng)Q策場(chǎng)景中,采用局部信用分配方法最終學(xué)到的策略,預(yù)期得分只有1/3;而采用完整的序列級(jí)信用分配,可以學(xué)到預(yù)期得分為2/5的更好策略。看起來(lái)差距不大,但這只是一個(gè)極簡(jiǎn)化的模型——在真實(shí)的復(fù)雜推理場(chǎng)景中,這種差距會(huì)被放大很多倍。
這兩個(gè)問(wèn)題合在一起,解釋了為什么現(xiàn)有的自蒸餾方法在很多場(chǎng)景下表現(xiàn)不穩(wěn)定,甚至?xí)谟?xùn)練到一半時(shí)突然開(kāi)始退步。研究團(tuán)隊(duì)在實(shí)驗(yàn)中也觀察到了這種現(xiàn)象:SDPO在生物學(xué)推理任務(wù)上,訓(xùn)練進(jìn)行到約100步時(shí),最佳表現(xiàn)突然大幅下滑。
三、DistIL:用"前向交叉熵"打造更聰明的模仿學(xué)習(xí)
針對(duì)上述兩個(gè)問(wèn)題,南加州大學(xué)的團(tuán)隊(duì)設(shè)計(jì)了DistIL,其核心思想來(lái)自一個(gè)經(jīng)典的模仿學(xué)習(xí)框架——DAgger(Dataset Aggregation)。
DAgger的原始思想是:讓學(xué)生自己走路,遇到每個(gè)狀態(tài)時(shí)就問(wèn)專(zhuān)家"在這種情況下,你會(huì)怎么做?"然后讓學(xué)生向?qū)<铱待R。關(guān)鍵是,學(xué)生遇到的是自己走出來(lái)的路上的狀態(tài),而不是專(zhuān)家走出來(lái)的路上的狀態(tài)。這很重要,因?yàn)閷W(xué)生和專(zhuān)家的行為習(xí)慣不同,他們遇到的場(chǎng)景也會(huì)不同。如果只在專(zhuān)家遇到的場(chǎng)景上學(xué)習(xí),等學(xué)生真的上路時(shí),可能會(huì)遇到很多從未訓(xùn)練過(guò)的情況。
DistIL把這個(gè)思想"分布化"了:不是讓專(zhuān)家在某個(gè)狀態(tài)給出一個(gè)具體行動(dòng),而是給出整個(gè)行動(dòng)的概率分布——專(zhuān)家不說(shuō)"你應(yīng)該說(shuō)這個(gè)詞",而是說(shuō)"在這種情況下,各個(gè)詞語(yǔ)的概率應(yīng)該是這樣的"。然后學(xué)生用一種叫做"前向交叉熵"的目標(biāo)函數(shù)來(lái)向?qū)<曳植伎繑n。
為什么是"前向交叉熵"而不是反向KL散度?這里有個(gè)關(guān)鍵區(qū)別。前向交叉熵(Forward Cross-Entropy)的計(jì)算方式是:按照老師對(duì)各個(gè)選項(xiàng)的重視程度,加權(quán)來(lái)衡量學(xué)生的表現(xiàn)——老師覺(jué)得重要的選項(xiàng),學(xué)生沒(méi)做好就扣更多分。反向KL散度則是反過(guò)來(lái):按照學(xué)生自己對(duì)各個(gè)選項(xiàng)的重視程度來(lái)衡量差距——學(xué)生自己覺(jué)得重要的選項(xiàng),和老師差距大就扣分。
這個(gè)區(qū)別導(dǎo)致了截然不同的學(xué)習(xí)方向。前向交叉熵迫使學(xué)生向老師的分布移動(dòng),使更新方向天然地與獎(jiǎng)勵(lì)改進(jìn)對(duì)齊——因?yàn)槔蠋煴葘W(xué)生好,所以往老師的方向走就是在往更高獎(jiǎng)勵(lì)的方向走。反向KL則受制于學(xué)生自身對(duì)選項(xiàng)重視程度的扭曲,可能導(dǎo)致學(xué)習(xí)方向偏離獎(jiǎng)勵(lì)改進(jìn)的方向。
DistIL的另一個(gè)創(chuàng)新在于它如何計(jì)算梯度。研究團(tuán)隊(duì)沒(méi)有采用只看"此時(shí)此地"的局部梯度,而是完整地計(jì)算了整個(gè)序列的梯度。這意味著,第一個(gè)詞語(yǔ)上的更新,會(huì)同時(shí)考慮"如果我在這里選了這個(gè)詞,后續(xù)所有步驟中老師和學(xué)生之間的差距會(huì)有多大"。在數(shù)學(xué)形式上,完整梯度分成了兩部分:一部分是"局部信用分配",即當(dāng)前詞語(yǔ)上老師和學(xué)生的直接差異;另一部分是"未來(lái)信用分配",即當(dāng)前詞語(yǔ)的選擇對(duì)后續(xù)所有步驟師生差距的貢獻(xiàn)。這兩部分合在一起,才構(gòu)成了完整的、能夠正確評(píng)價(jià)每一步?jīng)Q策價(jià)值的學(xué)習(xí)信號(hào)。
在實(shí)際操作上,DistIL還有一個(gè)實(shí)用優(yōu)勢(shì):它不需要能訪問(wèn)老師的具體概率值,只需要能從老師那里采樣——也就是說(shuō),即使老師是一個(gè)完全黑箱的外部系統(tǒng)(比如人類(lèi)專(zhuān)家或者另一個(gè)不開(kāi)源的模型),DistIL同樣可以工作。相比之下,SDPO要求能獲取老師的概率輸出,這在實(shí)際應(yīng)用中往往是個(gè)限制。
四、理論保證:三重?cái)?shù)學(xué)承諾
DistIL不僅在直覺(jué)上更合理,研究團(tuán)隊(duì)還從三個(gè)不同角度給出了嚴(yán)格的數(shù)學(xué)證明,確保它在理論上也是可靠的。
第一重保證是"單調(diào)改進(jìn)"。在一定的條件下(具體是說(shuō),老師和學(xué)生的差距在局部可以被學(xué)生的模型類(lèi)所表達(dá)),DistIL的每一步自然梯度更新都能保證學(xué)生的預(yù)期得分提高。更精確地說(shuō),每次更新后的得分提升量近似等于"老師比學(xué)生好多少"乘以"學(xué)習(xí)率"。這意味著只要老師比學(xué)生強(qiáng),每一步更新都是向好的方向走,不會(huì)出現(xiàn)反向KL那種"老師更好卻把學(xué)生越訓(xùn)越差"的情況。
第二重保證是"遺憾界限"。研究團(tuán)隊(duì)證明,在一定假設(shè)下(主要是老師和學(xué)生的策略之間覆蓋關(guān)系有限),DistIL經(jīng)過(guò)n輪訓(xùn)練后返回的策略,與老師策略的差距會(huì)以大約n的負(fù)四分之一次方的速度縮小(當(dāng)老師策略本身有較高隨機(jī)性時(shí)),或者以n的負(fù)二分之一次方的速度縮小(當(dāng)老師策略接近確定性時(shí))。用更通俗的語(yǔ)言說(shuō):訓(xùn)練輪數(shù)越多,學(xué)生就越接近老師,而且這個(gè)收斂是有數(shù)學(xué)保證的,而不只是實(shí)驗(yàn)中觀察到的現(xiàn)象。遺憾界限的大小還受到兩個(gè)關(guān)鍵參數(shù)的影響:一是老師策略的"隨機(jī)性程度"(老師對(duì)同一道題會(huì)給出差異多大的解法),二是"可恢復(fù)性"(偏離老師一步之后還能不能追上來(lái))。老師越確定、環(huán)境越寬容,學(xué)習(xí)就越容易。
第三重保證是"成功概率下界"。研究團(tuán)隊(duì)發(fā)現(xiàn),最小化前向交叉熵,實(shí)際上在最大化一個(gè)被老師成功概率加權(quán)過(guò)的學(xué)生成功對(duì)數(shù)概率的下界。這個(gè)聽(tīng)起來(lái)拗口的結(jié)論,有一個(gè)非常直接的實(shí)踐意義:前向交叉熵的最小化,天然地更關(guān)注那些老師能夠做對(duì)的題目,并努力讓學(xué)生在那些題目上的成功概率提高。這與近年來(lái)一些關(guān)于"最大似然強(qiáng)化學(xué)習(xí)"的研究結(jié)論相呼應(yīng)——最大化成功軌跡的對(duì)數(shù)似然,能夠改善Pass@N(在N次嘗試中至少有一次成功的概率)這個(gè)指標(biāo),對(duì)任意N都成立。反向KL散度則沒(méi)有這個(gè)性質(zhì)——研究團(tuán)隊(duì)也給出了反例證明這一點(diǎn)。
五、實(shí)驗(yàn)驗(yàn)證:在三類(lèi)場(chǎng)景中全面超越對(duì)手
理論再漂亮,也需要實(shí)驗(yàn)來(lái)說(shuō)話。研究團(tuán)隊(duì)在三類(lèi)截然不同的場(chǎng)景中測(cè)試了DistIL,每類(lèi)場(chǎng)景都代表了不同的反饋豐富程度。
第一類(lèi)場(chǎng)景是"科學(xué)推理",使用了SciKnowEval這個(gè)數(shù)據(jù)集,包含大學(xué)水平的化學(xué)、物理、生物和材料科學(xué)題目。在這個(gè)場(chǎng)景中,反饋相對(duì)稀疏——沒(méi)有額外的解題提示,只有模型自己做對(duì)的那些答案可以用作參考。研究團(tuán)隊(duì)在Qwen3-8B和OLMo3-7B-Instruct兩個(gè)模型上分別測(cè)試,將DistIL與SDPO、在線GRPO和離線GRPO進(jìn)行比較,并以墻鐘時(shí)間(實(shí)際訓(xùn)練耗時(shí))而不是訓(xùn)練步數(shù)來(lái)衡量效率。
結(jié)果顯示,DistIL在絕大多數(shù)列(即不同學(xué)科和不同訓(xùn)練時(shí)長(zhǎng)的組合)上取得了最好的Avg@16分?jǐn)?shù)(即從16次嘗試中取平均正確率)。最大的提升出現(xiàn)在物理和化學(xué)領(lǐng)域:Qwen3-8B上,物理成績(jī)領(lǐng)先第二名8.1個(gè)百分點(diǎn);OLMo3上,物理成績(jī)領(lǐng)先9.6個(gè)百分點(diǎn)。從訓(xùn)練過(guò)程圖像來(lái)看,DistIL大約在訓(xùn)練20步時(shí)就開(kāi)始領(lǐng)先,并且這種領(lǐng)先基本保持穩(wěn)定,而SDPO則在訓(xùn)練后期出現(xiàn)了明顯的震蕩甚至下滑。
第二類(lèi)場(chǎng)景是"編程",使用了LiveCodeBench(LCBv6),一個(gè)持續(xù)更新的代碼競(jìng)賽題庫(kù)。在這個(gè)場(chǎng)景中,反饋非常豐富:代碼可以被實(shí)際運(yùn)行,執(zhí)行日志(報(bào)錯(cuò)信息、測(cè)試結(jié)果等)作為"富反饋"被注入到老師策略的輸入中。研究團(tuán)隊(duì)初始化了Qwen3-8B模型,并以訓(xùn)練第80步的檢查點(diǎn)進(jìn)行評(píng)估。
DistIL的Accuracy/Avg@16達(dá)到0.656,Score/Avg@16達(dá)到0.482,優(yōu)于SDPO的0.643和0.467,以及GRPO的0.600和0.405。GRPO與其他方法的巨大差距(約5個(gè)百分點(diǎn))直接來(lái)自于它根本無(wú)法利用執(zhí)行日志這類(lèi)富反饋信息——它只能用最終的"通過(guò)/不通過(guò)"信號(hào),而這個(gè)信號(hào)對(duì)于很多難題來(lái)說(shuō)過(guò)于稀疏。在所有k值(2、4、8、16)的Best@k和Maj@k指標(biāo)上,DistIL都保持了一致的優(yōu)勢(shì),而且在小k值時(shí)優(yōu)勢(shì)更為明顯。
第三類(lèi)場(chǎng)景是"極難數(shù)學(xué)題",這是對(duì)現(xiàn)有方法最嚴(yán)酷的考驗(yàn)。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含738道極難數(shù)學(xué)題的訓(xùn)練集,這些題目的特點(diǎn)是:即使讓Qwen3-4B-Instruct嘗試512次,也從未做對(duì)過(guò)。這意味著GRPO在這里完全失效——因?yàn)槟P蛷奈唇o出正確答案,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)永遠(yuǎn)是零,無(wú)從學(xué)習(xí)。
在這個(gè)場(chǎng)景中,研究團(tuán)隊(duì)提供了"正確解答"作為富反饋,讓老師策略能夠看到標(biāo)準(zhǔn)答案并據(jù)此生成高質(zhì)量的推理過(guò)程。對(duì)比方法包括OPSD(使用前向KL散度)、SDPO(反向KL散度)、GRPO和SFT(直接監(jiān)督微調(diào))。
結(jié)果完全驗(yàn)證了預(yù)期:GRPO與基礎(chǔ)模型得分完全相同,確認(rèn)了在零成功率場(chǎng)景下強(qiáng)化學(xué)習(xí)的徹底失效。SFT在大多數(shù)測(cè)試集上得分低于基礎(chǔ)模型,說(shuō)明簡(jiǎn)單地模仿解答文本導(dǎo)致了過(guò)擬合而非真正的推理能力提升。DistIL在兩個(gè)模型規(guī)模上都取得了最好的結(jié)果。在AIME25(美國(guó)數(shù)學(xué)邀請(qǐng)賽2025年題目)的Avg@16指標(biāo)上,Qwen3-4B上DistIL領(lǐng)先第二名3.8個(gè)百分點(diǎn),Qwen3-8B上領(lǐng)先1.4個(gè)百分點(diǎn)。
六、消融實(shí)驗(yàn):每一個(gè)設(shè)計(jì)選擇都有其道理
為了進(jìn)一步驗(yàn)證DistIL各個(gè)設(shè)計(jì)組件的必要性,研究團(tuán)隊(duì)進(jìn)行了兩組消融實(shí)驗(yàn)。
第一組比較了"完整信用分配"和"局部信用分配"。研究團(tuán)隊(duì)構(gòu)造了一個(gè)叫做"CE基線"的對(duì)比方法——它使用相同的前向交叉熵目標(biāo)函數(shù),但只保留局部梯度,去掉了未來(lái)信用分配項(xiàng),類(lèi)似于SDPO和OPSD處理梯度的方式。在材料科學(xué)領(lǐng)域的實(shí)驗(yàn)中,DistIL(完整信用分配)全程穩(wěn)定優(yōu)于CE基線(局部信用分配),而且CE基線的訓(xùn)練曲線方差更大,表現(xiàn)更不穩(wěn)定。這直接印證了理論證明中關(guān)于"局部信用分配會(huì)導(dǎo)致次優(yōu)策略"的結(jié)論。
第二組比較了使用不同數(shù)量的老師詞語(yǔ)概率進(jìn)行蒸餾的效果。研究團(tuán)隊(duì)測(cè)試了Top-1(只用老師概率最高的那個(gè)詞)、Top-100(用概率最高的100個(gè)詞)和Full(全詞匯表)三種設(shè)置,在物理領(lǐng)域進(jìn)行對(duì)比。結(jié)果顯示:Top-1表現(xiàn)最差,因?yàn)橹挥幸粋€(gè)詞的信息太少,訓(xùn)練信號(hào)過(guò)于稀疏;Full蒸餾雖然競(jìng)爭(zhēng)力更強(qiáng),但引入了大量低概率詞語(yǔ)的噪聲,略微拖累了性能;Top-100在最終性能和訓(xùn)練穩(wěn)定性上都最優(yōu)。這個(gè)發(fā)現(xiàn)也解釋了為什么論文中所有正式實(shí)驗(yàn)都使用K=100的設(shè)置。
七、說(shuō)到底,這項(xiàng)研究意味著什么
回到最開(kāi)始的問(wèn)題:為什么AI訓(xùn)練方式很重要,為什么要花這么大精力去改進(jìn)它?
從宏觀角度看,這項(xiàng)研究觸及了AI能力提升的一個(gè)核心機(jī)制——如何利用比"對(duì)錯(cuò)判斷"更豐富的信息來(lái)加速學(xué)習(xí)。隨著AI系統(tǒng)越來(lái)越多地被部署在復(fù)雜推理場(chǎng)景中,純靠最終結(jié)果判斷的訓(xùn)練方式逐漸遭遇瓶頸,尤其是在那些模型從來(lái)就做不對(duì)的超難題目上,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法徹底啞火了。DistIL提供的思路——把富反饋轉(zhuǎn)化為老師策略,然后用正確的方向和完整的信用分配來(lái)模仿——打開(kāi)了在困難場(chǎng)景中持續(xù)改進(jìn)AI的大門(mén)。
從具體影響看,這項(xiàng)研究對(duì)三類(lèi)實(shí)際應(yīng)用有直接意義。在代碼輔助工具領(lǐng)域,執(zhí)行報(bào)錯(cuò)日志是天然的富反饋,DistIL框架可以幫助AI編程助手更快地從自己的錯(cuò)誤中學(xué)習(xí)。在科學(xué)研究輔助領(lǐng)域,專(zhuān)家批注或參考解答可以作為老師信號(hào),讓AI在專(zhuān)業(yè)知識(shí)領(lǐng)域更快速地提升水平。在教育領(lǐng)域,一個(gè)AI教學(xué)系統(tǒng)如果能利用學(xué)生的詳細(xì)解題過(guò)程(而不只是最終答案對(duì)不對(duì))來(lái)改進(jìn)自身,理論上能提供更有針對(duì)性的輔導(dǎo)。
當(dāng)然,這項(xiàng)研究也有它的前提假設(shè)和局限。理論保證依賴于"老師確實(shí)比學(xué)生好"這個(gè)條件——如果富反饋質(zhì)量很差,或者老師策略本身不靠譜,那么向它靠攏只會(huì)越學(xué)越糟。此外,未來(lái)信用分配項(xiàng)的完整計(jì)算會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo),如何在大規(guī)模系統(tǒng)中高效實(shí)現(xiàn),還需要進(jìn)一步的工程工作。
歸根結(jié)底,這項(xiàng)研究用一個(gè)相當(dāng)優(yōu)雅的方式解決了"向老師學(xué)習(xí)卻可能越學(xué)越差"這個(gè)反直覺(jué)難題:關(guān)鍵不在于用什么尺子衡量師生差距,而在于學(xué)習(xí)的方向本身是否與變好對(duì)齊,以及是否完整地追溯了每一個(gè)早期決策對(duì)后續(xù)結(jié)果的影響。前向交叉熵提供了對(duì)齊方向,完整梯度提供了完整追溯,兩者結(jié)合,才讓"模仿學(xué)習(xí)"真正變得聰明了。
有意思的是,這個(gè)道理在人類(lèi)學(xué)習(xí)中其實(shí)早就被認(rèn)知科學(xué)研究所印證——好的學(xué)生不只是模仿老師的行為,他們還會(huì)理解"為什么這樣做能在后續(xù)步驟中創(chuàng)造更好的條件"。DistIL在AI訓(xùn)練領(lǐng)域?qū)崿F(xiàn)了類(lèi)似的機(jī)制,這或許才是它最值得關(guān)注的地方。
Q&A
Q1:DistIL和SDPO有什么本質(zhì)區(qū)別?
A:DistIL用"前向交叉熵"替代了SDPO的"反向KL散度"來(lái)衡量老師和學(xué)生的差距。前向交叉熵按老師的重視程度加權(quán)評(píng)估學(xué)生,學(xué)習(xí)方向天然朝向獎(jiǎng)勵(lì)提升;反向KL按學(xué)生的重視程度加權(quán),可能導(dǎo)致更新方向偏離獎(jiǎng)勵(lì)改進(jìn)目標(biāo),甚至在老師更好的情況下讓學(xué)生退步。此外,DistIL還使用完整序列級(jí)梯度而非局部梯度,能追溯早期決策對(duì)后續(xù)步驟的影響。
Q2:DistIL在什么情況下無(wú)法正常工作?
A:DistIL依賴"老師策略比學(xué)生策略更優(yōu)"這個(gè)前提。如果提供給老師的富反饋信息質(zhì)量很差(比如錯(cuò)誤的參考答案、誤導(dǎo)性的報(bào)錯(cuò)信息),老師策略本身就不可靠,向它靠攏只會(huì)適得其反。此外,理論保證還要求老師和學(xué)生策略之間存在合理的覆蓋關(guān)系,即老師關(guān)注的區(qū)域?qū)W生也有一定的概率涉及,如果兩者差距過(guò)大則效果會(huì)打折扣。
Q3:DistIL為什么能改善Pass@N這個(gè)指標(biāo)?
A:研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)證明,最小化前向交叉熵等價(jià)于最大化一個(gè)被老師成功概率加權(quán)的學(xué)生成功對(duì)數(shù)概率的下界。簡(jiǎn)單說(shuō),前向交叉熵會(huì)自動(dòng)把更多"注意力"放在老師能做對(duì)的題目上,努力提升學(xué)生在這些題目上的成功概率。根據(jù)最大似然強(qiáng)化學(xué)習(xí)的相關(guān)研究,這種最大化成功軌跡似然的方式能系統(tǒng)性地提升Pass@N指標(biāo),對(duì)任意采樣次數(shù)N都成立。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.