網易首頁 > 網易號 > 正文申請入駐

南方科技大學等機構聯手破解AI推理訓練難題

2026-04-22 22:26:39　來源: 科技行者

北京舉報

分享至

這項由南方科技大學、北京郵電大學、微軟亞洲研究院、上海財經大學、清華大學及INFLY TECH聯合開展的研究，以預印本形式于2026年4月發布，論文編號為arXiv:2604.08865。感興趣的讀者可以通過該編號在arXiv平臺查閱完整論文。

**當AI做數學題，"打分員"卻失靈了**

假設你正在教一個學生做數學題，你的評分方式是：等他把整道題全部寫完，才告訴他"對"或"錯"。問題來了——學生寫了滿滿兩頁紙的推理過程，最終答案錯了，但你只能說一句"不對"。這位學生要怎么知道是第三行開始走偏，還是最后一步算術出錯？你的反饋幾乎幫不上什么忙。

這正是目前大型語言模型（簡稱大模型，也就是ChatGPT、DeepSeek這類AI）在學習復雜推理時面臨的真實困境。研究人員發現，讓AI學會解數學題、做邏輯推理，需要用到一種叫做"強化學習"的訓練方法——本質上就是讓AI不斷嘗試、不斷根據反饋調整。但現有主流訓練方法存在根本性的缺陷，而這篇論文提出的新方法，正是為了徹底解決這個問題。

**一、訓練AI推理，為什么這么難**

要理解這項研究的價值，得先弄清楚AI推理訓練的現狀。

目前讓大模型學會解題，主流方法叫做PPO（近端策略優化）。你可以把它理解成一種"步步打分"的訓練機制。AI每生成一個詞，系統就有一個"打分員"（技術上稱為Critic，批評家）在旁邊估算：按照現在這個走勢，最終能答對的概率是多少？然后根據這個概率，獎勵或懲罰剛才的每一步操作。

聽起來很合理，但問題出在AI推理的特殊性上。當AI解一道數學題時，它可能需要連續輸出幾千個字的推理過程——這就像一篇很長的偵探調查報告。而最終的反饋只有一個："答案正確"或"答案錯誤"。打分員必須把這個唯一的結果，沿著幾千步的推理鏈條，一路往回分配功勞或責任。

研究團隊通過實驗直接觀察了這個"打分員"的行為，結果令人震驚。他們發現，打分員實際上是在偷懶——它根本不關心AI在推理過程中的第三步、第五步、第二十步在做什么，而是一直等到推理接近尾聲，才突然"清醒過來"，根據最后幾行文字的語義特征猜測答案是否正確。這就好比一個判卷老師，全程不看解題過程，只盯著最后一行看，憑"感覺"打分。

這種現象被研究團隊命名為"尾部效應"（Tail Effect）。它帶來了兩個直接后果：對于答對的推理鏈，打分員在接近結尾時才給出高分，導致AI的整個推理過程幾乎收不到任何有效的激勵信號；對于答錯的推理鏈，打分員在中間過程中也沒有給出足夠的懲罰，無法讓AI知道哪里出了問題。如此一來，標準PPO訓練出的AI，往往不僅沒有進步，甚至比訓練前更差。

面對這一困境，另一個流行方案應運而生，叫做GRPO（群組相對策略優化）。它的思路是直接扔掉那個不靠譜的打分員，改用一種"橫向比較"的方式：對同一道題，讓AI同時生成一批答案（通常是8個），然后以這批答案的平均得分作為基準，那些比平均水平好的答案就得到獎勵，差的就受到懲罰。

這個方法在實踐中效果相當不錯，原因在于：它不再試圖給推理過程中的每一步打分，而是把整個推理鏈當成一個整體來評價。然而，它的代價也很明顯——每道題都要生成8個答案，計算量直接翻了8倍。在訓練大模型這種極度耗費算力的場景下，這意味著訓練時間大幅延長，成本急劇攀升。

**二、一個關鍵發現：GRPO其實在"偷偷做別的事"**

這篇論文最有趣的地方在于，研究團隊對GRPO為何有效做出了一個全新的解讀，而這個解讀成為了他們提出新方法的理論基礎。

研究團隊用數學工具仔細分析了GRPO的運作機制后發現：GRPO之所以奏效，并不是因為"多采樣"本身有什么神奇之處，而是因為它在不知不覺中把整個推理任務從一種框架切換到了另一種框架。

具體而言，標準PPO把AI解題看作一個漫長的"連續決策過程"——就像下棋，每走一步都有意義，每一步都可能影響最終勝負。這在理論上很美好，但實踐中就會遇到前文描述的打分困難。而GRPO通過把整個答案當成一個整體來評分，實際上是把解題任務變成了一個完全不同的模型——技術上叫做"序列級情境賭博機"（Sequence-Level Contextual Bandit）。

"賭博機"這個比喻很直觀：你走進一家賭場，面前有一排老虎機（每臺代表一道題），你拉一次搖臂（生成一個完整答案），立刻得到一個結果（正確或錯誤），然后你根據這個結果決定下次對這臺老虎機是否繼續拉。整個過程沒有"中間步驟"的概念，只有"整體行動"和"最終結果"的對應關系。

這個視角的轉變非常重要，因為它意味著：當你不再試圖給每個步驟單獨打分，"打分員失靈"的問題就自然消失了。GRPO的成功，本質上是這種框架切換的成功，而非多采樣的必然功勞。

這個發現讓研究團隊想到了一個問題：既然框架切換才是關鍵，我們能不能在保留這個框架的同時，擺脫多采樣的高昂代價？

**三、SPPO：用一個聰明的"預測員"替代一批答案**

基于上述洞察，研究團隊提出了他們的新方法：SPPO（序列級近端策略優化）。

核心思路可以用一個生活場景來理解。假設你在準備高考，你的家教老師給你出了一道難題。標準PPO的方式是：出題，你作答，老師給整道題的每一行打分，但他因為"尾部效應"而打分失準。GRPO的方式是：出題，你和7個同學同時作答，老師把你的成績和大家平均成績做比較，準確但費時。SPPO的方式是：出題，老師根據以往對你能力的了解，先預估你答對這道題的概率，然后你只作答一次，用"實際結果"減去"預估概率"來判斷你這次發揮是超水準還是低水準。

這個"預估概率"就是SPPO引入的關鍵組件：一個輕量級的"價值模型"（Value Model）。它的唯一任務是，在看到一道題之后，預測當前的AI有多大概率能答對這道題——用一個0到1之間的數字表示。這個數字，就是"題目難度的預估"。

當AI作答完畢，得到"對（1分）"或"錯（0分）"的結果后，SPPO用一個極簡的公式計算優勢信號：實際結果減去預估概率。比如，一道題預估答對率為0.3（很難），但AI答對了，那么優勢信號就是1-0.3=0.7，說明這次表現遠超預期，需要大力強化這個推理策略。反之，如果預估答對率0.9（很容易），但AI答錯了，優勢信號就是0-0.9=-0.9，說明這次翻車非常嚴重，需要強力糾正。

這個優勢信號不再分配給推理過程中的每一步，而是均勻地廣播給整個推理鏈中的所有步驟。如果這道題答對了，每一步都受到同等強度的鼓勵；如果答錯了，每一步都受到同等強度的懲罰。這種"一榮俱榮，一損俱損"的機制，完全繞開了"每步單獨打分"的難題。

與此同時，這個價值模型用一種叫做"二元交叉熵"的方式訓練，本質上就是讓它學會更準確地預測題目難度。當預測越來越準確時，AI訓練的穩定性也隨之提升——因為一個好的基準讓AI能更清楚地區分"這次是真的進步了"還是"只是運氣好"。

**四、一個意外驚喜：小身材可以駕馭大模型**

SPPO在設計上還帶來了一個額外的好處，研究團隊稱之為"解耦批評家策略"（Decoupled Critic）。

在標準PPO中，那個"打分員"（Critic）通常和被訓練的AI模型一樣大。這是因為打分員需要理解AI在每一步的輸出，從而估算當前局面的價值，而這種理解能力要求打分員具備和AI相當的語言理解能力。于是，如果你要訓練一個70億參數的AI，打分員也需要70億參數，內存占用直接翻倍。

但在SPPO的框架中，價值模型的任務極度簡化——它只需要看一道題，輸出一個數字，告訴你這道題的預估難度。這個任務遠比"理解復雜推理過程"簡單得多。

研究團隊測試了一種極端組合：用一個只有15億參數的小模型（DeepSeek-R1-Distill-Qwen-1.5B）作為價值模型，去輔助訓練一個70億參數的大模型（DeepSeek-R1-Distill-Qwen-7B）。結果出乎意料——這個"小個子"價值模型不僅能正常工作，而且這個組合在所有測試基準中取得了最高的平均分。顯卡內存占用也從標準配置的91.5%下降到78.7%，降幅超過12個百分點。

這個發現在實踐層面意義重大。研究人員指出，預估一道題的難度，根本不需要具備解題能力，就好比一個經驗豐富的老師一眼就能判斷某道題"很多學生會錯"，即使他自己不親自去做這道題。因此，用一個小模型完成這項預估任務，在邏輯上是合理的，而且在實驗中也確實有效。

**五、數字驗證：SPPO的表現到底如何**

論文通過大量實驗來驗證SPPO的實際效果，測試平臺涵蓋多個廣為認可的數學推理基準：AIME24、AIME25（美國數學邀請賽題目）、AMC23（美國數學競賽）、MATH500（5個難度等級的數學題集）以及Minerva Math（需要定量推理能力的科學題目）。

在1.5B規模（15億參數）的模型上，標準PPO的綜合平均分是44.06，甚至低于未經訓練的基礎模型（44.96）。這印證了"尾部效應"的危害——錯誤的訓練信號不僅沒有幫助，反而起到了負面作用。GRPO在使用8個樣本的情況下，綜合平均分提升至47.08。而SPPO僅使用單個樣本，綜合平均分達到了48.06，超過了GRPO。

在7B規模（70億參數）的模型上，結果同樣清晰。標準PPO從基礎模型的52.49分提升到56.44分，進步明顯但并不突出。GRPO達到57.44分，SPPO達到58.11分，配備小尺寸價值模型的SPPO組合更是達到了58.56分，拿下了所有方法中的最高分。

從訓練速度的角度來看，差距更為直觀。GRPO因為每道題都需要生成8個答案，訓練進程推進得很慢。SPPO每道題只生成1個答案，在相同時間內能完成更多輪更新。實驗數據顯示，SPPO大約在22小時內就能達到約58分的峰值水平，而GRPO等方法需要明顯更長的時間才能達到可比水平，整體速度差距約為5.9倍。

為了確認SPPO的優勢確實來自其核心設計思想而非其他因素，研究團隊還做了一個對照實驗：把SPPO用來訓練價值模型的方式（二元交叉熵損失）直接嫁接到標準PPO框架上，其他一切保持不變，命名為"PPO + BCE"。結果顯示，這個混合方案和標準PPO一樣不穩定，同樣出現了性能崩潰。這意味著，SPPO的成功不是因為某個特定的數學技巧，而是因為"把整個推理鏈當作一個整體來評價"這個根本性的框架轉變。

**六、不只是紙上談兵：在經典游戲控制任務上的驗證**

為了排除"成功可能只是因為在某個特定訓練框架下的系統優化"這一疑慮，研究團隊把SPPO移植到了五個經典的強化學習控制任務上：精密版CartPole（控制桿子不倒）、MountainCar（讓小車爬上山）、Hopper（雙足機器人前進）、LunarLander（月球著陸器著陸）和Pendulum（保持擺桿直立）。

這些任務被專門改造成類似AI推理的稀疏獎勵模式：整個過程中沒有任何中間反饋，只在最終時刻給出"成功"或"失敗"的二元結果。這和AI解數學題的情境高度吻合。

測試結果顯示，在難度最高的Hopper和MountainCar任務上，標準PPO幾乎完全失敗，成功率停在接近零的水平；而SPPO成功解決了這兩個任務，成功率穩步攀升。在LunarLander上，SPPO保持了穩定上升的學習曲線，而標準PPO則出現了明顯的波動和倒退。在精密CartPole上，SPPO收斂速度明顯更快。這組實驗表明，SPPO的優越性是算法本身的特性，在不同的任務場景下都能復現。

**七、價值模型學到了什么**

研究團隊還專門分析了價值模型的質量，因為SPPO的整個機制都依賴于一個能準確預測題目難度的價值模型。

他們隨機抽取了200道題目，讓AI多次嘗試每道題，用實際答對率作為"真實難度"的衡量標準，再與價值模型的預測值做對比。皮爾遜相關系數（衡量線性相關程度的指標，滿分1.0）達到0.642，斯皮爾曼等級相關系數（衡量排名是否一致）達到0.664。這意味著價值模型確實學會了區分難題和簡單題，雖然不完美，但相關性足夠顯著，能為訓練提供有效的基準信號。

研究團隊還觀察到一個有趣的現象：價值模型的預測值整體呈現"保守"的特點，傾向于預測在0.6到0.7之間，而不是極端的0或1。這種"回歸均值"的行為實際上對訓練是有益的——它不會因為過于自信或過于悲觀而產生扭曲的訓練信號，而是始終保持一種適度的不確定性，讓真正的"超常發揮"和"出乎意料的失誤"都能產生足夠強的糾正信號。

**說到底，這項研究發現了什么，又意味著什么**

歸根結底，這項研究回答了一個在AI訓練領域長期存在爭議的問題：大模型推理能力的訓練，應該用什么樣的框架來建模？

研究團隊的答案是：把整個推理過程當成"一次性行動"來評價，而不是"一系列連續步驟"。這不是一種妥協，而是一種更貼近問題本質的視角。推理過程本身是AI內部的思考流，而外部可觀測的、有意義的評價對象是完整的推理結果，兩者之間不需要強行建立逐步對應關系。

從實際影響來看，這項研究降低了訓練高質量推理AI的門檻。過去，訓練一個70億參數的推理模型需要同時加載一個同等大小的打分員，內存壓力極大；而SPPO允許用一個小十倍的模型擔任價值預測者，讓更多研究者能夠在有限的計算資源下開展實驗。5.9倍的訓練速度提升，則意味著同樣的算力能在更短時間內完成實驗迭代，加快AI推理能力的研究進展。

當然，這項研究也坦誠地指出了自身的局限：SPPO的設計前提是存在一個明確的對錯判斷——數學題是否答正確。對于那些沒有標準答案的開放性任務，比如"幫我寫一首感情細膩的詩"，這個框架就無從評判，需要另辟蹊徑。

對于想要深入了解技術細節的讀者，可以通過arXiv平臺，以論文編號arXiv:2604.08865查閱完整原文，研究團隊也已將全部代碼開源，地址為github.com/sustech-nlp/SPPO，可以直接獲取實驗腳本和復現所需的配置參數。

Q&A

Q1：SPPO和GRPO相比，訓練速度快多少，性能有沒有損失？

A：根據論文實驗數據，SPPO在訓練速度上比GRPO快約5.9倍，主要原因是GRPO每道題需要同時生成8個答案，而SPPO只需生成1個。性能方面，SPPO不僅沒有損失，在1.5B和7B兩種規模的模型上，SPPO的綜合平均分都略高于GRPO（N=8）。使用更小尺寸價值模型的SPPO組合更是拿下了所有測試方法中的最高分。

Q2：SPPO里的價值模型要多大才夠用，能不能用比主模型小很多的模型？

A：實驗結果表明，價值模型可以遠小于主模型。研究團隊測試了用15億參數模型作為價值模型來輔助訓練70億參數主模型，兩者相差約4.7倍。結果顯示，這個"小個子"組合不僅正常工作，還取得了所有方案中的最高測試分數，同時把顯卡內存占用從91.5%降低到78.7%。這說明預測題目難度所需的能力，遠比解題能力更容易學習。

Q3：標準PPO在推理訓練中為什么會失敗，具體是哪里出了問題？

A：標準PPO失敗的核心原因是"尾部效應"——其內置的打分員（Critic）無法在幾千步的推理過程中有效分配獎懲信號，而是一直等到推理接近結尾才根據最后幾行文字猜測結果，導致整個中間推理過程既收不到有效激勵，也收不到有效懲罰。論文通過可視化實驗直接觀察到，正確和錯誤推理鏈的價值曲線在中間階段幾乎完全重疊，只在結尾附近才分開，證實了這一失效機制。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.