![]()
奧賽級科學推理,一定要從更大的通用模型開始嗎?
最近上海人工智能實驗室一份技術報告給出了一個不同答案:不調用外部工具、不執行代碼、不接入專用符號求解器,一個 30B-A3B 規模的推理模型,也可以通過統一后訓練和推理時擴展,在 IMO、USAMO、IPhO 等高難數學與物理奧賽評測中達到強勁水平。
研究團隊選擇從已有 30B-A3B 推理主干出發,先用約 33.8 萬條高質量軌跡進行反向困惑度課程監督微調,再通過 200 步兩階段強化學習提升解題能力與完整證明質量,最后在推理階段采用多輪「生成 - 驗證 - 修正」循環。模型不調用外部工具、不執行代碼、不依賴專用符號求解器,卻能夠在困難奧賽題上持續開展 10 萬詞元以上的自然語言推理。
在比賽式評測中,模型經過推理階段擴展后,在 IMO 2025 和 USAMO 2026 中均取得 35 分,達到對應金牌級水平;在 IPhO 2024/2025 等物理奧賽任務上也達到金牌水平。在 USAMO 2026 第三題(人類選手平均分僅 0.01 分,無人過 5 分)上更是取得滿分。
更重要的是,這并非來自參數驚人的「巨無霸」模型,而是一個小而精的 30B-A3B 選手。
報告還顯示,在 USAMO 2026 的推理擴展軌跡中,初始解答生成的中位長度約為 10.6 萬 token,自我修正階段中位長度約為 8.3 萬 token。
這表明,奧賽級科學推理的關鍵不只是模型規模本身,而在于能否讓模型把更長的推理預算穩定轉化為證明搜索、自我驗證和論證修復能力。
![]()
- 論文鏈接:https://arxiv.org/abs/2605.13301
- 開源鏈接:https://github.com/Simplified-Reasoning/SU-01
一般尺寸模型,也能做奧賽級證明?
奧林匹克競賽題一直是檢驗模型長程推理能力的硬場景。這類題目和常規數學問答不同, 一個正確結論遠遠不夠,模型還必須在很長的解題鏈路中持續管理假設、中間結論和邊界情形,最終給出能夠經受嚴格評分的完整證明或推導。隱藏的論證缺口、未覆蓋的分類討論、未經證明的關鍵引理,都可能讓整題失分。
因此,在過去相當長一段時間里,人們很自然地把奧賽級推理和一個條件綁定在一起:更大的通用模型底座。這份報告想回答的正是這一問題:
奧賽級推理任務,是否必須依賴更大、更強的通用模型?
研究團隊的選擇相當克制:不引入外部工具,不執行代碼,不依賴符號求解器。模型從構思、證明、檢查到修正,全部在自然語言中完成。
這樣一來,結果更直接地指向模型自身的能力:一個 30B-A3B 規模的模型,僅靠自然語言推理,能否承擔奧賽級證明?
先教會模型嚴謹推理,再讓它學會自我修正
團隊提出的簡潔統一方案可以概括為三個環節:監督微調塑造行為,強化學習提升解題能力,推理階段擴展放大證明搜索。
![]()
圖 1:方法框架,整體流程以 30B-A3B 推理主干為基礎,通過監督微調、兩階段強化學習和推理階段擴展,將模型塑造成能夠進行證明搜索、自我驗證和多輪修正的自然語言推理系統。
第一步是反向困惑度課程監督微調。研究團隊從數學、科學、代碼和指令跟隨等來源構建長鏈路推理數據,并加入自驗證、自修正樣本,使模型學習如何組織證明、檢查假設、定位漏洞并修復論證。訓練過程中,樣本按照初始模型困惑度從高到低排序:模型先接觸與當前策略差異更大的證明軌跡,再逐步鞏固更熟悉的樣本。
換言之,SFT 階段的目標并不是依靠海量數據直接堆高模型能力,而是更穩定地重塑模型的推理行為,使其形成嚴謹、可檢查、可修正的長程推理模式。
第二步是兩階段強化學習。第一階段使用可驗證題目和可靠的結果獎勵,高效提升模型的直接求解能力;第二階段則進一步從「答案是否正確」轉向「證明是否完整可靠」,引入證明質量獎勵模型、自修正任務和經驗回放機制。
其中,自修正任務讓模型在看到自身不完整或存在漏洞的解答后,學習如何重新檢查推理鏈條并生成更完整和嚴謹的修正版證明;經驗回放機制則用于保留訓練過程中少量但高價值的成功證明軌跡,避免這些在高難問題上偶然發現的有效解法被很快遺忘。
第三步在推理階段擴展。面對奧賽難題,模型并不只生成一次答案,而是進入「生成候選解答 - 檢查完整證明 - 定位問題 - 修正解答」的循環。這里擴展的不是外部工具鏈,而是模型自身的自然語言驗證與修正計算。
10 萬 token 級奧賽推理,不只是把答案寫長
![]()
圖 2:IMO-Bench 所含 ProofBench 結果。 SU-01 在直接生成時取得 57.6%,經推理階段擴展提升至 70.2%,顯著超越同尺寸模型,并 Gemini 3.1 Pro Thinking 等強閉源模型。
報告結果顯示,SU-01 在證明級評測中已經展現出強長程推理能力。在 IMO-ProofBench 上,SU-01 直接生成取得 57.6%,已是同尺寸模型中的最強結果;經推理階段擴展后,整體得分進一步提升至 70.2%,顯著超越同尺寸模型,并接近 Gemini 3.1 Pro Thinking 的 72.6%。
這說明,一般尺寸模型不僅可以追求最終答案正確,也可以通過統一訓練與推理組織提升完整證明質量。
報告還進一步指出,SU-01 的能力并不局限于競賽題。在更接近科研問題形態的 FrontierScience-Research 評測中,SU-01 取得同尺寸模型中的最佳成績,說明這套訓練方案不僅適用于奧賽基準,也具備向研究型科學問題泛化的潛力。
![]()
圖 2:USAMO 2026 推理階段擴展流程中不同動作的生成長度分布。
推理階段擴展進一步放大了模型的證明搜索和自我修正能力。通過「生成候選解答 - 檢查完整證明 - 定位問題 - 修正解答」的多輪循環,模型能夠把不完整或不穩定的嘗試轉化為嚴謹連貫的完整解答。
報告中的推理擴展分析顯示,在 USAMO 2026 的推理擴展軌跡中,初始解答生成的中位長度約 10.6 萬詞元,修正階段的中位長度約 8.3 萬詞元。
換言之,模型在 30B-A3B 規模下仍能持續開展 10 萬詞元量級的有效推理,并將長程計算用于證明構造、漏洞定位和論證修復。
數學與物理奧賽金牌水平推理
在奧林匹克官方競賽題上,SU-01 在數學奧賽和物理奧賽任務上均展現出金牌水平推理能力。
數學奧賽方面,模型在單次直接生成時已經具備較強解題能力:IMO 2025 取得 21 分,在 P2 獲得滿分,在 P4、P5 上接近滿分;USAMO 2026 取得 15 分,在 P1、P4 獲得滿分。經推理階段擴展后,模型在 IMO 2025 和 USAMO 2026 均取得 35 分,達到對應金牌級水平。
![]()
表 1:數學奧林匹克競賽評測結果。評測涵蓋 IMO 2025 和 USAMO 2026 兩項賽事;其中,IMO 2025 的金 / 銀 / 銅牌線為 35/28/19 分,USAMO 2026 的金 / 銀 / 銅牌線為 25/18/11 分。
尤其在最近的美國數學奧林匹克 USAMO 2026 上,SU-01 取得 35 分,遠超該賽事 25 分的金牌線,并達到人類選手最高分水平。
根據 340 名人類選手的得分統計,USAMO 2026 平均分為 8.59 分,中位數僅為 6 分,Top 12 分數線為 26 分、Top 24 分數線為 23 分,整場最高分為 35 分;從分題統計看,P2、P3、P6 難度尤其突出,其中 P3 平均分僅 0.01 分、無人達到 5 分以上,而 SU-01 在該題取得滿分成績。
![]()
圖 4 :USAMO 2026 人類選手得分統計與分題難度分布。該賽事共有 340 名選手參賽,平均分為 8.59 分,中位數為 6 分,Top 12 和 Top 24 分數線分別為 26 分和 23 分,最高分為 35 分。分題統計顯示,P2、P3、P6 難度突出,其中 P3 平均分僅 0.01 分,且無人達到 5 分以上。(來源https://web.evanchen.cc/exams/posted-usamo-statistics.pdf)
這說明 SU-01 的 35 分并非主要來自常規題的得分,而是在高難證明題上取得關鍵突破,整體表現達到了頂尖人類選手水平。
一個特別突出的例子是 USAMO 2026 P3:模型沒有沿用標準的綜合幾何路線,而是優雅地使用復數方法,將單位圓、等邊三角形旋轉、弦關系和切線條件統一到同一個代數框架中。這將一個奧賽選手通常會通過角追蹤和輔助構造處理的幾何配置,轉化為一種結構化的解析表述。
IMO 2025 P2 則展示了另一種互補能力,模型將一個涉及兩相交圓、垂心和切線判定的幾何問題,化約為坐標與距離計算。
其他有趣的案例還包括 USAMO P4 中的進位狀態動態規劃,以及 USAMO P6 中結合歐拉函數、同余、Vieta jumping 和 Fibonacci 結構的數論證明。
物理奧賽方面,模型在 IPhO 2024/2025 直接生成已超過金牌線,推理階段擴展后進一步提升。
![]()
表 2:物理奧林匹克競賽評測結果。評測涵蓋 IPhO 2024 和 IPhO 2025 兩項賽事;其中,IPhO 2024 金牌線為 20.8 分,IPhO 2025 金牌線為 19.7 分。表中 x /y 分別表示模型在直接生成和推理階段擴展設置下的得分。
更高效的科學推理系統路線
這項工作的價值不止于奧賽分數,而在于驗證了一條更高效的科學推理系統路線:以已有推理模型為起點,通過嚴謹推理行為塑造、證明級獎勵設計和推理時「生成 - 驗證 - 修正」閉環,將有限規模模型的計算預算轉化為可評分、可驗證的證明能力。
面向未來,這一路線有望從數學與物理奧賽擴展到更廣泛的科學問題求解,成為構建高效、可靠、可驗證科學智能系統的通用方法。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.