![]()
被一道數學競賽題卡住很久時,高手往往能準確地判斷:現在缺的是一個技術細節,還是整個思路從一開始就走錯了?在回顧自己的探索和進展時,他們不斷地評估哪些步驟已經通過驗證,哪些命題存在缺陷,甚至憑直覺就能意識到哪些假設不可行;然后決定繼續深挖,還是徹底轉向一條全新的路徑。知道自己卡在哪里、又該在何時推倒重來,是人類解決困難問題時極其關鍵的元認知能力。
而這恰恰是當前最強大語言模型仍難以穩定具備的能力。它們會沿著一條看似合理的路線不斷補充細節、修飾論證,寫出局部自洽、甚至頗具說服力的推導;但模型往往缺乏可靠的機制去識別「這不是一個需要繼續打磨的解法,而是一條死路」。模型很難通過自我糾正跳出根本性錯誤的推理方向,而且缺乏像人類一樣「從錯誤中學習」的主動意識。
為了解決這一瓶頸,清華大學與微軟亞洲研究院的研究團隊提出了一個推理多智能體系統 STAR-PólyaMath,在 LLM 外部構建了一套完整的探索-推理-驗證框架(harness),通過協調 Reasoner、Verifier 和 Meta-Strategist 三個智能體角色,循環驅動長程證明,使推理過程變得可驗證、可回溯,實現跨嘗試積累經驗。
STAR-PólyaMath 在八大頂級數學競賽基準上全部取得最優成績,其中 AIME 2025/2026、Putnam 2025、HMMT 2026 獲得滿分,在最難的 MathArena Apex 2025 上領先同基座的 GPT-5.5 模型達 13.5%。
![]()
- 論文標題:STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision
- 論文鏈接
- https://arxiv.org/abs/2605.19338v1
- 開源鏈接
- https://github.com/Julius-Woo/STAR-PolyaMath
本文第一作者吳嘉驁,是清華大學人工智能學院 T-STAR Lab 的一年級博士生,研究方向是大模型推理及智能體系統。本文通訊作者是微軟亞洲研究院首席研究員(Principal Researcher)張憲和清華大學人工智能學院董胤蓬助理教授。其他合作者來自紐約大學、MIT 等。清華大學 T-STAR Lab 聚焦 AI 基礎理論、AI 安全、智能體、空間智能等方向研究,致力于理解人工智能模型的機理,發展安全、可靠、可信的人工智能理論與方法。
一、案例:GPT-5.5 反復錯誤,
STAR-PólyaMath 成功突破
MathArena Apex 是從 2025 年近百場公開數學競賽中篩選出的前沿模型穩定無法解出的 12 道問題,彼時最強模型的平均正確率不到 5%。MathArena 團隊在定性分析中指出了一個普遍現象:模型傾向于很快鎖定一個(往往錯誤的)答案并努力證明其正確,而不是繼續尋找更好的方案。
Apex 2025 Problem 2(「The Zigzagging Chessboard」,源自 Turkey TST 2025 P5)是其中的一個典型案例。問題要求確定一個和多邊形邊界方格計數相關的最優常數 k,正確答案是 k = 1/2。開啟最高思考強度的 GPT-5.5 對這道題進行了 8 次獨立嘗試,只對了 1 次。仔細看每次的推理過程,它快速收斂到某個次優構造上,得出錯誤答案,并努力提供邏輯自洽的論證來支撐這個錯誤結論。
這正是我們前面提到的大模型在長程數學推理中面臨的核心困境。盡管模型有足夠的數學知識來解決問題,但當一個合理或普遍的錯誤方向形成后,它缺乏「跳出當前思路回顧」的元認知,在同一個錯誤上空轉。
在 Apex Problem 2 上,STAR-PólyaMath 的 Reasoner 第一次嘗試同樣失敗,盡管它認為做出了答案3/4,但 Verifier 始終質疑其證明過程,且在經歷三次超時失敗后,Meta-Strategist 從跨嘗試的失敗記錄中做出了一個關鍵判斷:「這個方向是根本錯誤的」,明確禁止后續推理重新錨定在 3/4上,并授權重新規劃(re-plan)。新方案找到了一個更密集的構造,將結果推至 1/2,并通過數學推導和實際構造簡單連通多邊形的代碼驗證,完成了嚴格證明。
![]()
STAR-PólyaMath 在 Apex 2025 Problem 2 上的案例對比
二、長程推理的三重困難
前沿大語言模型在推理上已經非常強大,在數學競賽上能取得接近滿分的成績。但面對最困難的競賽題時難以一上來就有正確的思路,需要不斷探索、提出假設、取得進展或推翻猜想,甚至推倒重來。在這種長程推理中,三類系統性的失敗模式反復出現。
- 幻覺累積與可信性問題。模型傾向于對自身的中間結論保持高置信度,中間步驟中一個看似微小的錯誤(例如一個邊界情況的遺漏)會在后續推導中不斷放大。
- 跨嘗試的記憶丟失。當一條證明路徑失敗、需要回溯時,大多數系統要么保留過多上下文信息,導致無法準確定位錯誤,要么丟失之前嘗試的關鍵信息(上下文被壓縮或會話重置),結果是反復嘗試已經被證偽的方向,正如 GPT-5.5 在 Apex Problem 2 上的表現。一個可靠的推理系統需要對「哪些路走不通」保持持久且結構化的記憶。
- 推理與工具使用的失衡。運行代碼是可靠的計算和驗證手段,但也有研究表明,經過工具使用數據訓練的模型會系統性地偏向代碼而忽視數學結構的發掘。尤其是在復雜的組合問題上,暴力搜索幾乎很快就達到了不可承受的計算規模。反過來,純自然語言推理又難以處理需要符號化構造的問題。在缺乏元認知判斷的情況下,模型難以平衡好「何時該計算探索、何時該數學推理」。
三、STAR-PólyaMath:
結構化推理與持久元監督
STAR-PólyaMath 的設計靈感來源于波利亞(George Pólya)在《How to Solve It》中提出的解題步驟,即理解問題、制定計劃、執行計劃、回顧反思。這被結構化為框架的四個階段:探索(exploration)、規劃與分解(planning & decomposition)、逐步執行與挑戰循環(step-wise execution & challenge loop)、解答生成(solution generation)。
![]()
STAR-PólyaMath 系統工作流
架構設計
整個框架由一個無推理能力的 Python 編排器(Orchestrator)協調三個智能體。
- Reasoner負責實際的問題求解,包括探索問題結構、提出計劃、執行每一步的推理或計算,并在受到質疑時為自己的論證辯護。它的輸出始終需要通過驗證環節。在一次嘗試(即順序執行一個計劃)中,它保留完整記憶,但在回溯和重新計劃時重置記憶,以減少錯誤推理的污染。
- Verifier負責對 Reasoner 的輸出進行獨立審查,不保留記憶。審查有兩個門控機制,目標門(Goal Gate)檢查該步驟是否真正完成了計劃中聲明的目標,防止「語義漂移」(即論證正確但僅完成了平凡的解答),邏輯門(Logic Gate)則審查推理內容的正確性。審查后給出四種判定之一:通過(Accept)、質疑(Challenge)、回溯(Trace-Back)或 Propose-Replan(提出重新規劃)。
- Meta-Strategist是該框架最關鍵的創新。它就像一位經驗豐富的導師,不執行任何具體的數學推理,而是在更高層面給出指導。它在整個問題的解決過程中保持單一持久會話,積累所有之前的嘗試、被放棄的策略以及長期存在的失敗模式。在關鍵時刻,Meta-Strategist 會給出具體的策略建議,例如在 Verifier 提出重新規劃時做出最終裁決。當檢測到 Reasoner 連續陷入無意義的計算等待時,它可以發出強制性指令,要求切換到禁止使用代碼的純推理模式。
使推理過程可驗證
STAR-PólyaMath 通過分層驗證標簽(verification tags)讓長程推理的每一步都具有可檢驗性。每個中間斷言都必須標注為 [verified](已執行代碼驗證)、[easy-verify](可通過簡單計算檢查)或 [hard-verify](需要嚴格的數學審查)。這套標簽決定了 Verifier 的審查力度,代碼驗證的結果被直接視為可信,純數學論證則接受最嚴格的邏輯審查。
從實際運行統計來看,這種分層策略體現了清晰的適應性。在 AIME 和 HMMT 這類以計算為主的競賽中,約 36-43% 的斷言通過代碼驗證;而在 IMO、Putnam 等以證明為主的競賽中,85% 以上的斷言屬于 [hard-verify],由 Verifier 承擔主要驗證工作。框架并非一刀切地偏向工具或推理,而是根據問題性質動態調整驗證策略。
![]()
挑戰循環與錯誤恢復
Reasoner 與 Verifier 之間的交互是一種保留完整會話上下文的結構化辯論(structured debate)。當 Verifier 對某一步提出質疑時,Reasoner 可以為自己辯護、補充論證或修正錯誤,Verifier 則基于新的信息重新評估。這種雙向辯論機制防止了過于保守的 Verifier 錯誤否決正確的論證。
當步驟內辯論無法收斂時,框架具備兩層錯誤恢復機制。回溯(Trace-back)將推理回退到出錯的源頭步驟,歸檔錯誤的分支,同時保留已驗證的中間結果供新嘗試使用。重新規劃(Re-plan)則是更徹底的回退,當 Meta-Strategist 判斷整個計劃方向有誤時,它授權歸檔當前計劃并重新開始,同時將先前失敗的方向標定禁止,注入后續所有 Reasoner 的上下文中。
這些機制共同保證了推理過程的可靠性。錯誤被盡早發現,不會持續傳播;失敗被結構化記錄,不再重復發生;長程推理的每一步都有獨立的可驗證性。
四、實驗結果
STAR-PólyaMath 使用 GPT-5.5(xhigh effort)作為三個智能體的基座模型,在 8 個頂級數學競賽基準上全部取得最優成績(評測協議和 MathArena 對齊,詳見論文):
![]()
STAR-PólyaMath 在 Apex 2025 上的提升最為顯著,達到 93.75%,而直接調用同基座的 GPT-5.5 模型僅為 80.21%,差距達 13.5%。這組問題恰恰是需要多步證明和策略切換的最難問題,也正是 Meta-Strategist 發揮最大價值的場景。
從運行統計來看,計算開銷與問題難度高度相關。AIME 級別的問題平均 8 分鐘即可完成,100% 在探索階段就直接解決,幾乎不觸發 Meta-Strategist。而 Apex 2025 和 IMO 2025 級別的問題平均耗時 55 分鐘以上,Meta-Strategist 平均每題介入 1.6-2.2 次。框架不會對簡單問題施加不必要的開銷,但在真正困難的問題上投入充足的計算資源進行探索推理。
![]()
基座模型替換實驗清楚地表明性能提升來自結構化推理 harness 框架,而非模型本身。將基座模型從 GPT-5.5 替換為 GPT-5.2 或 Claude Opus 4.7 后,框架仍然在所有基準上超越對應模型的直接調用結果。混合配置(如 Reasoner 用一個模型、Meta-Strategist 用另一個)也未能超越統一配置,說明性能增益主要來自智能體間的協議和循環結構。
![]()
逐一去除 harness 組件的消融實驗進一步揭示了各機制的貢獻。去掉回溯和重新規劃的機制后,IMO 2025 和 Apex 2025 的得分在所有消融設置中損失最大,說明跨步驟錯誤恢復對長程推理的關鍵性。去掉 Meta-Strategist 的持久記憶(每次介入都是新會話、不保留歷史),IMO 2025 比完全去掉 Meta-Strategist 還低,說明無記憶的干預反而引入了無效噪聲。不允許 Reasoner 對 Verifier 的質疑進行辯護后,Putnam 2025 從 91.67% 跌至 75%,表明雙向辯論對證明類任務尤為重要。
![]()
五、超越數學:一種可泛化的推理范式
在前沿模型已經具備足夠的知識和推理能力的前提下,越來越多人意識到制約其在長程任務上表現的瓶頸在于 harness 設計和結構化思考。STAR-PólyaMath 的設計并不依賴數學領域的特殊性質。其核心機制(將長程任務分解為可驗證的子步驟、結構化檢驗每一步的正確性、跨嘗試記憶、高層次監督和經驗性指導)本質上適用于任何需要長程、可回溯、可驗證推理的場景。
例如,在代碼生成中,一個類似的框架可以將「生成-測試-調試」循環結構化為帶有回溯的狀態機,其中 Meta-Strategist 可以在反復修補失敗后判斷「當前架構方向本身有問題,需要重寫」。在科學發現中,Reasoner 對應假設的提出和實驗設計,Verifier 對應實驗結果的審查,Meta-Strategist 則在多輪假設失敗后綜合判斷「應該修正實驗方法還是底層假設」。
該項目已開源完整的代碼框架、所有角色的 prompt 和 skill 定義、運行配置,便于社區將這套推理協議遷移到其他領域。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.