★置頂zzllrr小樂公眾號(主頁右上角)數學科普不迷路!
AI解數學題的速度比科學家編考題還快。技術飛速迭代,基準測試正以前所未有的速度過時。
作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26
譯者:zzllrr小樂(數學科普公眾號)2026-2-27
![]()
圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數學習題中的得分,比最新版Gemini Deep Think至少高出5%。
AI解決高階數學問題的能力正飛速提升
圖源:谷歌DeepMind
數學常被視為有效衡量AI進展的理想領域。其分步推進的邏輯易于追蹤,且答案明確、可自動驗證,能排除人為或主觀因素的干擾。但AI系統的進步速度如此之快,以至于數學基準測試已難以跟上其步伐。
早在2024年11月,非營利研究機構Epoch AI悄然發布了FrontierMath基準測試。這一標準化、嚴謹的測試工具,旨在衡量最先進AI工具的數學推理能力。
“它包含一系列難度極高的數學題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現在所說的1-3級;但目睹AI能力突飛猛進后,我們意識到必須全力跟進才能保持領先,因此新增了一組精心設計的特殊挑戰題,命名為4級。”
大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數學水平。該測試推出時,最先進的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。
AI挑戰博士級數學研究
這種驚人的進步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發的實驗性AI系統Aletheia,取得了可發表級別的博士水平研究成果。盡管從數學角度來看較為冷門——計算算術幾何中名為“特征權重”的特定結構常數——但這一成果在AI發展史上具有重要意義。
“他們聲稱該系統基本實現了自主研究,即無需人類指導,且研究結果達到了發表標準,”伯納姆說,“這雖然算不上能讓數學家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破。”
為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。
Aletheia的成果及其他AI“數學家”近期的突破表明,我們亟需更快地推出更嚴苛的新基準測試來評估AI能力,因為現有測試很快就會過時。“已有好幾代較簡單的數學基準測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內達到飽和狀態(即最先進AI模型得分為100%),甚至可能更快。”
“首輪證明”挑戰賽
為應對這一問題,2月6日,11位頂尖數學家聯合發起了“首輪證明”(First Proof)挑戰賽。該挑戰賽包含10道極難的數學題,均源自出題者自身的研究過程,證明過程約5頁紙以內,且此前未向任何人公開。這一挑戰賽是評估AI系統獨立解決研究級數學問題能力的初步嘗試。詳情參閱:
挑戰賽在數學界引發了廣泛關注,專業與業余數學家紛紛參與,OpenAI等團隊也積極應戰。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。
事實上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團隊外,多數外部參與者的表現都不盡如人意。在“有限人類監督”下,OpenAI最先進的內部AI系統解決了10道題中的5道,Aletheia也取得了類似成績——數學界對此反應不一,有人驚嘆,也有人失望。“首輪證明”挑戰賽團隊計劃于3月14日推出難度更高的第二輪挑戰。
AI的新前沿
“我認為‘首輪證明’挑戰賽非常出色:它盡可能真實地讓AI系統模擬數學家的工作場景,”伯納姆說。盡管他贊賞該挑戰賽能測試AI對各類數學領域及數學家的實用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點基準測試的獨特之處在于,它包含16道來自研究領域的開放問題(后續還將新增),這些問題都是專業數學家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。
“通過‘開放問題’測試,我們試圖讓挑戰難度再上一個臺階,”伯納姆說,“僅達到基準線的成果就具備發表價值,至少能在專業期刊上發表。”更重要的是,每道題都設計成可自動評分的形式。“這有點違反直覺,”伯納姆補充道,“雖然沒人知道答案,但我們有一個計算機程序,能夠判斷提交的答案是否正確。”
伯納姆認為“首輪證明”與“開放問題”這兩項測試是互補的。“我認為對AI能力的了解越多越好,”他說,“AI已經發展到在某些方面優于大多數博士生的水平,因此我們需要提出一些人類數學家至少會適度感興趣的問題——不是因為這些問題是AI在解決,而是因為它們本身就是人類數學家關注的數學問題。”
參考資料
https://spectrum.ieee.org/ai-math-benchmarks
小樂數學科普近期文章
·開放 · 友好 · 多元 · 普適 · 守拙·![]()
讓數學
更加
易學易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉載、投稿
查看原始文章出處
點擊zzllrr小樂
公眾號主頁
右上角
置頂★加星
數學科普不迷路!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.