網易首頁 > 網易號 > 正文申請入駐

AI解數學題的速度比科學家編考題還快——技術飛速迭代，基準測試正以前所未有的速度過時——IEEE Spectrum

2026-02-28 00:05:20　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數學科普不迷路！

AI解數學題的速度比科學家編考題還快。技術飛速迭代，基準測試正以前所未有的速度過時。

作者：Benjamin Skuse（本杰明·斯庫斯）IEEE Spectrum 2026-2-26

譯者：zzllrr小樂（數學科普公眾號）2026-2-27

圖表：折線圖顯示，谷歌DeepMind的Aletheia AI在博士階段數學習題中的得分，比最新版Gemini Deep Think至少高出5%。

AI解決高階數學問題的能力正飛速提升

圖源：谷歌DeepMind

數學常被視為有效衡量AI進展的理想領域。其分步推進的邏輯易于追蹤，且答案明確、可自動驗證，能排除人為或主觀因素的干擾。但AI系統的進步速度如此之快，以至于數學基準測試已難以跟上其步伐。

早在2024年11月，非營利研究機構Epoch AI悄然發布了FrontierMath基準測試。這一標準化、嚴謹的測試工具，旨在衡量最先進AI工具的數學推理能力。

“它包含一系列難度極高的數學題，”Epoch AI高級研究員格雷格·伯納姆解釋道，“最初只有300道題，也就是我們現在所說的1-3級；但目睹AI能力突飛猛進后，我們意識到必須全力跟進才能保持領先，因此新增了一組精心設計的特殊挑戰題，命名為4級。”

大致來說，1-4級的難度覆蓋從高等本科到博士后初期階段的數學水平。該測試推出時，最先進的AI模型最多只能解決其中2%的題目。而如今，GPT-5.2、Claude Opus 4.6等最優秀的公開AI模型，已能解決FrontierMath 300道1-3級題目中的40%以上，以及50道4級題目中的30%以上。

AI挑戰博士級數學研究

這種驚人的進步速度毫無放緩跡象。例如，谷歌DeepMind近期宣布，其基于Gemini Deep Think開發的實驗性AI系統Aletheia，取得了可發表級別的博士水平研究成果。盡管從數學角度來看較為冷門——計算算術幾何中名為“特征權重”的特定結構常數——但這一成果在AI發展史上具有重要意義。

“他們聲稱該系統基本實現了自主研究，即無需人類指導，且研究結果達到了發表標準，”伯納姆說，“這雖然算不上能讓數學家們興奮不已的重大成果，但它是全新的——是我們此前從未見過的突破。”

為了讓這一成就更易理解：FrontierMath的所有題目都有人類已推導得出的已知答案，而Aletheia的成果，盡管“人類若花一周時間潛心鉆研或許也能完成”，但在此之前，從未有人做到過。

Aletheia的成果及其他AI“數學家”近期的突破表明，我們亟需更快地推出更嚴苛的新基準測試來評估AI能力，因為現有測試很快就會過時。“已有好幾代較簡單的數學基準測試被淘汰了，”伯納姆說，“FrontierMath可能在未來兩年內達到飽和狀態（即最先進AI模型得分為100%），甚至可能更快。”

“首輪證明”挑戰賽

為應對這一問題，2月6日，11位頂尖數學家聯合發起了“首輪證明”（First Proof）挑戰賽。該挑戰賽包含10道極難的數學題，均源自出題者自身的研究過程，證明過程約5頁紙以內，且此前未向任何人公開。這一挑戰賽是評估AI系統獨立解決研究級數學問題能力的初步嘗試。詳情參閱：

挑戰賽在數學界引發了廣泛關注，專業與業余數學家紛紛參與，OpenAI等團隊也積極應戰。但截至2月14日出題者公布證明過程時，尚無任何參與者能提交全部10道題的正確解答。

事實上，差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro，也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團隊外，多數外部參與者的表現都不盡如人意。在“有限人類監督”下，OpenAI最先進的內部AI系統解決了10道題中的5道，Aletheia也取得了類似成績——數學界對此反應不一，有人驚嘆，也有人失望。“首輪證明”挑戰賽團隊計劃于3月14日推出難度更高的第二輪挑戰。

AI的新前沿

“我認為‘首輪證明’挑戰賽非常出色：它盡可能真實地讓AI系統模擬數學家的工作場景，”伯納姆說。盡管他贊賞該挑戰賽能測試AI對各類數學領域及數學家的實用價值，但Epoch AI也推出了自己的新測試方案——FrontierMath：開放問題（參閱）。這一試點基準測試的獨特之處在于，它包含16道來自研究領域的開放問題（后續還將新增），這些問題都是專業數學家嘗試解決但未能成功的難題。自1月27日推出以來，尚無AI能解決其中任何一道題。

“通過‘開放問題’測試，我們試圖讓挑戰難度再上一個臺階，”伯納姆說，“僅達到基準線的成果就具備發表價值，至少能在專業期刊上發表。”更重要的是，每道題都設計成可自動評分的形式。“這有點違反直覺，”伯納姆補充道，“雖然沒人知道答案，但我們有一個計算機程序，能夠判斷提交的答案是否正確。”

伯納姆認為“首輪證明”與“開放問題”這兩項測試是互補的。“我認為對AI能力的了解越多越好，”他說，“AI已經發展到在某些方面優于大多數博士生的水平，因此我們需要提出一些人類數學家至少會適度感興趣的問題——不是因為這些問題是AI在解決，而是因為它們本身就是人類數學家關注的數學問題。”

參考資料

https://spectrum.ieee.org/ai-math-benchmarks

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.