无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI數學測試遇挫:十道全新難題,頂尖模型僅解出六道

0
分享至



AI在數學領域的每一次突破都能引爆科技圈。上個月,OpenAI的系統剛剛攻克了已故數學家保羅·埃爾德什留下的一道80年懸案,舉世矚目。然而就在6月10日,一項名為"First Proof"的嚴格數學基準測試給出了更冷靜的評估:面對十道全新的研究級數學難題,表現最好的AI系統只解出了其中六道,頂尖人類數學家的綜合解題能力,目前依然超過所有參賽的AI模型。

這項測試由哈佛大學等機構的數學家聯合發起,核心設計理念只有一個:徹底堵死AI"背答案"的可能性。

現有的大多數AI數學基準測試存在一個根本漏洞:題目來自已發表的競賽題庫或教科書,而這些內容很可能早已出現在AI的訓練數據中。模型看似在"推理",實則可能只是在"回憶"。

這是同類測試中第一個同時滿足三個條件的基準:研究級難度、全新未見題目、數學家正式評分。

參與測試的四支AI隊伍來路各異。OpenAI以ChatGPT 5.5 Pro單獨參賽,另外三支學術團隊分別來自蘇黎世聯邦理工學院(ETH)、加州大學洛杉磯分校(UCLA)和普林斯頓大學,他們在現有聊天機器人基礎上構建了各自的"測試平臺",通過多模型協作、反復驗證等方式增強系統的解題能力。

結果顯示,ETH團隊的系統表現最佳,解出了十題中的六道。該系統的設計頗為獨特:ChatGPT給出答案后,會交由另外三個主流聊天機器人組成的"顧問委員會"進行審核和修正,形成一套類似學術討論的多輪交互機制。UCLA團隊以ChatGPT為基礎構建的框架位居第二,OpenAI原版ChatGPT和普林斯頓團隊的系統分列三四位。

ETH團隊成員約翰內斯·施密特在賽后復盤中描述了AI卡殼的典型模式:有些題目,系統掌握了正確的大方向和基本框架,卻在最后一步"差那么一點點",無法補上人類數學家會憑直覺跳過的那個關鍵躍遷。"系統缺少的,是那個出乎意料但恰到好處的核心想法,"他說。這種描述聽起來像是AI在數學推理上的一道尚未逾越的認知門檻。

60分的成績,放在任何人類數學競賽中都算相當優秀。但哈佛大學數學家、First Proof團隊成員勞倫·威廉姆斯指出,那些被所有AI系統共同卡住的題目,往往有一個共同特征:它們所涉及的數學方向,與AI訓練數據中出現過的已知問題在主題或證明路徑上相差較遠。這隱隱指向一個尚未解決的問題:AI在數學推理上的能力,是否仍然高度依賴模式匹配,而不是真正的邏輯創造?

這不只是格式問題,它觸及一個更深層的隱患:如果AI系統無法準確區分"自己推導出來的"和"從訓練數據中檢索到的",那么其輸出結果的可信度就需要始終保持警惕。卡內基梅隆大學計算機輔助數學推理研究所所長杰里米·阿維加德肯定了這次測試在方法論上的進步,同時也指出這些細節上的漏洞是未來改進的方向。

對于整個AI數學研究領域來說,First Proof的意義或許不只是一次成績單。測試題目已經公開,那些沒有正式參賽的頂級實驗室,包括谷歌專為數學設計的Aletheia系統和Anthropic尚未完整發布的Claude Mythos,很快就會用這批題目非正式地檢驗自身能力。下一次測試的結果,可能會清晰得多。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
耿同學向母校開炮!北航官網癱瘓停擺,某院長學術數據被質疑造假

耿同學向母校開炮!北航官網癱瘓停擺,某院長學術數據被質疑造假

火山詩話
2026-06-17 10:06:00
今年汽車總銷量預計下滑15%到20%,大概率貼近20%。

今年汽車總銷量預計下滑15%到20%,大概率貼近20%。

荊楚寰宇文樞
2026-06-16 22:47:07
刺激!華為Mate80 Pro Max 突然直降1700元!

刺激!華為Mate80 Pro Max 突然直降1700元!

科技堡壘
2026-06-16 11:09:40
80歲黃百鳴放棄保釋,今日起入獄服刑

80歲黃百鳴放棄保釋,今日起入獄服刑

星島記事
2026-06-17 12:03:17
陳數近況曝光?虎撲網友發帖求鑒定:什么水平

陳數近況曝光?虎撲網友發帖求鑒定:什么水平

熱搜摘要官
2026-06-18 00:57:44
哈蘭德女友賽后發文:哈寶世界杯首秀收獲兩粒進球,新中式旗袍照同步曝光

哈蘭德女友賽后發文:哈寶世界杯首秀收獲兩粒進球,新中式旗袍照同步曝光

喜歡歷史的阿繁
2026-06-17 18:25:34
電梯故障懸停,女子脫困時墜井身亡 律師:保安違規開門屬重大過錯

電梯故障懸停,女子脫困時墜井身亡 律師:保安違規開門屬重大過錯

封面新聞
2026-06-17 19:20:40
別被“某音”前凸后翹的網紅騙了

別被“某音”前凸后翹的網紅騙了

健身廚屋
2026-06-17 18:56:01
被調侃“吃小孩”,挪威球星哈蘭德經常和女友制作晚餐,用三文魚當主食,每天還吃牛心、牛肝和飲用特殊過濾水,補充6000卡路里的熱量

被調侃“吃小孩”,挪威球星哈蘭德經常和女友制作晚餐,用三文魚當主食,每天還吃牛心、牛肝和飲用特殊過濾水,補充6000卡路里的熱量

大象新聞
2026-06-17 19:49:04
北京現代艾尼氪V到店,神似“蘭博基尼”,長4米9,最高650km續航

北京現代艾尼氪V到店,神似“蘭博基尼”,長4米9,最高650km續航

聞車品百魅
2026-06-17 11:32:02
制裁立竿見影!特奧多羅剛被制裁沒幾天,鄉鎮生力啤酒罕見全清倉

制裁立竿見影!特奧多羅剛被制裁沒幾天,鄉鎮生力啤酒罕見全清倉

阿坹武器裝備科普
2026-06-16 20:16:14
WTI原油跌破75美元/桶,為3月4日來首次

WTI原油跌破75美元/桶,為3月4日來首次

每日經濟新聞
2026-06-17 15:15:13
56歲拉丁天后暗諷前夫:養娃他幾乎沒幫過忙

56歲拉丁天后暗諷前夫:養娃他幾乎沒幫過忙

生活觀察員啊
2026-06-17 00:30:15
立刻停止食用這些粗糧,吃得越多,腸癌風險越高?醫生告訴你真相

立刻停止食用這些粗糧,吃得越多,腸癌風險越高?醫生告訴你真相

敘說醫療健康
2026-06-15 06:00:23
凌晨1點!葡萄牙亮相世界杯:對民主剛果首發浮現,C羅沖4大紀錄

凌晨1點!葡萄牙亮相世界杯:對民主剛果首發浮現,C羅沖4大紀錄

小火箭愛體育
2026-06-17 14:52:43
韓國球迷集體建議,若韓國隊奪世界杯冠軍,邀請國足一起頒獎?

韓國球迷集體建議,若韓國隊奪世界杯冠軍,邀請國足一起頒獎?

酷侃體壇
2026-06-17 08:46:03
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
0-3完敗!齊達內愛子世界杯首秀失誤:2次撲救脫手,目送梅西戴帽

0-3完敗!齊達內愛子世界杯首秀失誤:2次撲救脫手,目送梅西戴帽

球場沒跑道
2026-06-17 11:41:21
無視虧損警告?章盟主攜“無限子彈”,近一月狂買沃格光電近10億

無視虧損警告?章盟主攜“無限子彈”,近一月狂買沃格光電近10億

財聞
2026-06-17 18:44:43
2026-06-18 01:31:00
一紙書謠
一紙書謠
一紙書謠
443文章數 129關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

教育
本地
游戲
房產
家居

教育要聞

畢業評語,一場溫暖的“饋贈”

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

任天堂硬剛黑客!被勒索200萬美元拒絕支付

房產要聞

最新房價:海口、三亞;新房、二手房全線下跌!

家居要聞

綠意盎然 自然之境

無障礙瀏覽 進入關懷版