无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

人類56年解不出，谷歌AI一夜連破9道世紀難題！

2026-05-25 17:12:06　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】DeepMind發布全新數學智能體AlphaProof Nexus，9道Erd?s開放難題一次性告破，最老的懸了56年！全部證明都已經過Lean編譯器形式化驗證，沒有幻覺。網友驚呼：數學奇點的火花點燃了。

數學界這個月，徹底瘋了。

前腳OpenAI剛把Erd?s 80年猜想推翻，數學家們的驚呼聲還沒落地。

緊接著，Google DeepMind發布了一個全新AI數學智能體——AlphaProof Nexus。

論文地址：https://arxiv.org/abs/2605.22763v1

它一出手，就干掉了9道懸而未決幾十年的Erd?s開放問題。其中最古老的那個，懸了整整56年！

而且，每道題花費的算力成本，只有幾百美元。

更關鍵的是，這次的證明不可能有錯。

每一步推理都經過Lean編譯器的形式化驗證，不存在幻覺空間。編譯器通過，證明就是對的。

值得一提的是，AlphaProof Nexus和2024年拿下IMO銀牌的初代AlphaProof完全不同。

初代只有強化學習樹搜索，Nexus把大語言模型、AlphaProof和進化算法三合一，直接瞄準了人類數學家啃不動的研究級難題。

AlphaProof Nexus

進化算法+LLM+Lean編譯器

這套系統的架構分為四個層級，從簡單到復雜。

1. Agent A（基礎版）

多個獨立的證明子智能體并行工作，每個子智能體與Gemini 3.1 Pro進行多輪對話，通過搜索替換工具修改Lean代碼，編譯器實時反饋錯誤信息，子智能體根據反饋迭代修正。

2. Agent B

在A的基礎上加入了AlphaProof作為工具。當子智能體在某個子目標上卡住時，可以調用AlphaProof進行強化學習驅動的樹搜索，嘗試攻克局部難點。

3. Agent C

引入進化算法。多個子智能體不再獨立工作，而是共享一個「種群數據庫」。每個證明草稿會被LLM評審員打分（用Elo評分系統），高分草稿被優先采樣、變異、進化。

4. Agent D（完整版）

集大成者。進化算法 + AlphaProof + Gemini 3.1 Pro協同作戰。這是DeepMind用來大規模掃蕩Erd?s問題的主力武器。

整個工作流的核心循環非常清晰——

AI提出證明草稿 → Lean編譯器驗證 → 失敗則反饋錯誤信息 → AI修正 → 再驗證 → 循環往復，直到證明完全通過或耗盡算力預算。

以Erd?s #125為例，它的解題過程是這樣的。

首先，子智能體先用思維鏈推理分析問題結構，然后通過搜索替換修改Lean代碼，接著調用AlphaProof處理子目標。

AlphaProof搞定了6個子目標中的3個，子智能體隨即將剩余的「硬骨頭」分解為更小的引理，再次調用AlphaProof——這次，全部搞定。

整個過程中，沒有任何人類數學家介入。

9道Erd?s問題

56年前的懸案一朝告破

DeepMind將完整版Agent D投放到353道已形式化的Erd?s問題上。每道題最多允許3000輪迭代。

最終，9道問題被攻克。

其中含金量最高的幾道：

1. Erd?s #12（1970年提出）

是否存在一個無限集A，滿足「任意三個不同元素a

這道題懸置了56年，期間多位數學家取得了部分進展，但始終無法給出完整構造。

AI的解法精妙地結合了中國剩余定理和三項等差數列回避集，通過構建一系列精心設計的「區塊」來同時滿足密度條件和整除約束。

2. Erd?s #125（1996年提出）

在三進制下只用數字0和1的整數集A，加上四進制下只用數字0和1的整數集B，它們的和集A+B的下密度是否為正？

AI證明了答案是否定的——下密度為零。

證明的核心是一個歸納稀疏化論證，巧妙利用了3^m和4^k的丟番圖逼近性質（log4/log3是無理數），通過反復找到兩個基數幾乎對齊的尺度，讓密度以0.99的比率逐步衰減到零。

3. Erd?s #138（1981年提出的變體）

van der Waerden數W(k+1) - W(k)是否趨于無窮？

AI給出了一個極其優雅的證明：W(k+1) ≥ W(k) + k。核心思路是貪心染色擴展——在一個沒有單色k-AP的2-著色基礎上，逐個添加新元素，用反證法說明貪心策略不會失敗。

4. Erd?s #846

這是一個關于平面點集中共線性質的問題。

而AI的構造，令人嘆為觀止。

它把完全圖K∞的每條邊映射到平面上的一個點，用二次多項式編碼坐標，然后利用無窮Ramsey定理完成證明。

目前，所有9道問題的Lean證明代碼已開源在GitHub上。

項目地址：https://github.com/google-deepmind/alphaproof-nexus-results

簡單Agent也能解全部9題？！

最出人意料的結論，不是完整版Agent D有多強，而是——

最簡單的Agent A，也能解決全部9道問題。

Agent A沒有進化算法，沒有AlphaProof，只有多個獨立的LLM子智能體和Lean編譯器的反饋循環。

根據DeepMind團隊的對比分析，它在大多數問題上，Agent A和Agent B（加了AlphaProof的版本）的表現在誤差范圍內幾乎相同。

相比之下，Agent D的優勢主要體現在最困難的問題上（比如#125和#138），能以2到5倍的成本優勢完成證明。

對此，DeepMind將基礎Agent的成功歸因于兩個因素：LLM自身能力的飆升，以及編譯器反饋在錨定LLM推理方面的強大作用。

也就是說，隨著基礎模型越來越強，復雜的系統工程可能逐漸讓位于簡單的智能體循環。

今天需要進化算法和AlphaProof協同作戰才能高效解決的問題，明天可能一個樸素的LLM+編譯器循環就夠了。

具體到成本，最便宜的一道題（#741(ii)）中位成本僅5-7美元，最貴的（#152）也不過200-400美元。

但前提是用對了模型——單獨運行AlphaProof或使用較小模型（Gemini 3.0 Flash等），9道題一道都解不出來。

代數幾何15年懸案、凸優化新界一并搞定

除了Erd?s問題，AlphaProof Nexus還在多個數學分支中取得了實質性突破：

OEIS猜想：系統自動形式化了492個開放猜想，證明了其中44個。為防止形式化錯誤，系統要求先證明「測試引理」——驗證序列前幾項與形式化定義一致——才能嘗試目標猜想。

代數幾何：解決了一個懸置約15年的開放問題——證明了余維數3、類型2的純O-序列的對數凹性。這個問題此前被認為是該領域最后一個主要未解情況。

凸優化：解決了一個關于錨定梯度下降-上升算法（Anchored GDA）精確收斂速率的開放問題。更妙的是，AI不僅驗證了一個固定算法，還在證明過程中自主搜索并發現了一個新的學習率調度參數，從而實現了更強的保證。

圖論：證明了Graffiti系統在1996年提出的一個關于生成樹葉子數與局部獨立集的猜想，形成了一個有趣的閉環——AI證明了另一個AI提出的猜想。

加法組合學：幫助解決了Ben Green著名開放問題列表中的第57題。

量子光學：與Mario Krenn合作，解決了多個關于單色量子圖的猜想，對應高維GHZ量子態的構造。

三路合圍，數學前沿全面失守

2026年5月，AI在數學領域的造詣，幾乎同時達到了研究級水平。

OpenAI走的是自然語言路線。

通用推理模型直接輸出證明，推翻了Erd?s 80年單位距離猜想。證明極其精妙，但驗證它需要人類頂級專家逐行審查。

菲爾茲獎得主Gowers把未解問題扔給GPT-5.5 Pro，兩小時拿到博士論文級成果，全程數學貢獻為零。

DeepMind走的是形式化驗證路線。

AlphaProof Nexus讓AI用Lean語言寫證明代碼，編譯器自動檢查每一步推理。任何一步出現邏輯斷裂，編譯器直接報錯，證明被拒絕。

自然語言路線靈活，但可能有幻覺。形式化路線可靠，但目前局限于Lean數學庫成熟的領域。

而DeepMind的數學家合作者發現了一個意料之外的收獲——

即使智能體無法證明目標定理，它生成的證明嘗試也加深了他們對問題的理解。因為草稿是形式化的，專家可以直接聚焦于未解決的子目標，而不需要重新驗證整個論證鏈。

換句話說，AI不只是在解題，它正在改變數學家思考問題的方式。

如今，未來的圖景已經浮現：

AI先用自然語言探索證明思路，再用形式化系統逐步固化和驗證。

人類數學家的角色，則從「親手推導」轉向「提出問題、審查方向、提煉洞見」。

有人說，我們正目睹數學奇點的早期火花。

幾百美元算力，幾十小時運行，56年懸案告破，編譯器給出鐵證。

保羅·埃爾德什生前留下了1217道數學難題，懸賞后人求解。

他大概從未想過，有一天來領賞的，不是人類。

參考資料：

https://x.com/prz_chojecki/status/2058435083741061359?s=20

https://arxiv.org/abs/2605.22763v1

編輯：摩西

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

一個問題幾百美元，DeepMind智能體一次搞定了9個Erd?s問題

機器之心Pro 2026-05-25 17:23:31
0 跟貼 0
Agent-World：擴展真實世界環境，讓智能體與環境協同進化！

機器之心Pro 2026-05-06 12:40:24
0 跟貼 0

勝率直逼人類大師！這套Agent揭開中國AI「玄學真相」

新智元 2026-05-25 12:47:01
2 跟貼 2

并購激勵金都不要了？Windsurf核心工程師離開DeepMind

機器之心Pro 2026-05-25 20:37:38
0 跟貼 0
從平面幾何出發：形式化驗證如何驅動MLLM的推理能力躍遷

機器之心Pro 2026-01-20 19:17:51
0 跟貼 0

17歲高中生用AI解決數學界難題，陶哲軒、Jeff Dean點贊

機器之心Pro 2026-01-26 14:24:45
6 跟貼 6

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
39 跟貼 39
消除“罪證”：給寫作去除“AI味”的不完全手冊（2026版）

36氪 2026-05-25 19:34:17
0 跟貼 0

GPT-5.6泄露了！

新智元 2026-05-25 17:12:01
1 跟貼 1
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0
機器人別等失敗了才補救，AgentChord讓恢復動作提前寫進任務圖

機器之心Pro 2026-05-25 12:39:49
0 跟貼 0
當Token成為一種KPI

吳曉波頻道 2026-05-24 08:31:16
3 跟貼 3
阿里巴巴重新做云的決心，還是被低估了

鈦媒體APP 2026-05-25 20:08:18
0 跟貼 0
還在手寫CUDA內核?CODA來了!LLM和新手也能讓Transformer跑出光速

機器之心Pro 2026-05-25 11:33:54
0 跟貼 0
Claude被曝“重裝”記憶大腦

智東西 2026-05-25 18:32:18
0 跟貼 0
領導語言修養：數智時代的“言值”重構與影響力升維

經濟觀察報 2026-05-25 22:55:21
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
AI相對論③丨輕舟智航CEO于騫：物理世界AI未來十年將爆發，乘用車完全無人駕駛最早或于2028年到來

每日經濟新聞 2026-05-25 20:32:47
0 跟貼 0
谷歌CEO最新訪談：谷歌多模態能力領先，但Coding確實落后了

鈦媒體APP 2026-05-25 14:18:06
0 跟貼 0
我們要講邏輯

一個人的夜晚 2026-05-22 02:55:03
893 跟貼 893
博主“硬剛”稻城亞丁景區“截斷近40公里省道收費”，多方回應

上游新聞 2026-05-25 14:46:47
25758 跟貼 25758
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
VeRL-Omni：面向擴散和全模態生成模型的通用RL后訓練框架

機器之心Pro 2026-05-25 17:32:45
0 跟貼 0
Claude design限速，谷歌開源輕松做動態網頁，實力打臉？

機器之心Pro 2026-04-29 17:20:04
0 跟貼 0
LG電子與谷歌擴大車載操作系統合作單芯片能控制5個顯示器

CNMO科技 2026-05-25 15:34:23
0 跟貼 0
解碼加速15倍！EdgeRazor助推大模型在PC/移動端“狂飆”

機器之心Pro 2026-05-25 20:05:12
0 跟貼 0
白紙模型助瓷磚嚴絲合縫

超市王小小 2026-05-21 21:35:19
4 跟貼 4
華人數學家封神！50年數論難題一朝破解

新智元 2026-05-25 09:31:28
18 跟貼 18
神舟二十三號載人飛船發射取得圓滿成功

央視新聞客戶端 2026-05-24 23:31:08
16344 跟貼 16344
邏輯變差，癡呆風險增高，一分鐘快速自測

羅夕夕博士 2026-05-24 09:00:00
0 跟貼 0
告別多獎勵蹺蹺板：Flow-OPD將多教師OPD帶入圖像生成

機器之心Pro 2026-05-25 14:49:32
0 跟貼 0
騎馬造勢的車企原董事長落馬 2個月前曾公開出席活動

中國新聞周刊 2026-05-24 23:46:09
3990 跟貼 3990
深度長文：0.999......和1到底誰大？別再被有限思維騙了！

宇宙時空 2026-05-21 14:00:23
0 跟貼 0
海戰迭代垂直發射系統如何重塑深藍博弈

悟空軍武 2026-05-23 11:55:17
0 跟貼 0
一等獎390人！1990人獲獎，學軍150人獲獎，斷層領先

史海流年號 2026-05-25 21:19:57
1 跟貼 1
陳景潤之子陳由偉走進江西宣講：弘揚百折不撓的科學家精神

中國青年報 2026-05-22 11:56:18
0 跟貼 0
輕松搞定數學難題，數學學霸教你一招搞定！

壹號紀館 2026-05-22 05:05:35
0 跟貼 0
數學難題解答！快來看看這位老師的巧思妙解吧！

布布丁動漫 2026-05-25 01:04:22
2 跟貼 2
從“差不多就行”到帝國理工：一個普通仙外男孩的逆襲！

南京擇校 2026-05-25 22:25:06
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0

公務員都不敢這樣喝！貧困生每天一杯瑞幸，被同學舉報后崩潰了

公務員都不敢這樣喝！貧困生每天一杯瑞幸，被同學舉報后崩潰了

妍妍教育日記

2026-05-23 20:42:06

馬德興：中國U19踢土倫杯是以小打大，集訓時間短人員也不齊

馬德興：中國U19踢土倫杯是以小打大，集訓時間短人員也不齊

懂球帝

2026-05-25 10:13:16

全國通緝犯藏上海9年，成身價3億大佬，被捕時：放了我，給5000萬

全國通緝犯藏上海9年，成身價3億大佬，被捕時：放了我，給5000萬

鑒史錄

2026-05-23 12:44:00

幣安創始人趙長鵬在迪拜沖浪失聯？本人回應：假新聞

幣安創始人趙長鵬在迪拜沖浪失聯？本人回應：假新聞

界面新聞

2026-05-25 15:29:39

演員白羽汐官宣與父母斷絕關系！虐待長達20年，飯里拌血多次自殘

演員白羽汐官宣與父母斷絕關系！虐待長達20年，飯里拌血多次自殘

冷紫葉

2026-05-25 13:58:23

王楚欽媽媽談兒媳標準：不要豪門不要顏值，只要這三點！

王楚欽媽媽談兒媳標準：不要豪門不要顏值，只要這三點！

酷侃體壇

2026-05-25 16:42:10

亨德森安菲爾德告別儀式引發小蜜蜂球迷不滿，被批“真丟人”

亨德森安菲爾德告別儀式引發小蜜蜂球迷不滿，被批“真丟人”

懂球帝

2026-05-25 20:28:21

周杰倫代言汽車品牌！

電動知家

2026-05-25 19:25:24

武契奇攜夫人到訪長城，現場回應被中國民眾喊“577”的趣事

武契奇攜夫人到訪長城，現場回應被中國民眾喊“577”的趣事

極目新聞

2026-05-24 20:18:21

肯德基又要28億賣了！“洋快餐”的濾鏡，快被中國吃貨吃沒了？

肯德基又要28億賣了！“洋快餐”的濾鏡，快被中國吃貨吃沒了？

藍鯨新聞

2026-05-25 19:47:39

12輪不敗的蓉城，賽前干了一件“蠢事”：請主力吃飯，讓替補看著

12輪不敗的蓉城，賽前干了一件“蠢事”：請主力吃飯，讓替補看著

酷侃體壇

2026-05-25 16:41:23

波波G3后破門大罵！馬刺今日逼出雷霆13年最低分

波波G3后破門大罵！馬刺今日逼出雷霆13年最低分

體壇周報

2026-05-25 16:36:20

壽命竟然與性能力有關！四川大學研究：睪酮越高，死亡風險越低

壽命竟然與性能力有關！四川大學研究：睪酮越高，死亡風險越低

思思夜話

2026-05-25 12:17:00

陜籍演員李曉強：出道30多年，精通多種樂器，今出演《主角》紅了

陜籍演員李曉強：出道30多年，精通多種樂器，今出演《主角》紅了

白面書誏

2026-05-25 20:35:53

開國十大將當中，有沒有一位能“鎮得住”所有開國上將的人？

開國十大將當中，有沒有一位能“鎮得住”所有開國上將的人？

興趣知識

2026-05-25 16:26:05

馬刺大勝雷霆，賽后還有4個好消息，天王山之戰奧利尼克要來了

馬刺大勝雷霆，賽后還有4個好消息，天王山之戰奧利尼克要來了

以茶帶書

2026-05-25 14:31:22

蕭旭岑被指控收受捐款未入賬后，李德維發聲，廈門臺商會長發聲

蕭旭岑被指控收受捐款未入賬后，李德維發聲，廈門臺商會長發聲

DS北風

2026-05-25 17:42:07

10分鐘上演地天板，有人跌停割肉虧20個點，有人跌停撿漏賺20個點

10分鐘上演地天板，有人跌停割肉虧20個點，有人跌停撿漏賺20個點

丁丁鯉史紀

2026-05-25 20:36:12

俄軍痛失400平方公里：烏軍發動大反攻，俄軍戰損超過14萬人

俄軍痛失400平方公里：烏軍發動大反攻，俄軍戰損超過14萬人

面包夾知識

2026-05-23 20:25:20

2年傷病史，法網吞蛋出局！鄭欽文的玻璃身體，到底誰該負責？

2年傷病史，法網吞蛋出局！鄭欽文的玻璃身體，到底誰該負責？

曹老師評球

2026-05-25 19:00:15

AI產業主平臺領航智能+時代

15305文章數 66888關注度

往期回顧全部

科技要聞

華為：沒有先進光刻機也能造出高端芯片

頭條要聞

律師身份證丟失后被他人辦卡接收涉賭資金成被執行人

頭條要聞

律師身份證丟失后被他人辦卡接收涉賭資金成被執行人

體育要聞

如果不好好守門，他可能早就繼承家業了

娛樂要聞

李晨鄭愷跑男停宣：12年元老被邊緣化

財經要聞

起底煤礦“暗面”：假整改、假數據

汽車要聞

啟境GT7定檔5月29日預售提供三電機版本

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

游戲

本地

時尚

公開課

數碼要聞

26年換電視首選！TCL T7M Pro用實力為SQD-Mini LED正名

又一款二游沒能挺過1年

本地新聞

用云錦的方式，打開江蘇南京

女人不管多大年紀，都可以準備幾件印花T恤，減齡百搭又舒適

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版