无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

留給人類數學家的懸賞不多了!谷歌DeepMind解決9道埃爾德什問題

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

AI進軍數學界的速度太快了。

OpenAI前腳剛用內部模型突破埃爾德什的80年單位距離問題,谷歌DeepMind后腳就解決一個同樣卡了人類56年的埃爾德什數學難題——

最新發布AlphaProof Nexus,一套由Gemini驅動的智能體框架,一出手就是9個埃爾德什開放問題



除了這9道,它還順手證明了OEIS整數序列百科里的44個猜想、搞定了一道擱置15年的代數幾何難題、還改進了凸優化領域里一個沿用已久的理論邊界。

推理成本呢?每道題幾百美元,整套證明代碼也全都開源放在了GitHub上。



這篇論文共有20位作者,其中的Aja Huang,也是2016年AlphaGo的核心研究員。

56年沒人做出來的題,AI 給了什么答案

AlphaProof Nexus解決的這幾道題,咱挑三道最有意思的說說。

Erd?s#12,1970年提出,懸置56年

這道題問的是:你能不能找出一個無限大的整數集合,滿足兩個聽起來很別扭的條件:

第一,任意從中挑三個不同的數字a、b、c,a永遠不能整除b加c的和。

第二,這組數不能太零散,在自然數里要保持一定的密度。

簡單理解就是,這群數字之間,既不能一個數整除另一個數,也不能一個數整除另外兩個數的和,同時數字還要分布得相對密集,不能只挑寥寥幾個數投機取巧。

從1970年開始,就沒人能給出這個集合的完整構造,各種局部進展有,但始終拼不成一個整體解。



AI的解法是用中國剩余定理把大問題拆成許多個獨立的區塊,每個區塊內部用三項等差數列的回避集來滿足約束,然后把所有區塊拼回一個完整的無限集。



Erd?s#125,1996年提出,30年沒有定論

這道題聽著就更奇怪了。

想象兩個數字集合:第一個集合里全是“在三進制下只由數字0和1組成的整數”,第二個集合里全是“在四進制下只由數字0和1組成的整數”。把這兩個集合里所有數字兩兩相加,得到一個新集合。

問:這個新集合里的數字在自然數中出現的頻率(數學上叫下密度)是不是正的?

直覺上你可能會覺得,兩種集合包含的數字本來就不算很多,加起來應該也挺稀疏的。

但稀疏到什么程度?是徹底稀到密度歸零,還是多少保持一點正密度?

這中間的差別非常微妙,1996年提出后一直沒定論。

AI的答案是:密度為零。



證明思路是log?除以log?是無理數。這意味著3的冪次和4的冪次可以以任意精度彼此逼近。

利用這一點,AI構造了一個歸納性稀疏化論證:不斷找到兩個幾乎對齊的尺度,讓密度以0.99的比率一步步衰減,直到徹底歸零。

一個純數論的性質,解決了一個組合幾何的問題。

Erd?s#846,1992年提出,卡了人類34年。

這是個平面幾何題,AI證明了存在這樣一個無限擴展的平面點集:

你從中任意挑出有限個點,總能發現其中大部分點是不共線的——

隨便截一段,看起來都挺正常,但當你試圖把這個無限集合拆分成有限個“絕對沒有任何三點共線”的子集時,辦不到。

一個集合的每個有限局部都正常,但整體頑固得不可拆分。這種全局與局部的張力,是組合幾何里最難的那一類問題。

AI把完全圖的每條邊映射到平面上一個點,用二次多項式編碼坐標,再拉上無窮Ramsey定理完成證明,把一個幾何問題翻譯成了圖論和邏輯的語言。

除了這三道,還有六道分別在整除集構造、范德瓦爾登數間隙、西頓集孤立點、集合拆分密度等領域。



同時,AlphaProof Nexus還在OEIS整數序列百科里證明了44個開放猜想,在代數幾何那邊解決了一道希爾伯特函數對數凹性的15年懸案,凸優化那邊改進了一個錨定梯度下降法的理論邊界。



菲爾茲獎得主陶哲軒曾經提醒過,AI目前解決埃爾德什問題的實際成功率大約在1-2%,這次谷歌的系統挑戰了353道題,解開9道,比例剛好對上了。

用幾百美元算力換一道56年難題

AlphaProof Nexus的架構核心用一句話就能說清楚,Gemini 3.1 Pro生成Lean語言證明步驟→Lean編譯器逐行檢查→報錯直接反饋給模型→模型根據報錯修改→再檢查→循環到全部通過。



好家伙,這有點像平時寫代碼,只不過現在Debug的是數學定理……



在這套框架里,DeepMind設計了四個Agent

最簡單的Agent A是同時啟動多個獨立子Agent,先靠Gemini 3.1 Pro梳理解題思路,動手編寫證明代碼。

寫完立刻交給編譯器核驗,一旦報錯,錯誤信息就會傳回模型,讓它不斷修改、重試,直到通關。

全程沒有額外輔助工具,純靠寫代碼+查錯循環。



Agent B多了一樣東西,AlphaProof。

AlphaProof是DeepMind之前專門為奧數級別題目訓練過的強化學習證明工具。

當Agent A模式在某個小步驟上反復卡住、編譯器反復報錯也修不過來時,Agent B可以調用AlphaProof做一次強化學習驅動的樹搜索,專門攻擊這個局部難點。

Agent C引入了進化算法的思路。

前面兩種Agent的子Agent都是各自獨立工作的,互不交流。

Agent C是所有子Agent共享一個證明草圖種群,每一個子模塊都會產出不同的證明草稿。

然后由另一個模型從合理性、清晰度、新穎性三個維度給每一份草稿打分,用Elo評分系統排名。

高分草稿會相互組合,衍生出新解法,低分草稿直接淘汰,整個種群在證明空間里做進化搜索。

Agent D是全功能完全體,進化篩選思路+專項工具攻克難點+大模型邏輯推理,三股力量在一個框架里協同,也是這次批量破解難題的主力。



這么看下來,我以為最強的Agent D應該會碾壓一切,Agent A只當個對照組。

結果沒想到論文里表明最簡單的Agent A,同樣能解出全部9道題

沒有進化算法,沒有AlphaProof,就一個LLM循環加編譯器反饋的Agent A,只是在難題上更費錢一點。



研究團隊把原因歸為兩個:

  • 一是Gemini 3.1 Pro本身的能力已經足夠強了;
  • 二是Lean編譯器的那層實打實的糾錯反饋,對AI的引導作用,遠比人們預想的更大。

這個結果或許也在預示著,未來隨著大模型能力持續升級,復雜的多工具組合系統,可能不再是剛需,只用大模型+專業校驗工具這套簡單循環,就能搞定大多數數學難題。

而且這套方案的優勢也體現在成本上,單題僅需幾百美元。

埃爾德什生前為這些難題設置了懸賞,只是他不會想到——

解開這些謎題的可能不是人類智慧,而是算力。

論文地址:https://arxiv.org/abs/2605.22763v1
Github地址:https://github.com/google-deepmind/alphaproof-nexus-results


[1]https://x.com/pushmeet/status/2058936037754224998
[2]https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
刷了 2 小時閑魚,快被這群神人笑抽了

刷了 2 小時閑魚,快被這群神人笑抽了

科技狐
2026-05-23 23:26:01
維尼修斯:我的世界杯號碼是多少?不知道;但10號是內馬爾的

維尼修斯:我的世界杯號碼是多少?不知道;但10號是內馬爾的

懂球帝
2026-05-25 23:47:05
iPhone 20原型機曝光:無邊框+四微曲屏,外觀史詩級革新,屏占比達到蘋果最高水平

iPhone 20原型機曝光:無邊框+四微曲屏,外觀史詩級革新,屏占比達到蘋果最高水平

魯中晨報
2026-05-25 17:30:37
中國最幸運的一批人:1962-1972年出生的人

中國最幸運的一批人:1962-1972年出生的人

霹靂炮
2026-05-24 22:48:13
王楚欽母親首次談兒媳標準!3個要求曝光后,網友集體沉默了

王楚欽母親首次談兒媳標準!3個要求曝光后,網友集體沉默了

橙星文娛
2026-05-26 10:53:35
中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

美食格物
2026-05-13 14:03:12
三體公司原CEO許垚被執行死刑 投毒案受害者:“正義,雖遲但到”

三體公司原CEO許垚被執行死刑 投毒案受害者:“正義,雖遲但到”

鳳凰網財經
2026-05-26 10:45:45
宣布認臺島為國!歐洲在野黨一把手將竄訪臺島,與賴清德見面!

宣布認臺島為國!歐洲在野黨一把手將竄訪臺島,與賴清德見面!

阿龍聊軍事
2026-05-26 11:54:13
一女子離婚5年后,走投無路去取前夫給的6萬,柜員卻說初始只有600塊,剛想罵人,柜員:你要不要看看轉賬備注...

一女子離婚5年后,走投無路去取前夫給的6萬,柜員卻說初始只有600塊,剛想罵人,柜員:你要不要看看轉賬備注...

喬話
2026-05-25 23:41:08
同是竇唯女兒,一個在香港被大佬捧,一個北京租房打工,差距明顯

同是竇唯女兒,一個在香港被大佬捧,一個北京租房打工,差距明顯

白面書誏
2026-05-25 16:12:15
房齡超過30年的老房子注意了!新規已確定:“收3不收1”,早準備

房齡超過30年的老房子注意了!新規已確定:“收3不收1”,早準備

專業聊房君
2026-05-26 10:22:42
身家幾十億的“煤礦幕后老板”任鐵柱,因82條人命可能徹底崩塌

身家幾十億的“煤礦幕后老板”任鐵柱,因82條人命可能徹底崩塌

我想把最好的一面展現給你
2026-05-26 09:43:06
全國通緝犯藏上海9年,成身價3億大佬,被捕時:放了我,給5000萬

全國通緝犯藏上海9年,成身價3億大佬,被捕時:放了我,給5000萬

鑒史錄
2026-05-23 12:44:00
職業生涯法網首勝!吳易昺三盤橫掃過關,下輪將戰10號種子

職業生涯法網首勝!吳易昺三盤橫掃過關,下輪將戰10號種子

全景體育V
2026-05-26 05:16:53
岳云鵬專場票罄無人捧場,苗阜辦專場同行簇擁反差大

岳云鵬專場票罄無人捧場,苗阜辦專場同行簇擁反差大

可樂談情感
2026-05-26 05:37:08
中東,傳來大消息!伊朗發聲:擊落美軍“死神”無人機 !黃金、白銀走低,原油拉升!

中東,傳來大消息!伊朗發聲:擊落美軍“死神”無人機 !黃金、白銀走低,原油拉升!

證券時報e公司
2026-05-26 16:41:17
美女飛行員突破“12G”的瓜

美女飛行員突破“12G”的瓜

吃瓜體
2026-05-25 16:16:43
這尺度!我能拿25000分!雷霆被噴爆了!

這尺度!我能拿25000分!雷霆被噴爆了!

柚子說球
2026-05-26 10:51:52
11歲男孩頂替退伍軍人領國家俸祿15年,被揭穿后:敢告我就弄死你

11歲男孩頂替退伍軍人領國家俸祿15年,被揭穿后:敢告我就弄死你

莫地方
2026-05-25 01:15:03
山姆“偷吃”事件大反轉,網友:太歹毒了!

山姆“偷吃”事件大反轉,網友:太歹毒了!

品牌新
2026-05-25 17:31:13
2026-05-26 17:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12689文章數 176470關注度
往期回顧 全部

科技要聞

今年秋季,麒麟芯片將首次落地"邏輯折疊"

頭條要聞

外媒稱伊朗愿意"將濃縮鈾移至中國" 中方回應

頭條要聞

外媒稱伊朗愿意"將濃縮鈾移至中國" 中方回應

體育要聞

上賽季差點降入英甲,下賽季要踢英超了

娛樂要聞

臺媒貼臉!S媽被問大S嗑藥當場沉默

財經要聞

中國鋁行業爆單 下一個“煤炭”大周期?

汽車要聞

涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

態度原創

藝術
家居
手機
游戲
軍事航空

藝術要聞

畫美,文字也美 | 日本著名畫家內田正泰

家居要聞

生與命相依 舊公寓改造

手機要聞

小米REDMI K90至尊版手機疑似入網,支持100W有線充電

《逃離塔科夫》道具內存條價格暴跌 可惜不是現實

軍事要聞

美伊在阿巴斯港附近短暫交火 交戰過程披露

無障礙瀏覽 進入關懷版