網易首頁 > 網易號 > 正文 申請入駐

人類100%通關,AI 最高僅0.37%!這個測試戳破AGI“泡沫”?

0
分享至

3月底,ARC大獎基金會發布了一篇全新論文,推出ARC-AGI-3智能測試基準,直接給當下所有頂尖大模型來了次“裸考”。


結果相當殘酷。

研究團隊找了486名普通人類受試者,測試了414個環境。

結果,人類100%能完成所有任務,單次嘗試中位耗時僅7.4分鐘,最快幾分鐘就能搞定一關。

而GPT、Gemini、Opus這些頂流AI,最高分才0.37%,幾乎全軍覆沒。


先搞懂這個論文的主角 ARC-AGI系列,到底是個什么測試?

早在2019年,第一篇ARC-AGI-1就橫空出世。

它的設計理念很純粹,不考記憶、不考刷題、不考語言和現成知識,只測最核心的抽象推理能力。


ARC-AGI-1和2025年推出的ARC-AGI-2,都是用網格圖形題,讓AI從少量示例里找規律、推規則,杜絕靠大數據訓練“作弊”。

而且,評分機制懲罰蠻力。

如果人類需要 10 個步驟,而 AI 需要 100 個步驟,AI 不會獲得 10% 的分數,而是 1%。

就是說,你無法通過增加計算能力來解決這個問題。

前兩代測試,已經讓很多AI現出原形,可隨著大模型發展,出現了新問題。


不少模型投入數百萬美元,通過海量相似任務訓練、測試時優化,找到了“記憶捷徑”,慢慢能刷出高分。

比如, Gemini 在該測試中取得了 98% 的正確率。ARC-AGI-2 的正確率在不到一年的時間內從 3% 提升到了 77%。

正是為了補上這個缺口,ARC-AGI-3應運而生,它徹底換了打法:從“做題”變成“玩游戲”。

就是把AI放進一個個全新的交互式回合制環境里,沒有任何指令、沒有教程、沒有提示,連目標是什么都不說,全靠AI自己摸索。


論文里明確,它專門測試智能體的四大核心能力,這恰恰是人類天生具備,卻是當下AI最大短板:

1. 探索能力:主動和環境互動,自己找信息、摸規則,而不是等著喂數據;

2. 建模能力:把零散的觀察,總結成環境運行的規律,構建自己的“世界模型”;

3. 目標設定:沒人告訴它要做什么,自己判斷通關條件、找到獲勝目標;

4. 規劃執行:制定行動步驟,還能根據環境反饋隨時調整,不是盲目試錯。

為了保證公平,這套測試的設計極其嚴格:

? 所有環境只基于客體、基礎幾何、直覺物理等核心先驗知識,不用語言、數字、文化符號,杜絕靠常識“躺贏”;

? 每個環境都是全新原創,和現有游戲、前兩代任務完全不同,防止AI靠記憶刷分;

? 經過大規模人類測試,確保普通人都能輕松通關,排除題目本身太難的問題。

整個基準分為公共演示集和私有測試集,公共集用來展示,真正打分的私有集完全保密,從根源上避免AI針對性優化。

經過測試,從論文里公布的官方測試數據看,堪稱 AI 的滑鐵盧。

論文還特意區分了兩個排行榜。


官方榜:純原生AI,無任何輔助,測的是真實智能;


社區榜:允許用外部框架,分數再高,也不代表AGI真正進步。

說白了,加了“外掛”的AI能拿高分,但那是人類設計的框架在幫忙,不是AI本身變聰明了。


這兩年,AI畫畫、寫代碼、對話越來越像人,很多人喊著“AGI已來”。

前不久,黃仁勛還在說,AGI 已經來了。

可ARC-AGI-3的測試結果看, AI要么摸不透規則,要么找不到目標,要么只會盲目試錯,完全沒有人類那種“舉一反三、自主探索”的能力。

看起來,當下 AI 的本質,還是“指令驅動”,還是“做題家”——給任務、給規則才能做,和人類的通用智能有根本的差距。

前者擅長的是記憶、計算、模仿,而人類的智能,是探索、推理、創造。

而真正的智能,從來不應該是知識型,而是在未知里,去尋找解決方案的能力。

最新消息是,經過訓練,已經有公司宣布全部通關了 ARC-AGi-3,但還沒有人去領取獎金。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終于明白了,陳翔六點半的衰落與球球無關,是創始人陳翔一步錯步步錯

終于明白了,陳翔六點半的衰落與球球無關,是創始人陳翔一步錯步步錯

愛看劇的阿峰
2026-05-08 19:56:47
果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

混沌錄
2026-05-09 11:02:07
瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

火山詩話
2026-05-08 18:13:12
倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

林子說事
2026-05-09 11:27:17
大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

番外行
2026-04-21 13:06:02
梁朝偉回憶張國榮與張曼玉:演戲要投入真情,拍完必須立刻抽離

梁朝偉回憶張國榮與張曼玉:演戲要投入真情,拍完必須立刻抽離

桃桃淘電影
2026-05-09 12:00:15
美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

新京報
2026-05-08 15:46:57
男子睡3個女人,年齡分別是24歲30歲46歲,穿幫后3個女人要整他

男子睡3個女人,年齡分別是24歲30歲46歲,穿幫后3個女人要整他

朗威談星座
2026-05-09 17:14:43
5月9日世乒賽轉播調整,王楚欽迎來關鍵生死戰

5月9日世乒賽轉播調整,王楚欽迎來關鍵生死戰

七七自駕游
2026-05-09 11:44:32
歷史首次!英超三隊會師歐戰決賽,三冠通吃的概率有大?

歷史首次!英超三隊會師歐戰決賽,三冠通吃的概率有大?

林子說事
2026-05-09 08:12:09
載149人染疫郵輪已漂流近40天:航行5天后死神悄然登船,8人感染3人死亡;有中國乘客預訂后續航次慶幸“還沒登船”

載149人染疫郵輪已漂流近40天:航行5天后死神悄然登船,8人感染3人死亡;有中國乘客預訂后續航次慶幸“還沒登船”

大風新聞
2026-05-09 18:33:04
高崗自殺后,彭德懷、林彪的表現令人感慨

高崗自殺后,彭德懷、林彪的表現令人感慨

深度報
2026-04-25 22:55:42
老杜案將迎巨變?考夫曼臨陣脫逃,退出辯護團隊,莎拉要最后一搏

老杜案將迎巨變?考夫曼臨陣脫逃,退出辯護團隊,莎拉要最后一搏

顧蔡衛
2026-05-09 09:10:14
抗美援朝時鄧華幫助過韋杰,后來鄧華陷入低谷,韋杰怎么報答的?

抗美援朝時鄧華幫助過韋杰,后來鄧華陷入低谷,韋杰怎么報答的?

史之銘
2026-05-09 00:42:50
三連曝,中山大學腫瘤防治中心常務副主任馬某論文被舉報涉嫌圖片重復?

三連曝,中山大學腫瘤防治中心常務副主任馬某論文被舉報涉嫌圖片重復?

文憶天下
2026-05-09 08:41:03
中國移動迎來史上最年輕的總經理!

中國移動迎來史上最年輕的總經理!

ICT解讀者
2026-05-08 19:50:41
烏克蘭擊沉里海艦隊導彈艦!摧毀全俄最大的兩座煉油廠

烏克蘭擊沉里海艦隊導彈艦!摧毀全俄最大的兩座煉油廠

項鵬飛
2026-05-08 19:30:06
92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

紅豆講堂
2025-05-12 10:27:03
6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

丁丁鯉史紀
2026-05-08 14:50:31
文章再傳“喜訊”霸榜熱搜,馬伊琍現身,藏著比復婚更高級的體面

文章再傳“喜訊”霸榜熱搜,馬伊琍現身,藏著比復婚更高級的體面

賈媽的幸福生活
2026-05-09 17:47:44
2026-05-09 19:04:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

游戲
親子
時尚
家居
軍事航空

玩家十年沒清空過電腦回收站!一看容量當場傻眼了

親子要聞

2026好看又好用的媽咪育兒包有哪些?(5月最新)

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

家居要聞

菁英人居 全能豪宅

軍事要聞

美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

無障礙瀏覽 進入關懷版