3月底,ARC大獎(jiǎng)基金會(huì)發(fā)布了一篇全新論文,推出ARC-AGI-3智能測(cè)試基準(zhǔn),直接給當(dāng)下所有頂尖大模型來了次“裸考”。
![]()
結(jié)果相當(dāng)殘酷。
研究團(tuán)隊(duì)找了486名普通人類受試者,測(cè)試了414個(gè)環(huán)境。
結(jié)果,人類100%能完成所有任務(wù),單次嘗試中位耗時(shí)僅7.4分鐘,最快幾分鐘就能搞定一關(guān)。
而GPT、Gemini、Opus這些頂流AI,最高分才0.37%,幾乎全軍覆沒。
![]()
先搞懂這個(gè)論文的主角 ARC-AGI系列,到底是個(gè)什么測(cè)試?
早在2019年,第一篇ARC-AGI-1就橫空出世。
它的設(shè)計(jì)理念很純粹,不考記憶、不考刷題、不考語言和現(xiàn)成知識(shí),只測(cè)最核心的抽象推理能力。
![]()
ARC-AGI-1和2025年推出的ARC-AGI-2,都是用網(wǎng)格圖形題,讓AI從少量示例里找規(guī)律、推規(guī)則,杜絕靠大數(shù)據(jù)訓(xùn)練“作弊”。
而且,評(píng)分機(jī)制懲罰蠻力。
如果人類需要 10 個(gè)步驟,而 AI 需要 100 個(gè)步驟,AI 不會(huì)獲得 10% 的分?jǐn)?shù),而是 1%。
就是說,你無法通過增加計(jì)算能力來解決這個(gè)問題。
前兩代測(cè)試,已經(jīng)讓很多AI現(xiàn)出原形,可隨著大模型發(fā)展,出現(xiàn)了新問題。
不少模型投入數(shù)百萬美元,通過海量相似任務(wù)訓(xùn)練、測(cè)試時(shí)優(yōu)化,找到了“記憶捷徑”,慢慢能刷出高分。
比如, Gemini 在該測(cè)試中取得了 98% 的正確率。ARC-AGI-2 的正確率在不到一年的時(shí)間內(nèi)從 3% 提升到了 77%。
正是為了補(bǔ)上這個(gè)缺口,ARC-AGI-3應(yīng)運(yùn)而生,它徹底換了打法:從“做題”變成“玩游戲”。
就是把AI放進(jìn)一個(gè)個(gè)全新的交互式回合制環(huán)境里,沒有任何指令、沒有教程、沒有提示,連目標(biāo)是什么都不說,全靠AI自己摸索。
![]()
論文里明確,它專門測(cè)試智能體的四大核心能力,這恰恰是人類天生具備,卻是當(dāng)下AI最大短板:
1. 探索能力:主動(dòng)和環(huán)境互動(dòng),自己找信息、摸規(guī)則,而不是等著喂數(shù)據(jù);
2. 建模能力:把零散的觀察,總結(jié)成環(huán)境運(yùn)行的規(guī)律,構(gòu)建自己的“世界模型”;
3. 目標(biāo)設(shè)定:沒人告訴它要做什么,自己判斷通關(guān)條件、找到獲勝目標(biāo);
4. 規(guī)劃執(zhí)行:制定行動(dòng)步驟,還能根據(jù)環(huán)境反饋隨時(shí)調(diào)整,不是盲目試錯(cuò)。
為了保證公平,這套測(cè)試的設(shè)計(jì)極其嚴(yán)格:
? 所有環(huán)境只基于客體、基礎(chǔ)幾何、直覺物理等核心先驗(yàn)知識(shí),不用語言、數(shù)字、文化符號(hào),杜絕靠常識(shí)“躺贏”;
? 每個(gè)環(huán)境都是全新原創(chuàng),和現(xiàn)有游戲、前兩代任務(wù)完全不同,防止AI靠記憶刷分;
? 經(jīng)過大規(guī)模人類測(cè)試,確保普通人都能輕松通關(guān),排除題目本身太難的問題。
整個(gè)基準(zhǔn)分為公共演示集和私有測(cè)試集,公共集用來展示,真正打分的私有集完全保密,從根源上避免AI針對(duì)性優(yōu)化。
經(jīng)過測(cè)試,從論文里公布的官方測(cè)試數(shù)據(jù)看,堪稱 AI 的滑鐵盧。
論文還特意區(qū)分了兩個(gè)排行榜。
官方榜:純?cè)鶤I,無任何輔助,測(cè)的是真實(shí)智能;
社區(qū)榜:允許用外部框架,分?jǐn)?shù)再高,也不代表AGI真正進(jìn)步。
說白了,加了“外掛”的AI能拿高分,但那是人類設(shè)計(jì)的框架在幫忙,不是AI本身變聰明了。
![]()
這兩年,AI畫畫、寫代碼、對(duì)話越來越像人,很多人喊著“AGI已來”。
前不久,黃仁勛還在說,AGI 已經(jīng)來了。
可ARC-AGI-3的測(cè)試結(jié)果看, AI要么摸不透規(guī)則,要么找不到目標(biāo),要么只會(huì)盲目試錯(cuò),完全沒有人類那種“舉一反三、自主探索”的能力。
看起來,當(dāng)下 AI 的本質(zhì),還是“指令驅(qū)動(dòng)”,還是“做題家”——給任務(wù)、給規(guī)則才能做,和人類的通用智能有根本的差距。
前者擅長(zhǎng)的是記憶、計(jì)算、模仿,而人類的智能,是探索、推理、創(chuàng)造。
而真正的智能,從來不應(yīng)該是知識(shí)型,而是在未知里,去尋找解決方案的能力。
最新消息是,經(jīng)過訓(xùn)練,已經(jīng)有公司宣布全部通關(guān)了 ARC-AGi-3,但還沒有人去領(lǐng)取獎(jiǎng)金。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.