无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人類100%通關(guān),AI 最高僅0.37%！這個(gè)測(cè)試戳破AGI“泡沫”？

2026-03-31 07:44:46　來源: AI先鋒官

北京舉報(bào)

0

分享至

3月底，ARC大獎(jiǎng)基金會(huì)發(fā)布了一篇全新論文，推出ARC-AGI-3智能測(cè)試基準(zhǔn)，直接給當(dāng)下所有頂尖大模型來了次“裸考”。

結(jié)果相當(dāng)殘酷。

研究團(tuán)隊(duì)找了486名普通人類受試者，測(cè)試了414個(gè)環(huán)境。

結(jié)果，人類100%能完成所有任務(wù)，單次嘗試中位耗時(shí)僅7.4分鐘，最快幾分鐘就能搞定一關(guān)。

而GPT、Gemini、Opus這些頂流AI，最高分才0.37%，幾乎全軍覆沒。

先搞懂這個(gè)論文的主角 ARC-AGI系列，到底是個(gè)什么測(cè)試？

早在2019年，第一篇ARC-AGI-1就橫空出世。

它的設(shè)計(jì)理念很純粹，不考記憶、不考刷題、不考語言和現(xiàn)成知識(shí)，只測(cè)最核心的抽象推理能力。

ARC-AGI-1和2025年推出的ARC-AGI-2，都是用網(wǎng)格圖形題，讓AI從少量示例里找規(guī)律、推規(guī)則，杜絕靠大數(shù)據(jù)訓(xùn)練“作弊”。

而且，評(píng)分機(jī)制懲罰蠻力。

如果人類需要 10 個(gè)步驟，而 AI 需要 100 個(gè)步驟，AI 不會(huì)獲得 10% 的分?jǐn)?shù)，而是 1%。

就是說，你無法通過增加計(jì)算能力來解決這個(gè)問題。

前兩代測(cè)試，已經(jīng)讓很多AI現(xiàn)出原形，可隨著大模型發(fā)展，出現(xiàn)了新問題。

不少模型投入數(shù)百萬美元，通過海量相似任務(wù)訓(xùn)練、測(cè)試時(shí)優(yōu)化，找到了“記憶捷徑”，慢慢能刷出高分。

比如， Gemini 在該測(cè)試中取得了 98% 的正確率。ARC-AGI-2 的正確率在不到一年的時(shí)間內(nèi)從 3% 提升到了 77%。

正是為了補(bǔ)上這個(gè)缺口，ARC-AGI-3應(yīng)運(yùn)而生，它徹底換了打法：從“做題”變成“玩游戲”。

就是把AI放進(jìn)一個(gè)個(gè)全新的交互式回合制環(huán)境里，沒有任何指令、沒有教程、沒有提示，連目標(biāo)是什么都不說，全靠AI自己摸索。

論文里明確，它專門測(cè)試智能體的四大核心能力，這恰恰是人類天生具備，卻是當(dāng)下AI最大短板：

1. 探索能力：主動(dòng)和環(huán)境互動(dòng)，自己找信息、摸規(guī)則，而不是等著喂數(shù)據(jù)；

2. 建模能力：把零散的觀察，總結(jié)成環(huán)境運(yùn)行的規(guī)律，構(gòu)建自己的“世界模型”；

3. 目標(biāo)設(shè)定：沒人告訴它要做什么，自己判斷通關(guān)條件、找到獲勝目標(biāo)；

4. 規(guī)劃執(zhí)行：制定行動(dòng)步驟，還能根據(jù)環(huán)境反饋隨時(shí)調(diào)整，不是盲目試錯(cuò)。

為了保證公平，這套測(cè)試的設(shè)計(jì)極其嚴(yán)格：

? 所有環(huán)境只基于客體、基礎(chǔ)幾何、直覺物理等核心先驗(yàn)知識(shí)，不用語言、數(shù)字、文化符號(hào)，杜絕靠常識(shí)“躺贏”；

? 每個(gè)環(huán)境都是全新原創(chuàng)，和現(xiàn)有游戲、前兩代任務(wù)完全不同，防止AI靠記憶刷分；

? 經(jīng)過大規(guī)模人類測(cè)試，確保普通人都能輕松通關(guān)，排除題目本身太難的問題。

整個(gè)基準(zhǔn)分為公共演示集和私有測(cè)試集，公共集用來展示，真正打分的私有集完全保密，從根源上避免AI針對(duì)性優(yōu)化。

經(jīng)過測(cè)試，從論文里公布的官方測(cè)試數(shù)據(jù)看，堪稱 AI 的滑鐵盧。

論文還特意區(qū)分了兩個(gè)排行榜。

官方榜：純?cè)鶤I，無任何輔助，測(cè)的是真實(shí)智能；

社區(qū)榜：允許用外部框架，分?jǐn)?shù)再高，也不代表AGI真正進(jìn)步。

說白了，加了“外掛”的AI能拿高分，但那是人類設(shè)計(jì)的框架在幫忙，不是AI本身變聰明了。

這兩年，AI畫畫、寫代碼、對(duì)話越來越像人，很多人喊著“AGI已來”。

前不久，黃仁勛還在說，AGI 已經(jīng)來了。

可ARC-AGI-3的測(cè)試結(jié)果看， AI要么摸不透規(guī)則，要么找不到目標(biāo)，要么只會(huì)盲目試錯(cuò)，完全沒有人類那種“舉一反三、自主探索”的能力。

看起來，當(dāng)下 AI 的本質(zhì)，還是“指令驅(qū)動(dòng)”，還是“做題家”——給任務(wù)、給規(guī)則才能做，和人類的通用智能有根本的差距。

前者擅長(zhǎng)的是記憶、計(jì)算、模仿，而人類的智能，是探索、推理、創(chuàng)造。

而真正的智能，從來不應(yīng)該是知識(shí)型，而是在未知里，去尋找解決方案的能力。

最新消息是，經(jīng)過訓(xùn)練，已經(jīng)有公司宣布全部通關(guān)了 ARC-AGi-3，但還沒有人去領(lǐng)取獎(jiǎng)金。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

張家界大庸古城將重新開業(yè)！曾因耗資24億4年虧損超10億被焦點(diǎn)訪談“關(guān)注”

紅星新聞 2026-06-24 19:33:08
1612 跟貼 1612
中方投下贊成票

政知新媒體 2026-06-24 09:57:23
2711 跟貼 2711

美財(cái)長(zhǎng)貝森特：一旦烏克蘭戰(zhàn)爭(zhēng)結(jié)束，預(yù)計(jì)俄羅斯將重新回到美元體系

瀟湘晨報(bào) 2026-06-24 21:10:28
336 跟貼 336

最貴349元/斤！雨后大量出現(xiàn)地衣，很多杭州人在撿，“出門就有”

環(huán)球網(wǎng)資訊 2026-06-24 14:30:30
131 跟貼 131
網(wǎng)友吐槽“被WPS背刺了”，公司回應(yīng)

南方都市報(bào) 2026-06-23 20:17:09
2075 跟貼 2075

知情人士曝因后續(xù)淘汰賽未攜帶完整裁判組，馬寧基本確定無緣主裁機(jī)會(huì)；此前FIFA官宣馬寧擔(dān)任法國(guó)VS挪威比賽第四官員

封面新聞 2026-06-24 18:54:06
132 跟貼 132

福建高考分?jǐn)?shù)線發(fā)布

央視新聞 2026-06-24 16:41:54
1070 跟貼 1070
端午假期第二天北京市屬公園迎客超38萬人次

北青網(wǎng)-北京青年報(bào) 2026-06-20 14:47:09
3951 跟貼 3951

十二年異鄉(xiāng)求學(xué) 被挖去雙眼的男孩考了個(gè)"全國(guó)第一"

新民周刊 2026-06-24 21:46:33
42 跟貼 42
山東曲阜動(dòng)物園被指將狗狗染成熊貓色用以宣傳引流，園方：若大家不喜歡會(huì)考慮取消

南陽日?qǐng)?bào) 2026-06-24 18:34:49
82 跟貼 82
一小區(qū)花180萬"換"電梯，結(jié)果僅"修"了一下

看看新聞Knews 2026-06-24 20:36:06
28 跟貼 28
豆包專業(yè)版采用三級(jí)階梯定價(jià)方案，最高一年6000元

第一財(cái)經(jīng) 2026-06-24 09:14:12
1339 跟貼 1339
個(gè)稅飆升12%，收入只增4.2%，反差信號(hào)背后的促消費(fèi)難點(diǎn)｜商業(yè)微史記

界面新聞 2026-06-24 14:09:58
626 跟貼 626
多地優(yōu)化政策：停車61分鐘，再不能按2小時(shí)收費(fèi)了

陽泉日?qǐng)?bào) 2026-06-24 16:57:00
48 跟貼 48
陽光電源市值領(lǐng)跑光儲(chǔ)板塊

第一財(cái)經(jīng)資訊 2026-06-25 01:12:57
11 跟貼 11
茶飲店打烊前接到千元訂單，00后員工沒有抱怨默默干活，店主給每人發(fā)兩千元紅包

瀟湘晨報(bào) 2026-06-24 15:49:15
86 跟貼 86
41歲C羅梅開二度創(chuàng)六屆進(jìn)球紀(jì)錄：不想與他人比較我只希望球隊(duì)能贏｜封面頭條

封面新聞 2026-06-24 10:09:03
288 跟貼 288
著名作家畢飛宇獲聘為江蘇省政府參事

澎湃新聞 2026-06-24 17:22:27
34 跟貼 34
山東小伙相親全村第一美女，只因?qū)Ψ绞敲廊菰呵芭_(tái)直接回絕

搗蛋窩 2026-06-25 03:45:13
0 跟貼 0
張維為：中國(guó)哲學(xué)從不信奉所謂的“絕對(duì)真理”

看看新聞Knews 2026-06-24 23:22:23
1 跟貼 1
新能源重卡“49噸”紅線不變！貨車司機(jī)三年少賺36萬元，倒逼車企輕量化突圍

每日經(jīng)濟(jì)新聞 2026-06-24 14:04:09
57 跟貼 57
遵醫(yī)囑是良藥濫用就是深淵

新浪財(cái)經(jīng) 2026-06-25 03:40:09
0 跟貼 0

一家6口5本美國(guó)護(hù)照，卻還在國(guó)內(nèi)“撈金”，年?duì)I收上百億

一家6口5本美國(guó)護(hù)照，卻還在國(guó)內(nèi)“撈金”，年?duì)I收上百億

混沌錄

2026-06-19 16:14:07

中國(guó)將迎來前所未有的死亡高峰，專家得出答案：是這些因素導(dǎo)致的

中國(guó)將迎來前所未有的死亡高峰，專家得出答案：是這些因素導(dǎo)致的

混沌錄

2026-05-28 22:53:01

抖音網(wǎng)紅表妹李KK塌房，徹底玩完

抖音網(wǎng)紅表妹李KK塌房，徹底玩完

新浪財(cái)經(jīng)

2026-06-23 00:08:03

立陶宛新任總理現(xiàn)身，上來就對(duì)臺(tái)當(dāng)局喊話，又一個(gè)狠角色登上臺(tái)面

立陶宛新任總理現(xiàn)身，上來就對(duì)臺(tái)當(dāng)局喊話，又一個(gè)狠角色登上臺(tái)面

云上烏托邦

2026-06-24 22:17:53

一個(gè)月暴漲67%！苦哈哈造屏幕的京東方，搖身成了最猛AI股

一個(gè)月暴漲67%！苦哈哈造屏幕的京東方，搖身成了最猛AI股

硅基觀察Pro

2026-06-24 22:21:33

吃完嫩的吃老的，山西兒媳出軌公公10年，親自給丈夫生下一個(gè)妹妹

吃完嫩的吃老的，山西兒媳出軌公公10年，親自給丈夫生下一個(gè)妹妹

莫地方

2026-06-02 00:10:26

日元暴跌破40年紀(jì)錄！日本狂拋美債救市，美國(guó)反手收緊致命枷鎖

日元暴跌破40年紀(jì)錄！日本狂拋美債救市，美國(guó)反手收緊致命枷鎖

次元君情感

2026-06-24 17:33:14

女子被歹徒蹂躪三小時(shí)，死前哀求別吵醒女兒，丁照月遇害案始末

女子被歹徒蹂躪三小時(shí)，死前哀求別吵醒女兒，丁照月遇害案始末

易玄

2026-06-23 06:45:08

2:1！射門9:4，世界杯生死戰(zhàn)，卡塔爾半場(chǎng)落后波黑，輸球就出局

2:1！射門9:4，世界杯生死戰(zhàn)，卡塔爾半場(chǎng)落后波黑，輸球就出局

安海客

2026-06-25 03:56:08

一個(gè)家庭最大的災(zāi)難，不是窮，而是父母六七十了，還存在3種情況

一個(gè)家庭最大的災(zāi)難，不是窮，而是父母六七十了，還存在3種情況

熱心市民小黃

2026-05-14 19:05:42

相差15歲姐弟戀！00后體育生愛上重慶單親媽媽，喜歡叫對(duì)方姐姐

相差15歲姐弟戀！00后體育生愛上重慶單親媽媽，喜歡叫對(duì)方姐姐

那年秋天

2026-05-03 11:50:10

跨越32年！老哈蘭德三兄弟并肩作戰(zhàn)，小哈蘭德三兄弟再度攜手

跨越32年！老哈蘭德三兄弟并肩作戰(zhàn)，小哈蘭德三兄弟再度攜手

劉哥談體育

2026-06-24 14:50:48

41歲C羅還在世界杯進(jìn)球，情史12個(gè)女友，最后卻被一個(gè)柜姐收了心

41歲C羅還在世界杯進(jìn)球，情史12個(gè)女友，最后卻被一個(gè)柜姐收了心

阿廢冷眼觀察所

2026-06-24 16:13:06

總理調(diào)研期間，登上在建船只

總理調(diào)研期間，登上在建船只

政知新媒體

2026-06-24 00:51:15

黃金、白銀、原油，大跌！特朗普，最新發(fā)聲！

黃金、白銀、原油，大跌！特朗普，最新發(fā)聲！

證券時(shí)報(bào)e公司

2026-06-25 00:20:26

皇馬有救了！穆里尼奧剛上任就放話，激活姆巴佩的鑰匙找到了！

皇馬有救了！穆里尼奧剛上任就放話，激活姆巴佩的鑰匙找到了！

瀾歸序

2026-06-25 03:14:50

為什么說女人和丈夫上床十次，不如和情人偷情一次呢？

為什么說女人和丈夫上床十次，不如和情人偷情一次呢？

思絮

2026-06-22 21:40:32

發(fā)現(xiàn)了嗎？女人不管個(gè)子高矮，只要腰細(xì)屁股大，身材就不會(huì)差

發(fā)現(xiàn)了嗎？女人不管個(gè)子高矮，只要腰細(xì)屁股大，身材就不會(huì)差

皓皓情感說

2026-06-19 19:56:21

越扒越有！娜然坐霍家主桌僅48小時(shí)，再迎2大噩耗，大房早已表態(tài)

越扒越有！娜然坐霍家主桌僅48小時(shí)，再迎2大噩耗，大房早已表態(tài)

趣文說娛

2026-06-23 18:39:52

這么優(yōu)秀的兩個(gè)孩子，可以加進(jìn)遺囑了吧！

這么優(yōu)秀的兩個(gè)孩子，可以加進(jìn)遺囑了吧！

BenSir本色說

2026-06-25 01:39:13

AIGC大模型及應(yīng)用精選與評(píng)測(cè)

552文章數(shù) 92關(guān)注度

往期回顧全部

科技要聞

豆包專業(yè)版上線：定價(jià)68-500元每月

頭條要聞

15歲男孩肥胖誘發(fā)糖尿病搶救無效離世

頭條要聞

15歲男孩肥胖誘發(fā)糖尿病搶救無效離世

體育要聞

字母哥，會(huì)把凱爾特人拆了嗎？

娛樂要聞

向佐向佑兄弟合體直播！母子終于和解

財(cái)經(jīng)要聞

逃稅23億：審計(jì)署年報(bào)直指七家機(jī)構(gòu)

汽車要聞

施鵬澤：為什么奧迪E7X強(qiáng)調(diào)座艙氣味安全?

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

數(shù)碼

親子

教育

本地新聞

2026世界杯全勤太難？這份保姆級(jí)攻略請(qǐng)收好

家居要聞

綠意盎然自然之境

空間微調(diào) 移形換境
自由流光回溯生活真意
雅奢之序五層別墅

數(shù)碼要聞

三星電子公眾號(hào)注銷！家電業(yè)務(wù)已官宣退出中國(guó)大陸市場(chǎng)

親子要聞

今天教兒子如何擦屁股

教育要聞

2026高考分?jǐn)?shù)線最新匯總！12省已公布，含藝術(shù)類各專業(yè)分?jǐn)?shù)線

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡(jiǎn)介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

^{<noscript id="43e9b"></noscript>}