无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Fable 5最難檔零分!智能體的最后考試來了

0
分享至

機(jī)器之心編輯部

這幾天,Anthropic 的最新模型 Claude Fable 5 發(fā)布之后,在 AI 圈激起了不小的震動(dòng)。

今天一早,大模型評(píng)測(cè)平臺(tái) Arena 放出了智能體基準(zhǔn)測(cè)試(Agent Arena)的成績(jī):Fable 5(High)排名第一,OpenAI 的 GPT-5.5(xHigh)屈居第二。另外,在「確認(rèn)成功率」和「可引導(dǎo)性」等兩項(xiàng)指標(biāo)上,F(xiàn)able 5(High)也穩(wěn)壓 GPT-5.5(xHigh)。

從 Agent Arena 的跑分來看,F(xiàn)able 5 的性能強(qiáng)悍可見一斑。該基準(zhǔn)通過數(shù)百萬個(gè)真實(shí)世界的長(zhǎng)周期智能體任務(wù)來評(píng)估模型,需要調(diào)用網(wǎng)頁(yè)搜索、文件系統(tǒng)、終端等工具,完成寫代碼、制作幻燈片、網(wǎng)頁(yè)研究、構(gòu)建應(yīng)用以及分析文檔等復(fù)雜工作流。



但與此同時(shí),在另一個(gè)智能體基準(zhǔn)測(cè)試中,F(xiàn)able 5 敗給了一個(gè)多月前發(fā)布的 GPT-5.5。

它是加州大學(xué)伯克利分校宋曉東(Dawn Song)教授團(tuán)隊(duì)開發(fā)的ALE,全稱為 Agents' Last Exam(智能體的最后考試),用來衡量 AI 智能體是否真的能夠在廣泛的真實(shí)世界領(lǐng)域中完成具有經(jīng)濟(jì)價(jià)值的工作

ALE 測(cè)試涵蓋 55 個(gè)非體力職業(yè),包含 1500 + 項(xiàng)任務(wù),由來自 100 + 機(jī)構(gòu)的 300+ 位專家貢獻(xiàn),覆蓋科學(xué)、工程、醫(yī)學(xué)、法律、金融、教育等多個(gè)領(lǐng)域。另外,該基準(zhǔn)提供完整的 GUI + CLI 環(huán)境,并基于最終結(jié)果進(jìn)行可驗(yàn)證評(píng)估。



在 ALE 中,團(tuán)隊(duì)評(píng)測(cè)了 Fable 5、GPT-5.5、Composer 2.5 以及其他前沿 Agent 系統(tǒng)。結(jié)果既令人印象深刻,也足夠讓人冷靜:

現(xiàn)在的 Agent 已經(jīng)能夠解決相當(dāng)一部分專業(yè)任務(wù),但當(dāng)我們看向最難的那一類任務(wù),也就是那些需要持續(xù)推理、深厚領(lǐng)域知識(shí),以及長(zhǎng)周期可靠執(zhí)行的任務(wù)時(shí),它們距離人類水平仍然很遠(yuǎn)。「有用的 Agent 時(shí)代已經(jīng)到來,但真正能勝任工作的 Agent 時(shí)代,還沒有。」

團(tuán)隊(duì)希望 ALE 能夠成為一個(gè)新的參照系,幫助行業(yè)開發(fā)出能夠在廣泛領(lǐng)域中穩(wěn)定完成經(jīng)濟(jì)價(jià)值工作的 Agent。



針對(duì) Fable 5,ALE 的以下幾點(diǎn)測(cè)試結(jié)果值得我們關(guān)注:

一是,在整體榜單中,GPT-5.5 憑借 24.0% 的通過率居于榜首,超越了 Fable 5 的 22.0%;余下依次為 composer-2.5、Gemini-3.1-pro-preview、Deepseek-v4-pro 和 Qwen-3.7-Max。

二是,成本差異巨大。雖然 Fable 5、GPT-5.5 和 Composer 2.5 的整體表現(xiàn)處在同一梯隊(duì),但每項(xiàng)任務(wù)的成本差異非常明顯:Fable 5 平均每題花費(fèi)約 $15.70,GPT-5.5 僅 $3.80,Composer 2.5 為 $1.33。

也就是說,在性能相近的情況下,F(xiàn)able 5 每完成一項(xiàng)任務(wù)的成本大約是其他模型的 4 到 12 倍。



三是,最難一檔全軍覆沒。在最高難度「Last-Exam」檔位,包括 Fable 5 在內(nèi)的所有前沿 agent 通過率為 0%



另外,ALE 中還有一個(gè)僅支持命令行環(huán)境的子集——ALE-CLI

相比 Terminal-Bench 和 SWE-bench-Pro,它的覆蓋范圍更廣、任務(wù)周期更長(zhǎng),難度也明顯更高:

  • 覆蓋更廣:ALE-CLI 的任務(wù)覆蓋 ALE 55 個(gè)行業(yè)子領(lǐng)域中的 40 個(gè);相比之下,Terminal-Bench 只覆蓋 6 個(gè),SWE-bench-Pro 只覆蓋 5 個(gè)。
  • 周期更長(zhǎng):人類完成這些任務(wù)通常需要數(shù)小時(shí)到數(shù)周,而不是幾分鐘到幾天。
  • 難度更高:表現(xiàn)最好的 Agent 通過率也只有 25.2%;相比之下,Terminal-Bench 上的最佳通過率為 82.0%,SWE-bench-Pro 為 59.1%。

這說明,Agent 離真正成熟還有很長(zhǎng)的路要走,也還有很大的提升空間。



在談到為什么 ALE 的結(jié)果和一些其他基準(zhǔn)不太一樣,尤其是 Fable 5?宋曉東表示,原因很簡(jiǎn)單:不存在一個(gè)在所有場(chǎng)景下都最強(qiáng)的 Agent。包括 Fable 5 在內(nèi),每個(gè)前沿模型都有自己擅長(zhǎng)的領(lǐng)域,也都有表現(xiàn)吃力的領(lǐng)域。

總分會(huì)把 55 個(gè)職業(yè)、1500 多個(gè)任務(wù)的結(jié)果平均到一起,因此很多模型的分?jǐn)?shù)會(huì)擠在相近區(qū)間。但真正重要的,不是平均分。真正有價(jià)值的信號(hào)在于:Agent 在哪里成功,在哪里失敗,以及這些成敗模式如何隨領(lǐng)域而變化。同樣的任務(wù),不同模型失敗的原因往往完全不同。



最常見的失敗模式依然是一個(gè)熟悉的問題: Agent 還沒有真正驗(yàn)證自己的工作,就先宣布任務(wù)完成。典型的完成回復(fù)往往是:「已完成,所有檢查都通過了。」但實(shí)際輸出可能缺少必要文件、統(tǒng)計(jì)數(shù)量有誤、遺漏關(guān)鍵字段,或者違反了任務(wù)說明中明確寫出的約束條件。



ALE 研究介紹



  • 網(wǎng)站: https://agents-last-exam.org
  • 任務(wù)示例: https://agents-last-exam.org/demo
  • 排行榜: https://agents-last-exam.org/leaderboard
  • 論文: https://arxiv.org/abs/2606.05405

ALE 是一個(gè)包含 1000 多個(gè)任務(wù)實(shí)例的基準(zhǔn)測(cè)試,覆蓋 55 個(gè)子領(lǐng)域和 13 個(gè)行業(yè)集群,由來自 100 + 機(jī)構(gòu)的 300 + 位專家貢獻(xiàn)。

為了確保行業(yè)覆蓋足夠廣泛且具有代表性,專家顧問委員會(huì)會(huì)梳理各個(gè)領(lǐng)域的工作流圖景,并基于 O*NET / SOC 2018 職業(yè)分類體系,識(shí)別具有經(jīng)濟(jì)意義的工作流類型。



ALE 任務(wù)工作流來自真實(shí)的專業(yè)實(shí)踐。它并不是憑空設(shè)計(jì)合成場(chǎng)景,而是由專家提供他們已經(jīng)完成過的真實(shí)項(xiàng)目。這些項(xiàng)目在被納入基準(zhǔn)之前,還要經(jīng)過多輪質(zhì)量控制,包括初步審核、工程師試運(yùn)行,以及專家委員會(huì)的最終同行評(píng)審。

大多數(shù)任務(wù)都要求智能體使用計(jì)算機(jī),并在 GUI 交互和 CLI 操作之間來回切換。GUI 交互包括桌面應(yīng)用、瀏覽器和特定領(lǐng)域軟件;CLI 操作包括 shell 腳本、代碼執(zhí)行和文件處理。

這意味著,ALE 要求智能體同時(shí)具備多種能力,而這些能力在現(xiàn)有基準(zhǔn)中往往是被分開測(cè)試的。

ALE 的目標(biāo)評(píng)測(cè)對(duì)象是 GCUA(Generalist Computer-Use Agent)智能體,例如 Claude Code 或 Codex。這類智能體能夠在同一個(gè)行動(dòng)循環(huán)中結(jié)合視覺感知、代碼執(zhí)行、工具使用和長(zhǎng)周期規(guī)劃。按照設(shè)計(jì),ALE 的任務(wù)形態(tài)覆蓋范圍要大于僅測(cè)試 GUI 的基準(zhǔn),例如 OSWorld,也大于僅測(cè)試 CLI 的基準(zhǔn),例如 Terminal-Bench 。

在任務(wù)收集上,ALE 不是隨便收集一些任務(wù)來考驗(yàn) AI,而是要求任務(wù)必須滿足三個(gè)條件:

  • 代表性。工作流應(yīng)當(dāng)符合真實(shí)的專業(yè)實(shí)踐,并使用領(lǐng)域?qū)<覍?shí)際會(huì)使用的軟件。例如,建筑領(lǐng)域?qū)<以诎?2D 藍(lán)圖轉(zhuǎn)換為 3D 模型時(shí),通常會(huì)使用 SolidWorks 或 Rhino,而不是 AutoCAD。
  • 復(fù)雜性。一項(xiàng)任務(wù)應(yīng)當(dāng)是端到端的交付物,需要專家投入相當(dāng)時(shí)間完成,而不只是幾個(gè)簡(jiǎn)單的 UI 操作。關(guān)鍵區(qū)別在于:這是一個(gè)工作流,還是一個(gè)單一動(dòng)作。
  • 可驗(yàn)證性。輸出結(jié)果應(yīng)當(dāng)能夠接受確定性檢查,或者能夠按照與可觀察產(chǎn)物綁定的明確評(píng)分細(xì)則進(jìn)行評(píng)估。最理想的情況是,交付物具有確定性,可以直接與參考輸出進(jìn)行比較。即使無法做到精確匹配,判斷也應(yīng)當(dāng)能夠還原為對(duì)某個(gè)可測(cè)量產(chǎn)物的評(píng)估。

另外,ALE 中的任務(wù)不是由普通眾包工人來提供;而是來自領(lǐng)域?qū)I(yè)人士的真實(shí)日常工作,并經(jīng)過嚴(yán)格篩選,以確保真實(shí)性、復(fù)雜性和技術(shù)可執(zhí)行性,共包含五道關(guān)卡。



  • 專家來源。研究者通過由行業(yè)從業(yè)者組成的顧問委員會(huì)招募領(lǐng)域?qū)<遥_保任務(wù)能夠覆蓋整個(gè)分類體系。
  • 任務(wù)提交。專家通過專門的網(wǎng)頁(yè)入口提交任務(wù)提案。他們會(huì)上傳自己過去完成過的項(xiàng)目,這些項(xiàng)目通常需要數(shù)天甚至數(shù)周的專業(yè)工作。AI 輔助工具會(huì)幫助完善每個(gè)提案,直到五個(gè)核心組成部分被完整說明:自然語(yǔ)言描述、輸入文件、目標(biāo)軟件、預(yù)期交付物和評(píng)測(cè)規(guī)范。
  • 初步審核。提交內(nèi)容會(huì)按照類似學(xué)術(shù)會(huì)議審稿的方式進(jìn)行篩選,給出大修 / 小修、邊緣接收、接收、強(qiáng)接收等決定;需要修改的任務(wù)會(huì)返回給專家繼續(xù)完善。
  • 任務(wù)實(shí)現(xiàn)。通過審核的任務(wù)規(guī)范會(huì)被轉(zhuǎn)化為可運(yùn)行的資源、配置好的軟件容器,以及編碼后的評(píng)測(cè)邏輯。工程師會(huì)進(jìn)行試運(yùn)行;一旦發(fā)現(xiàn)缺口,任務(wù)會(huì)被自動(dòng)返回給專家補(bǔ)充。
  • 最終質(zhì)檢。最后由專家委員會(huì)進(jìn)行同行評(píng)審,核查參考輸出是否正確,評(píng)測(cè)邊界是否校準(zhǔn)合理,既不能窄到幾乎不可能通過,也不能寬到虛假寬松,同時(shí)確認(rèn)任務(wù)上下文是否充分。

值得一提的是基準(zhǔn)污染問題,這種污染可能來自預(yù)訓(xùn)練數(shù)據(jù)重疊,也可能來自針對(duì)具體任務(wù)的優(yōu)化。為此,ALE 只公開 1490 個(gè)任務(wù)實(shí)例中的 150 個(gè),約占 10%;其余任務(wù)保留在私有池中。



在具體評(píng)測(cè)流程上,ALE 將一個(gè)基準(zhǔn)實(shí)例拆分為三個(gè)相互解耦的組件,這些組件通過定義清晰的接口進(jìn)行交互。



最后,團(tuán)隊(duì)希望 Agents' Last Exam(ALE)能夠成為一個(gè)新的路標(biāo)和北極星,指引行業(yè)開發(fā)出能夠在廣泛領(lǐng)域中可靠完成經(jīng)濟(jì)價(jià)值工作的智能體。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一場(chǎng)1-1絕平,誕生世界杯最大冷門!新死亡之組:4隊(duì)同分,全亂了

一場(chǎng)1-1絕平,誕生世界杯最大冷門!新死亡之組:4隊(duì)同分,全亂了

侃球熊弟
2026-06-14 06:08:16
支付寶史上最大改版要來了!

支付寶史上最大改版要來了!

互聯(lián)網(wǎng)坊間八卦
2026-06-14 18:43:19
16萬人口“小國(guó)”闖世界杯,陣中還有一位華裔球星

16萬人口“小國(guó)”闖世界杯,陣中還有一位華裔球星

瀟湘晨報(bào)
2026-06-14 17:34:16
中國(guó)儲(chǔ)能爆發(fā)式增長(zhǎng):2030年前電能有望完全依靠可再生能源

中國(guó)儲(chǔ)能爆發(fā)式增長(zhǎng):2030年前電能有望完全依靠可再生能源

知識(shí)圈
2026-06-14 15:16:46
入學(xué)前查出肺癌晚期,三年后她的畢業(yè)發(fā)言感動(dòng)全網(wǎng)

入學(xué)前查出肺癌晚期,三年后她的畢業(yè)發(fā)言感動(dòng)全網(wǎng)

大象新聞
2026-06-14 15:26:54
曝俄羅斯央行行長(zhǎng)納比烏琳娜被軟禁!同克宮矛盾激化

曝俄羅斯央行行長(zhǎng)納比烏琳娜被軟禁!同克宮矛盾激化

項(xiàng)鵬飛
2026-06-14 16:34:45
“把兒子當(dāng)外人整呢”,一根破爛眼鏡腿,讓人心疼高考男生處境

“把兒子當(dāng)外人整呢”,一根破爛眼鏡腿,讓人心疼高考男生處境

澤澤先生
2026-06-13 21:43:34
剛剛到貨!柬埔寨驚現(xiàn)中國(guó)59D坦克,為什么D型能把泰國(guó)搞緊張了?

剛剛到貨!柬埔寨驚現(xiàn)中國(guó)59D坦克,為什么D型能把泰國(guó)搞緊張了?

軍武次位面
2026-06-12 10:44:13
世界杯首場(chǎng)強(qiáng)強(qiáng)對(duì)話:1-1!真不像傳統(tǒng)的巴西,安切洛蒂奪冠難了

世界杯首場(chǎng)強(qiáng)強(qiáng)對(duì)話:1-1!真不像傳統(tǒng)的巴西,安切洛蒂奪冠難了

侃球熊弟
2026-06-14 07:35:00
多家車企高管集體預(yù)警!蔚來李斌:做好行業(yè)全年跌15%~20%的心理準(zhǔn)備

多家車企高管集體預(yù)警!蔚來李斌:做好行業(yè)全年跌15%~20%的心理準(zhǔn)備

紅星資本局
2026-06-14 13:09:04
到底真的假的?網(wǎng)傳幾乎所有大學(xué)專業(yè)都在勸退…

到底真的假的?網(wǎng)傳幾乎所有大學(xué)專業(yè)都在勸退…

慧翔百科
2026-06-12 17:40:37
廣西靈山一小偷盜竊后,對(duì)著公共攝像頭“比耶”挑釁,警方:那就比一比!

廣西靈山一小偷盜竊后,對(duì)著公共攝像頭“比耶”挑釁,警方:那就比一比!

環(huán)球網(wǎng)資訊
2026-06-13 21:51:14
東海大橋兩輛集卡追尾 傷員送醫(yī)救治

東海大橋兩輛集卡追尾 傷員送醫(yī)救治

上觀新聞
2026-06-14 10:00:45
從高中就想“干大事”,學(xué)霸租冥幣廠造數(shù)百萬假鈔,大部分能通過驗(yàn)鈔機(jī);警方:高三時(shí)因非法持有槍支獲刑,錯(cuò)失保送名校機(jī)會(huì)

從高中就想“干大事”,學(xué)霸租冥幣廠造數(shù)百萬假鈔,大部分能通過驗(yàn)鈔機(jī);警方:高三時(shí)因非法持有槍支獲刑,錯(cuò)失保送名校機(jī)會(huì)

極目新聞
2026-06-14 21:41:30
泰國(guó)國(guó)王瑪哈長(zhǎng)跪不起哭得像個(gè)孩子,長(zhǎng)公主皇家告別式內(nèi)場(chǎng)照曝光

泰國(guó)國(guó)王瑪哈長(zhǎng)跪不起哭得像個(gè)孩子,長(zhǎng)公主皇家告別式內(nèi)場(chǎng)照曝光

安寧007
2026-06-14 10:27:16
talkSPORT:FIFA將向遭美國(guó)拒絕入境的索馬里裁判支付全額報(bào)酬

talkSPORT:FIFA將向遭美國(guó)拒絕入境的索馬里裁判支付全額報(bào)酬

懂球帝
2026-06-14 21:41:08
男子深夜遭3次撞擊碾壓致死,路面留下3攤血跡,民警抽絲剝繭揭開真相!

男子深夜遭3次撞擊碾壓致死,路面留下3攤血跡,民警抽絲剝繭揭開真相!

揚(yáng)子晚報(bào)
2026-06-14 21:32:16
原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

攬星河的筆記
2026-06-13 16:35:03
13.58萬!蔚來"神車"正式上市

13.58萬!蔚來"神車"正式上市

科技堡壘
2026-06-14 09:31:09
61歲知名歌手黃大煒意外離世,他與“大外公”張學(xué)良的過往曾令人津津樂道,近一個(gè)月還在籌劃音樂事業(yè)

61歲知名歌手黃大煒意外離世,他與“大外公”張學(xué)良的過往曾令人津津樂道,近一個(gè)月還在籌劃音樂事業(yè)

極目新聞
2026-06-14 16:54:14
2026-06-14 23:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13256文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

展會(huì)商品掃碼后跳轉(zhuǎn)至“涉黃網(wǎng)站” 多方回應(yīng)

頭條要聞

展會(huì)商品掃碼后跳轉(zhuǎn)至“涉黃網(wǎng)站” 多方回應(yīng)

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

游戲
本地
旅游
教育
公開課

逆天BUG秒賺上億!《地平線6》緊急關(guān)閉吃雞模式

本地新聞

AK劉彰邂逅河北南大港濕地

旅游要聞

6月14日最佳情報(bào)|五龍?zhí)断娜斟尥藓萌ヌ帲瑹熍_(tái)現(xiàn)丁達(dá)爾現(xiàn)象!

教育要聞

中考結(jié)束,但人生的無限可能才剛剛開始

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版