无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Fable 5最難檔零分!智能體的最后考試來了

0
分享至

機器之心編輯部

這幾天,Anthropic 的最新模型 Claude Fable 5 發布之后,在 AI 圈激起了不小的震動。

今天一早,大模型評測平臺 Arena 放出了智能體基準測試(Agent Arena)的成績:Fable 5(High)排名第一,OpenAI 的 GPT-5.5(xHigh)屈居第二。另外,在「確認成功率」和「可引導性」等兩項指標上,Fable 5(High)也穩壓 GPT-5.5(xHigh)。

從 Agent Arena 的跑分來看,Fable 5 的性能強悍可見一斑。該基準通過數百萬個真實世界的長周期智能體任務來評估模型,需要調用網頁搜索、文件系統、終端等工具,完成寫代碼、制作幻燈片、網頁研究、構建應用以及分析文檔等復雜工作流。



但與此同時,在另一個智能體基準測試中,Fable 5 敗給了一個多月前發布的 GPT-5.5。

它是加州大學伯克利分校宋曉東(Dawn Song)教授團隊開發的ALE,全稱為 Agents' Last Exam(智能體的最后考試),用來衡量 AI 智能體是否真的能夠在廣泛的真實世界領域中完成具有經濟價值的工作

ALE 測試涵蓋 55 個非體力職業,包含 1500 + 項任務,由來自 100 + 機構的 300+ 位專家貢獻,覆蓋科學、工程、醫學、法律、金融、教育等多個領域。另外,該基準提供完整的 GUI + CLI 環境,并基于最終結果進行可驗證評估。



在 ALE 中,團隊評測了 Fable 5、GPT-5.5、Composer 2.5 以及其他前沿 Agent 系統。結果既令人印象深刻,也足夠讓人冷靜:

現在的 Agent 已經能夠解決相當一部分專業任務,但當我們看向最難的那一類任務,也就是那些需要持續推理、深厚領域知識,以及長周期可靠執行的任務時,它們距離人類水平仍然很遠。「有用的 Agent 時代已經到來,但真正能勝任工作的 Agent 時代,還沒有。」

團隊希望 ALE 能夠成為一個新的參照系,幫助行業開發出能夠在廣泛領域中穩定完成經濟價值工作的 Agent。



針對 Fable 5,ALE 的以下幾點測試結果值得我們關注:

一是,在整體榜單中,GPT-5.5 憑借 24.0% 的通過率居于榜首,超越了 Fable 5 的 22.0%;余下依次為 composer-2.5、Gemini-3.1-pro-preview、Deepseek-v4-pro 和 Qwen-3.7-Max。

二是,成本差異巨大。雖然 Fable 5、GPT-5.5 和 Composer 2.5 的整體表現處在同一梯隊,但每項任務的成本差異非常明顯:Fable 5 平均每題花費約 $15.70,GPT-5.5 僅 $3.80,Composer 2.5 為 $1.33。

也就是說,在性能相近的情況下,Fable 5 每完成一項任務的成本大約是其他模型的 4 到 12 倍。



三是,最難一檔全軍覆沒。在最高難度「Last-Exam」檔位,包括 Fable 5 在內的所有前沿 agent 通過率為 0%



另外,ALE 中還有一個僅支持命令行環境的子集——ALE-CLI

相比 Terminal-Bench 和 SWE-bench-Pro,它的覆蓋范圍更廣、任務周期更長,難度也明顯更高:

  • 覆蓋更廣:ALE-CLI 的任務覆蓋 ALE 55 個行業子領域中的 40 個;相比之下,Terminal-Bench 只覆蓋 6 個,SWE-bench-Pro 只覆蓋 5 個。
  • 周期更長:人類完成這些任務通常需要數小時到數周,而不是幾分鐘到幾天。
  • 難度更高:表現最好的 Agent 通過率也只有 25.2%;相比之下,Terminal-Bench 上的最佳通過率為 82.0%,SWE-bench-Pro 為 59.1%。

這說明,Agent 離真正成熟還有很長的路要走,也還有很大的提升空間。



在談到為什么 ALE 的結果和一些其他基準不太一樣,尤其是 Fable 5?宋曉東表示,原因很簡單:不存在一個在所有場景下都最強的 Agent。包括 Fable 5 在內,每個前沿模型都有自己擅長的領域,也都有表現吃力的領域。

總分會把 55 個職業、1500 多個任務的結果平均到一起,因此很多模型的分數會擠在相近區間。但真正重要的,不是平均分。真正有價值的信號在于:Agent 在哪里成功,在哪里失敗,以及這些成敗模式如何隨領域而變化。同樣的任務,不同模型失敗的原因往往完全不同。



最常見的失敗模式依然是一個熟悉的問題: Agent 還沒有真正驗證自己的工作,就先宣布任務完成。典型的完成回復往往是:「已完成,所有檢查都通過了。」但實際輸出可能缺少必要文件、統計數量有誤、遺漏關鍵字段,或者違反了任務說明中明確寫出的約束條件。



ALE 研究介紹



  • 網站: https://agents-last-exam.org
  • 任務示例: https://agents-last-exam.org/demo
  • 排行榜: https://agents-last-exam.org/leaderboard
  • 論文: https://arxiv.org/abs/2606.05405

ALE 是一個包含 1000 多個任務實例的基準測試,覆蓋 55 個子領域和 13 個行業集群,由來自 100 + 機構的 300 + 位專家貢獻。

為了確保行業覆蓋足夠廣泛且具有代表性,專家顧問委員會會梳理各個領域的工作流圖景,并基于 O*NET / SOC 2018 職業分類體系,識別具有經濟意義的工作流類型。



ALE 任務工作流來自真實的專業實踐。它并不是憑空設計合成場景,而是由專家提供他們已經完成過的真實項目。這些項目在被納入基準之前,還要經過多輪質量控制,包括初步審核、工程師試運行,以及專家委員會的最終同行評審。

大多數任務都要求智能體使用計算機,并在 GUI 交互和 CLI 操作之間來回切換。GUI 交互包括桌面應用、瀏覽器和特定領域軟件;CLI 操作包括 shell 腳本、代碼執行和文件處理。

這意味著,ALE 要求智能體同時具備多種能力,而這些能力在現有基準中往往是被分開測試的。

ALE 的目標評測對象是 GCUA(Generalist Computer-Use Agent)智能體,例如 Claude Code 或 Codex。這類智能體能夠在同一個行動循環中結合視覺感知、代碼執行、工具使用和長周期規劃。按照設計,ALE 的任務形態覆蓋范圍要大于僅測試 GUI 的基準,例如 OSWorld,也大于僅測試 CLI 的基準,例如 Terminal-Bench 。

在任務收集上,ALE 不是隨便收集一些任務來考驗 AI,而是要求任務必須滿足三個條件:

  • 代表性。工作流應當符合真實的專業實踐,并使用領域專家實際會使用的軟件。例如,建筑領域專家在把 2D 藍圖轉換為 3D 模型時,通常會使用 SolidWorks 或 Rhino,而不是 AutoCAD。
  • 復雜性。一項任務應當是端到端的交付物,需要專家投入相當時間完成,而不只是幾個簡單的 UI 操作。關鍵區別在于:這是一個工作流,還是一個單一動作。
  • 可驗證性。輸出結果應當能夠接受確定性檢查,或者能夠按照與可觀察產物綁定的明確評分細則進行評估。最理想的情況是,交付物具有確定性,可以直接與參考輸出進行比較。即使無法做到精確匹配,判斷也應當能夠還原為對某個可測量產物的評估。

另外,ALE 中的任務不是由普通眾包工人來提供;而是來自領域專業人士的真實日常工作,并經過嚴格篩選,以確保真實性、復雜性和技術可執行性,共包含五道關卡。



  • 專家來源。研究者通過由行業從業者組成的顧問委員會招募領域專家,確保任務能夠覆蓋整個分類體系。
  • 任務提交。專家通過專門的網頁入口提交任務提案。他們會上傳自己過去完成過的項目,這些項目通常需要數天甚至數周的專業工作。AI 輔助工具會幫助完善每個提案,直到五個核心組成部分被完整說明:自然語言描述、輸入文件、目標軟件、預期交付物和評測規范。
  • 初步審核。提交內容會按照類似學術會議審稿的方式進行篩選,給出大修 / 小修、邊緣接收、接收、強接收等決定;需要修改的任務會返回給專家繼續完善。
  • 任務實現。通過審核的任務規范會被轉化為可運行的資源、配置好的軟件容器,以及編碼后的評測邏輯。工程師會進行試運行;一旦發現缺口,任務會被自動返回給專家補充。
  • 最終質檢。最后由專家委員會進行同行評審,核查參考輸出是否正確,評測邊界是否校準合理,既不能窄到幾乎不可能通過,也不能寬到虛假寬松,同時確認任務上下文是否充分。

值得一提的是基準污染問題,這種污染可能來自預訓練數據重疊,也可能來自針對具體任務的優化。為此,ALE 只公開 1490 個任務實例中的 150 個,約占 10%;其余任務保留在私有池中。



在具體評測流程上,ALE 將一個基準實例拆分為三個相互解耦的組件,這些組件通過定義清晰的接口進行交互。



最后,團隊希望 Agents' Last Exam(ALE)能夠成為一個新的路標和北極星,指引行業開發出能夠在廣泛領域中可靠完成經濟價值工作的智能體。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
中國鬧了個烏龍,沙漠種麥本為保糧倉,誰料金黃麥浪竟成治沙神器

中國鬧了個烏龍,沙漠種麥本為保糧倉,誰料金黃麥浪竟成治沙神器

蜉蝣說
2026-06-14 09:20:24
頂流女星白鹿變成三級演員引發劇烈爭議!十幾年前猛料被扒!

頂流女星白鹿變成三級演員引發劇烈爭議!十幾年前猛料被扒!

魔都囡
2026-06-13 03:38:52
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

殘夢重生來
2026-06-14 04:59:12
快訊!菲防長感覺到痛了,但悔之晚矣!

快訊!菲防長感覺到痛了,但悔之晚矣!

做個平凡的軒友
2026-06-14 09:59:02
金價跌至900元關口,大媽又來抄底了!實探北京菜百:小克重投資金條幾乎賣光

金價跌至900元關口,大媽又來抄底了!實探北京菜百:小克重投資金條幾乎賣光

時代周報
2026-06-14 08:00:20
一次就有抗癌效果!研究證實:僅10分鐘,這種運動能產生抗癌物質,直接抑制癌癥進展

一次就有抗癌效果!研究證實:僅10分鐘,這種運動能產生抗癌物質,直接抑制癌癥進展

醫諾維
2026-06-14 15:33:11
道格拉斯-桑托斯:維尼修斯是絕對的天才;一對一很難有人防住他

道格拉斯-桑托斯:維尼修斯是絕對的天才;一對一很難有人防住他

懂球帝
2026-06-14 15:40:40
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨他一人可以昂首離開

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨他一人可以昂首離開

你的籃球頻道
2026-06-14 12:44:04
Codex和Claude Code負責人都不寫提示詞了,AI 圈爆火的Loop到底是什么

Codex和Claude Code負責人都不寫提示詞了,AI 圈爆火的Loop到底是什么

AppSo
2026-06-14 10:12:13
CBA最新消息!遼寧隊被曝欲簽下廣東2米04鋒線,朱芳雨默認放人!

CBA最新消息!遼寧隊被曝欲簽下廣東2米04鋒線,朱芳雨默認放人!

緋雨兒
2026-06-14 14:55:06
毛岸青婚后九年未育,毛主席找他談話,可后來竟不讓她住院待產?

毛岸青婚后九年未育,毛主席找他談話,可后來竟不讓她住院待產?

瑩瑩的歷史說
2026-06-12 01:21:48
深圳天橋僵持 6 小時!暴雨中兩人互不讓路,直到警察到場才結束

深圳天橋僵持 6 小時!暴雨中兩人互不讓路,直到警察到場才結束

趣味八卦
2026-06-14 14:20:35
美法院駁回上訴 維持肯尼迪中心移除特朗普名字裁決

美法院駁回上訴 維持肯尼迪中心移除特朗普名字裁決

新京報
2026-06-13 14:17:20
帕奎塔演給全世界“看”:沒有內馬爾巴西,進攻只剩維尼修斯單挑

帕奎塔演給全世界“看”:沒有內馬爾巴西,進攻只剩維尼修斯單挑

中國足球的那些事兒
2026-06-14 08:32:02
裁判馬寧成世界杯最大笑點?意外出圈原因曝光,所有人都沒想到

裁判馬寧成世界杯最大笑點?意外出圈原因曝光,所有人都沒想到

史行途
2026-06-13 17:28:24
斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

瀲滟晴方DAY
2026-06-12 18:49:43
A股:下周重要消息來了,做好準備,明天周一行情可能這樣走

A股:下周重要消息來了,做好準備,明天周一行情可能這樣走

明心
2026-06-14 10:27:58
皇帝的一天怎樣過?乾隆3點起床7點寵幸妃子,結束枯燥的一天

皇帝的一天怎樣過?乾隆3點起床7點寵幸妃子,結束枯燥的一天

史之銘
2026-05-08 00:57:40
LG杯決賽風云突變!王星昊借中腹勢力翻盤,申旻埈苦思難解困局

LG杯決賽風云突變!王星昊借中腹勢力翻盤,申旻埈苦思難解困局

L76號
2026-06-14 13:45:55
2026-06-14 16:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13249文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

蓋茨出軌20多次 愛潑斯坦曾鼓勵女醫生與其發展性關系

頭條要聞

蓋茨出軌20多次 愛潑斯坦曾鼓勵女醫生與其發展性關系

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

藝術
數碼
房產
公開課
軍事航空

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

數碼要聞

從3DGS到小藝Claw,華為智慧屏MateTV在HDC展示鴻蒙生態破界之力

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版