亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上海AI Lab InternLM團(tuán)隊(duì)WildClawBench 60題,把龍蝦AI打回原形

0
分享至



OpenClaw 生態(tài)放出了一道難題:WildClawBench,專門用來(lái)驗(yàn)收「龍蝦」AI 的實(shí)戰(zhàn)功力!

這 60 道題全是「打工人」的真實(shí)活兒:整理發(fā)布會(huì)錄像做海報(bào)、分類 arXiv 論文找 Baseline,全是多模態(tài) + 多步驟的硬核挑戰(zhàn)。

測(cè)試結(jié)果很扎心,連目前地表最強(qiáng)的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我們真的在衡量 AI Agent 的能力嗎?

縱觀過(guò)去一年的各類 Benchmark,大多聚焦于模型是否能準(zhǔn)確完成一次函數(shù)調(diào)用。然而,真實(shí)場(chǎng)景下的任務(wù)并非單點(diǎn)的格式對(duì)齊,而是一場(chǎng)長(zhǎng)跑。AI 需要跨越多種模態(tài)理解信息,在動(dòng)態(tài)環(huán)境中判斷工具序列,并實(shí)時(shí)處理預(yù)料之外的錯(cuò)誤。

這種端到端的閉環(huán)交付能力,才是 Agent 的核心價(jià)值。

為了填補(bǔ)這一評(píng)測(cè)空白,上海人工智能實(shí)驗(yàn)室 InternLM 團(tuán)隊(duì)近日推出了全面且硬核的 WildClawBench。它不再關(guān)注碎片化的正確率,而是通過(guò)極高難度的任務(wù)場(chǎng)景,對(duì)大模型的 Agency 智能進(jìn)行一場(chǎng)全方位的實(shí)戰(zhàn)校檢。



圖 1:WildClawBench 評(píng)測(cè)框架圖?;?Docker 的真實(shí)操作系統(tǒng)環(huán)境,AI 智能體可獨(dú)立操作瀏覽器、終端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 數(shù)據(jù)集:huggingface.co/datasets/internlm/WildClawBench
  • 在線排行榜:internlm.github.io/WildClawBench
  • 完整評(píng)測(cè)軌跡:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真實(shí)助手環(huán)境里端到端評(píng)測(cè)

WildClawBench 把 Agent 丟進(jìn)一個(gè)真實(shí)的 OpenClaw 環(huán)境,具備一套完整的工具集:瀏覽器、終端、文件系統(tǒng)、日歷,跟真實(shí)用戶日常使用的環(huán)境一模一樣。

60 道任務(wù)全部手工原創(chuàng)設(shè)計(jì),覆蓋中英雙語(yǔ),分布在 6 個(gè)類別中。每道任務(wù)運(yùn)行在獨(dú)立的 Docker 容器里,評(píng)分用的 ground truth 和打分腳本在 Agent 執(zhí)行結(jié)束后才注入容器,整個(gè)執(zhí)行過(guò)程中完全不可見(jiàn),從根源上杜絕數(shù)據(jù)泄露。

換句話說(shuō),每一分都是 Agent 真刀真槍掙來(lái)的。

6 大類別,60 道題,到底在考什么?

  • 生產(chǎn)力流程(10 題)

研究者和知識(shí)工作者每天都在做、但希望有人代勞的事。比如前面提到的 ArXiv 論文審計(jì):Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個(gè)方向自動(dòng)分類;對(duì)「多模態(tài)」類別的每一篇,逐篇打開(kāi) PDF 或 HTML,核對(duì)完整的作者名單,數(shù)清正文有幾張圖、幾張表,附錄又有幾張圖、幾張表,記錄附錄的起始章節(jié)標(biāo)題;再根據(jù)用戶是 CapRL 作者這一身份信息,從幾十篇論文中挑出最相關(guān)的推薦,并把以 CapRL 為 baseline 的 benchmark 對(duì)比表原樣抽取出來(lái)。

這不是「幫我總結(jié)一下摘要」——Agent 必須真的去逐篇讀論文的正文內(nèi)容,一張圖一張表地?cái)?shù)。



圖 2 : 生產(chǎn)力類任務(wù)展示。Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個(gè)方向自動(dòng)分類,并根據(jù)用戶信息(CapRL 作者)完成個(gè)性化推送。

  • 代碼智能(12 題)

給 Agent 一個(gè)完全沒(méi)有文檔的代碼倉(cāng)庫(kù),讓它自己讀源碼、裝依賴、寫推理腳本跑通。比如從 SAM3 的源碼出發(fā)寫出可運(yùn)行的推理代碼,或者解視覺(jué)謎題(拼圖、連線、Link-a-Pix),要求生成像素級(jí)精確的解。

  • 社交互動(dòng)(6 題)

多輪溝通和上下文追蹤。Agent 需要通過(guò)多輪郵件來(lái)回協(xié)商一個(gè)多人都有空的會(huì)議時(shí)間,或者掃一遍聊天記錄把所有待辦事項(xiàng)、deadline、負(fù)責(zé)人整理成結(jié)構(gòu)化清單。

  • 搜索檢索(11 題)

當(dāng)網(wǎng)上搜到的信息和本地?cái)?shù)據(jù)對(duì)不上時(shí),Agent 要交叉驗(yàn)證、判斷誰(shuí)對(duì)誰(shuí)錯(cuò)。比如多個(gè)來(lái)源給出矛盾的財(cái)務(wù)數(shù)據(jù),Agent 需要追溯原始出處并給出有依據(jù)的結(jié)論。



圖 3:搜索檢索類任務(wù)展示。Agent 要根據(jù)提供的谷歌學(xué)術(shù)主頁(yè),確定兩位學(xué)者之間的最短關(guān)系鏈條,相鄰的學(xué)者對(duì)之間均需要有合作論文。

  • 創(chuàng)意合成(11 題)

這一類最考驗(yàn)「全?!鼓芰?。前面提到的產(chǎn)品發(fā)布會(huì)任務(wù)就是其中之一:在斷網(wǎng)條件下看完一段完整的發(fā)布會(huì)錄像,識(shí)別全部 8 款硬件產(chǎn)品,提取名稱、芯片、配色、起售價(jià)等結(jié)構(gòu)化信息存成 JSON,再?gòu)囊曨l中截取產(chǎn)品畫面,排版成一份 5 頁(yè) A4 的專業(yè)宣傳 PDF。評(píng)測(cè)不僅檢查數(shù)據(jù)是否精確(價(jià)格必須和 ground truth 完全一致),還讓 VLM 對(duì) PDF 的排版美感、圖文一致性打分 —— 做出來(lái)的東西不僅要「對(duì)」,還要「好看」。



圖 4:創(chuàng)意合成類任務(wù)展示。Agent 要根據(jù)提供的球賽完整視頻,剪輯一段巴塞羅那 7 號(hào)球員費(fèi)蘭?托雷斯上半場(chǎng)的精彩進(jìn)球集錦。

  • 安全對(duì)齊(10 題)

最隱蔽也最關(guān)鍵的一類。惡意指令被深埋在一份看起來(lái)完全正常的文檔中間,Agent 要能識(shí)別出來(lái)并拒絕執(zhí)行;API Key 散落在一個(gè)大型項(xiàng)目上百條 Git commit 的歷史里,Agent 要像安全審計(jì)員一樣逐一排查并報(bào)告泄露風(fēng)險(xiǎn),而不是無(wú)視它們繼續(xù)干活。

排行榜:最強(qiáng)模型剛過(guò)半,國(guó)產(chǎn)模型擠進(jìn)前三

截至 2026 年 4 月 1 日,WildClawBench 已評(píng)測(cè) 14 個(gè)前沿模型,結(jié)果如下:



圖 5:Leaderboard。我們?cè)u(píng)測(cè)了國(guó)內(nèi)外共 14 個(gè)前沿模型

幾個(gè)值得注意的發(fā)現(xiàn):

  • 分?jǐn)?shù)天花板很低:排名第一的 Claude Opus 4.6 剛過(guò) 51 分,可見(jiàn)雖然日常的任務(wù)但是真實(shí)的環(huán)境還是讓 AI Agent 為難的,這個(gè) benchmark 短期內(nèi)不會(huì)被「刷爆」,分?jǐn)?shù)的區(qū)分度很高;
  • 性價(jià)比差異懸殊:Claude Opus 4.6 跑一次的平均花費(fèi)超過(guò) 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 個(gè)百分點(diǎn)。在成本敏感的場(chǎng)景下,「最貴的」未必是最優(yōu)選擇;
  • 國(guó)產(chǎn)模型集體亮相,智譜 GLM 5 拿下探花:14 個(gè)參評(píng)模型中有 9 個(gè)來(lái)自中國(guó)團(tuán)隊(duì),智譜 AI 的 GLM 5 以 42.6% 拿下總榜第三,是唯一進(jìn)入前三的國(guó)產(chǎn)模型,力壓 Google DeepMind 的 Gemini 3.1 Pro,而且花費(fèi)僅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)緊隨其后排名第五,同樣超過(guò)了 Gemini。國(guó)產(chǎn)模型在 Agent 端到端能力上的追趕速度,比很多人預(yù)想的要快。



圖 6:子類別雷達(dá)圖。我們展示了六個(gè)類別下模型的得分,發(fā)現(xiàn)不同模型有各自不同的擅長(zhǎng)領(lǐng)域。

「養(yǎng)龍蝦」排行榜:你的 AI 助手比我的強(qiáng)嗎?

WildClawBench 還有一個(gè)有趣的延伸:個(gè)人 OpenClaw 排行榜。

在 OpenClaw 社區(qū)里,「養(yǎng)龍蝦」已經(jīng)成了一種現(xiàn)象:用戶持續(xù)給自己的 AI 助手教新技能、定制人格、積累長(zhǎng)期記憶。一個(gè)自然而然的問(wèn)題是:誰(shuí)的龍蝦更厲害?

WildClawBench 允許用戶把自己精心調(diào)教的 OpenClaw 工作區(qū)(包括 SOUL.md、MEMORY.md、自定義技能等)提交到同一套 60 道題上跑分。跑完把結(jié)果發(fā)到指定郵箱,就能上排行榜。

這不僅僅是比個(gè)高低,它能幫助社區(qū)理解,在同一個(gè)底座模型上,哪些 harness,技能組合、人格設(shè)定和記憶策略真的能提升 Agent 的任務(wù)完成率。

開(kāi)源,可復(fù)現(xiàn),歡迎貢獻(xiàn)

WildClawBench 采用 MIT 開(kāi)源協(xié)議,全部 60 道任務(wù)的 markdown 定義、評(píng)分代碼、Docker 鏡像和數(shù)據(jù)集均已公開(kāi)。

項(xiàng)目還提供了任務(wù)模板,社區(qū)可以按照統(tǒng)一格式貢獻(xiàn)新任務(wù)。每道任務(wù)自帶自動(dòng)評(píng)分腳本,支持一鍵批量評(píng)測(cè)。

當(dāng)最強(qiáng) AI Agent 的最高分還不到 60 分,我們離真正可靠的 AI 助手還有多遠(yuǎn)?至少現(xiàn)在有了一把刻度清晰的尺子。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
5月1日起,3萬(wàn)元成“高壓線”!普通打工人、小老板、新規(guī)來(lái)了

5月1日起,3萬(wàn)元成“高壓線”!普通打工人、小老板、新規(guī)來(lái)了

混沌錄
2026-04-14 20:16:08
一場(chǎng)87:70讓前8格局再次大亂!青島遭晴天霹靂,遼寧機(jī)會(huì)又來(lái)了

一場(chǎng)87:70讓前8格局再次大亂!青島遭晴天霹靂,遼寧機(jī)會(huì)又來(lái)了

后仰大風(fēng)車
2026-04-15 07:35:05
孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔(dān)心的事出現(xiàn)了

孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔(dān)心的事出現(xiàn)了

圓夢(mèng)的小老頭
2026-04-15 15:00:48
中央明確了!社保最低繳費(fèi)年限要提高,70、80后得早做準(zhǔn)備

中央明確了!社保最低繳費(fèi)年限要提高,70、80后得早做準(zhǔn)備

云鵬敘事
2026-04-12 16:36:39
大灣區(qū)攬勝來(lái)了!小鵬旗艦SUV GX預(yù)售:旗艦版39.98萬(wàn)

大灣區(qū)攬勝來(lái)了!小鵬旗艦SUV GX預(yù)售:旗艦版39.98萬(wàn)

快科技
2026-04-15 21:38:10
國(guó)臺(tái)辦果然沒(méi)看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

國(guó)臺(tái)辦果然沒(méi)看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
70后存款大曝光!銀行人表示:能存到這個(gè)數(shù)的,已經(jīng)算“中上層”

70后存款大曝光!銀行人表示:能存到這個(gè)數(shù)的,已經(jīng)算“中上層”

億通電子游戲
2026-04-15 13:02:19
2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

蔥哥說(shuō)
2026-04-14 22:04:16
突發(fā)!香港資深制作人失聯(lián),牽扯金額恐達(dá)上億元

突發(fā)!香港資深制作人失聯(lián),牽扯金額恐達(dá)上億元

你約電影
2026-04-15 20:34:31
5月1日起,醫(yī)院要變天了?以后看病不再擠破頭!

5月1日起,醫(yī)院要變天了?以后看病不再擠破頭!

小談食刻美食
2026-04-15 08:30:07
南京征婚啟事走紅!男子“頂配條件”僅要求女方91年后出生、未婚

南京征婚啟事走紅!男子“頂配條件”僅要求女方91年后出生、未婚

火山詩(shī)話
2026-04-15 06:25:37
貴陽(yáng)一高速發(fā)生多車連環(huán)事故,當(dāng)?shù)鼗貞?yīng):涉及7輛車,尚未掌握人員傷亡信息,道路已恢復(fù)暢通

貴陽(yáng)一高速發(fā)生多車連環(huán)事故,當(dāng)?shù)鼗貞?yīng):涉及7輛車,尚未掌握人員傷亡信息,道路已恢復(fù)暢通

極目新聞
2026-04-15 16:51:24
開(kāi)業(yè)僅2年,淮安這家綜合體卻有大批商鋪空了!

開(kāi)業(yè)僅2年,淮安這家綜合體卻有大批商鋪空了!

微淮安
2026-04-15 20:04:07
最后5輪3個(gè)主場(chǎng) 沙爾克距離重返德甲只剩一步之遙

最后5輪3個(gè)主場(chǎng) 沙爾克距離重返德甲只剩一步之遙

體壇周報(bào)
2026-04-15 18:26:55
70架軍機(jī)抵以色列,伊朗中計(jì),巴鐵出兵,戰(zhàn)爭(zhēng)一觸即發(fā)

70架軍機(jī)抵以色列,伊朗中計(jì),巴鐵出兵,戰(zhàn)爭(zhēng)一觸即發(fā)

天天都是好日子
2026-04-14 16:52:58
“老師最煩這種現(xiàn)眼包家長(zhǎng)”,寶媽穿緊身裙參加運(yùn)動(dòng)會(huì),被嘲

“老師最煩這種現(xiàn)眼包家長(zhǎng)”,寶媽穿緊身裙參加運(yùn)動(dòng)會(huì),被嘲

蝴蝶花雨話教育
2026-04-02 10:30:13
張雪宣布:計(jì)劃于今年六七月份,在重慶挑戰(zhàn)騎摩托車飛躍長(zhǎng)江;網(wǎng)友勸阻別拿命開(kāi)玩笑,此前挑戰(zhàn)連續(xù)失敗4次

張雪宣布:計(jì)劃于今年六七月份,在重慶挑戰(zhàn)騎摩托車飛躍長(zhǎng)江;網(wǎng)友勸阻別拿命開(kāi)玩笑,此前挑戰(zhàn)連續(xù)失敗4次

魯中晨報(bào)
2026-04-15 15:00:10
豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績(jī)壓廣州1勝場(chǎng),再贏2場(chǎng)鎖季后賽!

豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績(jī)壓廣州1勝場(chǎng),再贏2場(chǎng)鎖季后賽!

籃球資訊達(dá)人
2026-04-15 22:35:17
凌晨1點(diǎn)告別德國(guó)!樊振東最后一場(chǎng),數(shù)萬(wàn)球迷會(huì)為他守夜嗎?

凌晨1點(diǎn)告別德國(guó)!樊振東最后一場(chǎng),數(shù)萬(wàn)球迷會(huì)為他守夜嗎?

曉隯就是我
2026-04-15 10:59:55
李想朋友圈發(fā)爽了,也讓東風(fēng)日產(chǎn)NX8上桌了

李想朋友圈發(fā)爽了,也讓東風(fēng)日產(chǎn)NX8上桌了

電動(dòng)星球News
2026-04-13 20:08:50
2026-04-15 23:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

教育
家居
親子
旅游
時(shí)尚

教育要聞

千城百縣看中國(guó)|山東定陶:創(chuàng)意滿格大課間

家居要聞

簡(jiǎn)而不減 暖居之道

親子要聞

母嬰命懸一線,兇險(xiǎn)性前置胎盤穿透膀胱,這家醫(yī)院如何力挽狂瀾

旅游要聞

美翻了!成都植物園100余種月季迎來(lái)盛花期

赫本愛(ài)穿的傘裙,好優(yōu)雅!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版