无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude通過率不到4%,SaaS-Bench撕碎Computer-Use 全自動辦公幻想

0
分享至



機(jī)器之心發(fā)布

想象一個真實(shí)的工作日:項(xiàng)目經(jīng)理要更新項(xiàng)目狀態(tài),財(cái)務(wù)人員要整理客戶賬單,醫(yī)療管理員要核對預(yù)約和保險信息。

這些并不是高級專家任務(wù),很多時候,一個認(rèn)真一點(diǎn)的實(shí)習(xí)生照著流程也能完成。

但對今天的 AI Agent 來說,這些 “日常工作” 卻遠(yuǎn)沒有看起來那么簡單。

它需要理解業(yè)務(wù)目標(biāo)、跨應(yīng)用查找信息、保持狀態(tài)一致,還要在幾十甚至上百步操作后,把所有細(xì)節(jié)正確落到系統(tǒng)里。

這也是SaaS-Bench想揭示的現(xiàn)實(shí):Agent 不只是要會點(diǎn)按鈕、填表格,更要能完成真實(shí)辦公室里的長流程工作。

如果連實(shí)習(xí)生日常能做的任務(wù)都無法穩(wěn)定完成,那我們就需要重新審視:距離真正可用的 Agent,還有多遠(yuǎn)。



  • Blog 鏈接:https://unipat.ai/blog/SaaS-Bench
  • GitHub 鏈接:https://github.com/UniPat-AI/SaaS-Bench
  • 論文鏈接:https://arxiv.org/abs/2605.15777

Computer-Use Agent 的「奇點(diǎn)」沒有來,現(xiàn)實(shí)的冷水先潑下來了。

過去一年,各家 GUI Agent 爭先恐后地宣稱能替人類干活。Benchmark 成績一路飆升,投資人興奮,媒體狂歡,「全自動辦公」似乎就在眼前。

但 UniPat AI 剛剛用一組數(shù)據(jù)證明:這一切,都建立在沙子上!



Leaderboard

23 個真系統(tǒng),106 個任務(wù),一場殘酷的實(shí)戰(zhàn)考試

現(xiàn)有的 Agent 評測,說白了就是:仿真環(huán)境、簡單任務(wù)、最多幾十步搞定。

跟真實(shí)工作完全是兩回事。

真實(shí)辦公長什么樣?一個醫(yī)療管理員寫完 SOAP 病歷→填病例上報→生成正式文檔。一個財(cái)務(wù)收到報銷申請→審批→打款→記賬??绾脦讉€系統(tǒng),步驟動輒幾百步。

SaaS-Bench 的思路很暴力:直接把真系統(tǒng)搬進(jìn) Docker,讓 Agent 在真實(shí)的前后端邏輯、數(shù)據(jù)庫狀態(tài)和業(yè)務(wù)約束中干活。



SaaS-Bench 任務(wù) —— 真實(shí)工作場景任務(wù)

SaaS-Bench 精心挑選了 23 個開源 SaaS (Software-as-a-Service) 系統(tǒng),全部通過 Docker 本地部署,保留了完整的前后端邏輯、數(shù)據(jù)庫狀態(tài)和業(yè)務(wù)約束。覆蓋六個專業(yè)領(lǐng)域:

  • 軟件研發(fā):OpenProject、Baserow、Code-Server、Metabase
  • 業(yè)務(wù)財(cái)務(wù):Twenty CRM、BigCapital、HRMS、Pretix
  • 醫(yī)療管理:OpenEMR、OpnForm、OnlyOffice
  • 團(tuán)隊(duì)協(xié)作:SiYuan、Roundcube、Mattermost、ownCloud
  • 農(nóng)業(yè)供應(yīng)鏈:FarmOS、Grocy、Recipya、E-Label
  • 獨(dú)立媒體:PhotoPrism、MediaCMS、BookLore、Watcharr

更重要的是,這些系統(tǒng)不是 “空殼網(wǎng)頁”:每個軟件里都填充了真實(shí)業(yè)務(wù)的數(shù)據(jù),包括用戶、項(xiàng)目、訂單、文件等實(shí)體記錄。Agent 進(jìn)入的不是一個空白的測試頁面,而是一個有歷史數(shù)據(jù)、有干擾項(xiàng)、有跨系統(tǒng)關(guān)聯(lián)的真實(shí)工作環(huán)境。



任務(wù)模態(tài)、領(lǐng)域、app 三層分布

106 個任務(wù)中,93.4% 跨越至少兩個應(yīng)用,三應(yīng)用任務(wù)占了一半(53 個)。純文本任務(wù) 74 個,涉及多模態(tài)理解的 32 個。以 Claude Opus 4.6 的執(zhí)行軌跡估算,97.3% 的文本任務(wù)操作步數(shù)超過 100 步,最長軌跡達(dá) 300+ 步。



任務(wù)難度分析 —— 大多數(shù)任務(wù)是 Cross-App + Long-Horizon 的

這些任務(wù)是怎么來的?如何評估 Agent 的操作能力?

SaaS-Bench 采用“LLM 生成 + 專家把關(guān)”的方式完成任務(wù)構(gòu)建:

  • 先由 LLM 圍繞六大專業(yè)領(lǐng)域和具體職業(yè)角色生成任務(wù),明確任務(wù)目標(biāo)、跨應(yīng)用依賴和驗(yàn)證要求,并通過多輪修改減少歧義和漏洞。
  • 隨后,專家會對任務(wù)進(jìn)行人工篩選和真實(shí)執(zhí)行檢查,重點(diǎn)判斷任務(wù)是否專業(yè)、自然、可完成、可驗(yàn)證。對于堆砌步驟、邏輯混亂或驗(yàn)證不準(zhǔn)的任務(wù),會被修改或剔除,最終確保每個任務(wù)都能真實(shí)運(yùn)行,并能被驗(yàn)證器準(zhǔn)確評估。



任務(wù)構(gòu)建流程圖 —— 四個階段保證任務(wù)質(zhì)量

SaaS-Bench 允許 Agent 使用 Browser-Use 在 SaaS 環(huán)境中操作計(jì)算機(jī),并給出了兩個指標(biāo):

  • Resolved Score(完全通過分?jǐn)?shù),嚴(yán)苛):全部檢查點(diǎn)通過才算 1,否則為 0
  • Checkpoint Score(檢查點(diǎn)分?jǐn)?shù),寬松):按權(quán)重計(jì)算部分檢查點(diǎn)完成比例



Agent → Browser-Use → 執(zhí)行 → 驗(yàn)證 → 打分總覽圖

后面的結(jié)果會表明 —— 這兩個數(shù)字之間的巨大落差,恰好暴露了 Agent 最核心的問題。

榜單出爐:全軍覆沒

來看這組數(shù)字 ——



主要結(jié)果 (DeepSeek V4 、M2.7 和 GLM5.1 為單模態(tài)模型,僅測評 Text-Only Domain)

最強(qiáng)的 Claude Opus 4.7,檢查點(diǎn)分?jǐn)?shù) 43.9%,端到端完全通過分?jǐn)?shù)只有 3.8%——106 個任務(wù),只完整通過了 4 個。Kimi K2.5 和 Gemini 3.1 Pro?完全通過分?jǐn)?shù)為零。一個任務(wù)都沒走完。

這組數(shù)字的含義極其殘酷:Agent 可以推進(jìn)工作的部分中間環(huán)節(jié),但幾乎沒有能力將一個完整的長程工作流走完。

多跑幾次能救嗎?



四個模型的 Pass@k 結(jié)果

把每個模型在同一任務(wù)上獨(dú)立跑 3 次,對一次就算通過。pass@3 相比 pass@1 整體提升約 8 個百分點(diǎn)。

Sonnet 4.6 在多模態(tài)任務(wù)上從 33.9% 跳到 52.1%(+18.2pp)—— 它并非完全不行,而是執(zhí)行極不穩(wěn)定

這不是環(huán)境隨機(jī)性。每次運(yùn)行的初始狀態(tài)完全相同。這是路徑依賴 —— 模型在某個決策點(diǎn)的微小差異,導(dǎo)致后續(xù)軌跡完全分叉。

多跑幾次有幫助,但遠(yuǎn)不是解決方案。

越復(fù)雜,分越低

三個結(jié)構(gòu)維度全部單調(diào)遞減:



分?jǐn)?shù) vs 應(yīng)用數(shù) / 分?jǐn)?shù) vs 步長 / 分?jǐn)?shù) vs 檢查點(diǎn)個數(shù)

  • 跨應(yīng)用數(shù)1→4:平均分從 53% 降至 20%
  • 操作步長增加:任務(wù)軌跡越長,得分顯著越低
  • 檢查點(diǎn)個數(shù)≤6 vs ≥18:平均分從 65% 降至 27%

「跨應(yīng)用 + 軌跡長 + 細(xì)粒度驗(yàn)證」的任務(wù)得分最低 ——這恰恰是真實(shí)工作流最常見的形態(tài)。

四種結(jié)構(gòu)性失敗:Agent 到底在哪翻車

SaaS-Bench 真正的價值不在于分?jǐn)?shù)本身,而在于暴露了 Agent 在真實(shí)環(huán)境中的四種致命缺陷。

失敗 1:任務(wù)越長,越做不對

即使每個檢查點(diǎn)通過率高達(dá) 95%,12 個檢查點(diǎn)的全部通過概率也只有 54%。而 SaaS-Bench 的平均檢查點(diǎn)數(shù)遠(yuǎn)超 12。

所有模型都呈現(xiàn)同一個模式:通過率隨任務(wù)推進(jìn)呈下降趨勢,沒有一個模型能在后半段維持住前期表現(xiàn)。



模型隨著任務(wù)執(zhí)行,做對的越來越少

這是一條不可逆的下降曲線。越往后走,越不可能走完。

失敗 2:一步錯,步步錯

一個典型案例:任務(wù)要求創(chuàng)建一個公司客戶「Arcturus Digital」。Agent 同時填了聯(lián)系人姓名和公司名,觸發(fā)了個人客戶邏輯,實(shí)際創(chuàng)建的是個人客戶 Elena Vasquez。

此后的 10 張發(fā)票、付款記錄、賬戶對賬,全部掛在錯誤實(shí)體下。核心檢查點(diǎn)權(quán)重僅 3%,但導(dǎo)致了下游 30% 的權(quán)重?fù)p失。



上游任務(wù)導(dǎo)致下游失敗鏈?zhǔn)疽鈭D

一個 3% 的錯誤節(jié)點(diǎn),造成 30% 的分?jǐn)?shù)損失。

失敗 3:做完不檢查,自以為對了

Claude Opus 4.6 在 Step 124 識別出日期錯誤(2026-03-19 vs. 2026-03-20),執(zhí)行了修改,但沒有回到頁面復(fù)查,直接推進(jìn)后續(xù)子任務(wù)。Step 210 提交時,匯報寫的是「賬單日期 2026-03-20,已修復(fù)」—— 頁面上實(shí)際日期仍是 03-19。



Agent 在意圖層面認(rèn)為成功,Verifier 在狀態(tài)層面發(fā)現(xiàn)失敗

Agent 在意圖層面認(rèn)為成功,驗(yàn)證器在狀態(tài)層面發(fā)現(xiàn)失敗。兩者之間的斷層是系統(tǒng)性的。 當(dāng)前 CUA 框架缺少「嚴(yán)謹(jǐn)?shù)姆此奸]環(huán)」 —— Agent 是個不會檢查自己作業(yè)的學(xué)生。

失敗 4:同一張考卷,成績忽高忽低

Claude Sonnet 4.6 在同一任務(wù)的三次獨(dú)立運(yùn)行中,分?jǐn)?shù)范圍從 0.00 到 0.68。這不是環(huán)境隨機(jī)性造成的 —— 每次運(yùn)行的初始狀態(tài)完全相同 —— 而是路徑依賴:模型在某個決策點(diǎn)的微小差異,會導(dǎo)致后續(xù)執(zhí)行軌跡完全分叉,這讓 Agent 在長程任務(wù)中的執(zhí)行變成了賭博。



Claude Sonnet 4.6 在同一任務(wù)的三次運(yùn)行

這意味著什么

SaaS-Bench 撕碎了一個幻覺:Agent 的 Benchmark 成績和真實(shí)工作能力之間,存在巨大的鴻溝。

四種結(jié)構(gòu)性失敗模式 —— 越往后越做不對、一步錯步步錯、做完不檢查、次次分?jǐn)?shù)不一樣 —— 指向同一個底層事實(shí):當(dāng)前 Agent 缺少對持久狀態(tài)的有效推理能力,缺少操作后的閉環(huán)驗(yàn)證機(jī)制,缺少從錯誤中恢復(fù)的能力。

這些不是靠模型變大、或者加幾個工程模塊就能解決的問題。 它們指向的是當(dāng)前 Agent 范式更深層的局限:在長程任務(wù)中,模型缺少對全局狀態(tài)的持續(xù)感知,無法像人一樣 "心里有數(shù)"。這不只是技術(shù)債,而是當(dāng)前范式的天花板。

Computer-Use Agent 想要真正替人干活?路還很遠(yuǎn)。SaaS-Bench 把地圖攤開了 —— 接下來就看各家怎么走了。

但這也引向了一個正在逐漸形成的共識:今天的 SaaS 是給人設(shè)計(jì)的 —— 菜單、按鈕、表單,都在服務(wù)人類的眼睛和手指。但當(dāng) Agent 成為主要用戶,這些界面就變成了累贅。未來不是讓 Agent 學(xué)會操作人類的軟件,而是軟件本身要為 Agent 重新設(shè)計(jì)。SaaS-Bench 揭示的不只是 Agent 的短板,也是當(dāng)前軟件形態(tài)的保質(zhì)期 —— 面向人類的 SaaS,可能都要為 Agent 重做一遍。

UniPat AI

UniPat AI 致力于構(gòu)建面向真實(shí)場景的 AI 訓(xùn)練、評測與應(yīng)用新范式,推動 Agent 能力在千行百業(yè)中規(guī)?;涞兀瑒?chuàng)造切實(shí)的經(jīng)濟(jì)與社會價值。

  • 官網(wǎng)鏈接:https://unipat.ai

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
CCTV5直播!國足VS新加坡、泰國時間敲定 邵佳一圈定34人名單曝光

CCTV5直播!國足VS新加坡、泰國時間敲定 邵佳一圈定34人名單曝光

何老師呀
2026-05-26 07:12:55
韋國清之子公開澄清:網(wǎng)傳韋國清阻礙粟裕平反,與事實(shí)不符

韋國清之子公開澄清:網(wǎng)傳韋國清阻礙粟裕平反,與事實(shí)不符

人生錄
2026-05-25 19:02:18
完勝段永平,比肩沈南鵬,中國索羅斯再封神!

完勝段永平,比肩沈南鵬,中國索羅斯再封神!

市值Observation
2026-05-26 16:48:27
今日最佳:撿錯人了。

今日最佳:撿錯人了。

差評XPIN
2026-05-26 00:11:49
比雷霆還慘!一年選中2個分區(qū)決賽MVP,結(jié)果都送人了,史上最坑GM

比雷霆還慘!一年選中2個分區(qū)決賽MVP,結(jié)果都送人了,史上最坑GM

你的籃球頻道
2026-05-26 13:33:25
爭議!王皓擔(dān)任吉林技術(shù)總監(jiān)被指違規(guī) 體育總局:禁止掛職地方隊(duì)

爭議!王皓擔(dān)任吉林技術(shù)總監(jiān)被指違規(guī) 體育總局:禁止掛職地方隊(duì)

念洲
2026-05-26 10:22:11
荒唐的斯威士蘭:集中10萬少女貢獻(xiàn)國王選妃,國民平均壽命35歲

荒唐的斯威士蘭:集中10萬少女貢獻(xiàn)國王選妃,國民平均壽命35歲

掠影后有感
2026-05-26 11:15:29
深圳人口“狂飆”1800萬:我們離“城市超載”還有多遠(yuǎn)?

深圳人口“狂飆”1800萬:我們離“城市超載”還有多遠(yuǎn)?

趣味萌寵的日常
2026-05-26 09:54:48
毛澤東躲入農(nóng)婦家避敵搜查,她竟大喊:共產(chǎn)黨在此,快來抓!

毛澤東躲入農(nóng)婦家避敵搜查,她竟大喊:共產(chǎn)黨在此,快來抓!

鑒史錄
2026-05-24 16:35:50
連云港遭遇強(qiáng)暴雨致嚴(yán)重內(nèi)澇:多車被淹 屋內(nèi)積水70厘米 有市民街頭游泳

連云港遭遇強(qiáng)暴雨致嚴(yán)重內(nèi)澇:多車被淹 屋內(nèi)積水70厘米 有市民街頭游泳

閃電新聞
2026-05-26 11:01:42
剛在北京東城區(qū)辦完退休,52歲,社保剛好繳滿15年

剛在北京東城區(qū)辦完退休,52歲,社保剛好繳滿15年

歲月有情1314
2026-05-26 14:23:17
你認(rèn)可嗎!手機(jī)系統(tǒng)流暢度最新排名:OPPO繼續(xù)第一、小米澎湃OS升至第3

你認(rèn)可嗎!手機(jī)系統(tǒng)流暢度最新排名:OPPO繼續(xù)第一、小米澎湃OS升至第3

快科技
2026-05-26 16:26:50
河南男子查出甲狀腺癌后拒絕手術(shù):醫(yī)生,我能不能通過意念殺死癌細(xì)胞?醫(yī)生:結(jié)節(jié)長出后,不管是吃藥還是調(diào)整心態(tài),它不可能下去

河南男子查出甲狀腺癌后拒絕手術(shù):醫(yī)生,我能不能通過意念殺死癌細(xì)胞?醫(yī)生:結(jié)節(jié)長出后,不管是吃藥還是調(diào)整心態(tài),它不可能下去

洪觀新聞
2026-05-26 10:23:08
全網(wǎng)炸鍋!稻城亞丁宰客亂象曝光,天價物價太離譜,游客硬核硬剛

全網(wǎng)炸鍋!稻城亞丁宰客亂象曝光,天價物價太離譜,游客硬核硬剛

千言娛樂記
2026-05-26 15:40:34
福建海警組織艦艇編隊(duì)位金門附近海域開展執(zhí)法巡查

福建海警組織艦艇編隊(duì)位金門附近海域開展執(zhí)法巡查

界面新聞
2026-05-26 17:13:58
50年代,吳化文和家人的合影,倒戈了一輩子,看看晚年生活怎樣?

50年代,吳化文和家人的合影,倒戈了一輩子,看看晚年生活怎樣?

興趣知識
2026-05-24 17:00:42
房齡超過30年的老房子注意了!新規(guī)已確定:“收3不收1”,早準(zhǔn)備

房齡超過30年的老房子注意了!新規(guī)已確定:“收3不收1”,早準(zhǔn)備

專業(yè)聊房君
2026-05-26 10:22:42
雷霆密謀向上交易搶布澤爾?NBA高管們已經(jīng)嚇出冷汗

雷霆密謀向上交易搶布澤爾?NBA高管們已經(jīng)嚇出冷汗

仰臥撐FTUer
2026-05-26 09:25:06
伊朗總統(tǒng)下令恢復(fù)國際互聯(lián)網(wǎng)接入

伊朗總統(tǒng)下令恢復(fù)國際互聯(lián)網(wǎng)接入

澎湃新聞
2026-05-26 03:34:09
尷尬了!女選手泳裝移位露胸照片被直播推送,10000人圍觀超1小時

尷尬了!女選手泳裝移位露胸照片被直播推送,10000人圍觀超1小時

火山詩話
2026-05-26 08:13:11
2026-05-26 17:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13084文章數(shù) 142653關(guān)注度
往期回顧 全部

科技要聞

中國AI要向外卷,而不只是做第二個OpenAI

頭條要聞

25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

頭條要聞

25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

體育要聞

上賽季差點(diǎn)降入英甲,下賽季要踢英超了

娛樂要聞

臺媒貼臉!S媽被問大S嗑藥當(dāng)場沉默

財(cái)經(jīng)要聞

中國鋁行業(yè)爆單 下一個“煤炭”大周期?

汽車要聞

涉水加強(qiáng) 福特烈馬亞馬遜限量版上市 售價39.98萬

態(tài)度原創(chuàng)

本地
健康
家居
游戲
公開課

本地新聞

用云錦的方式,打開江蘇南京

外泌體抗衰,什么時候能用上?

家居要聞

生與命相依 舊公寓改造

《女神異聞錄4重制版》評級過審!定檔已迫在眉睫

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版