无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Claude不到4%，全軍覆沒！一場大考撕碎Agent「全自動辦公」幻想

2026-05-25 11:34:31　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】許多實習生能輕松完成的任務，有時對于AI來說卻是一場嚴酷大考。人類距離真正可用的Agent，還有多遠？一份全新SaaS-Bench實戰考卷，已經給出了答案。

Computer-Use Agent的「奇點」沒有來，現實的冷水先潑下來了。

過去一年，各家GUI Agent爭先恐后地宣稱能替人類干活。Benchmark成績一路飆升，投資人興奮，媒體狂歡，「全自動辦公」似乎就在眼前。

但UniPatAI剛剛用一組數據證明：這一切，都建立在沙子上！

Leaderboard

23個真系統，106個任務

一場殘酷的實戰考試

現有的Agent評測，說白了就是：仿真環境、簡單任務、最多幾十步搞定。

跟真實工作完全是兩回事。

真實辦公長什么樣？一個醫療管理員寫完SOAP病歷→填病例上報→生成正式文檔。一個財務收到報銷申請→審批→打款→記賬。

跨好幾個系統，步驟動輒幾百步。

SaaS-Bench的思路很暴力：直接把真系統搬進Docker，讓Agent在真實的前后端邏輯、數據庫狀態和業務約束中干活。

SaaS-Bench任務——真實工作場景任務

SaaS-Bench精心挑選了23個開源SaaS（Software-as-a-Service）系統，全部通過Docker本地部署，保留了完整的前后端邏輯、數據庫狀態和業務約束。覆蓋六個專業領域：

軟件研發：OpenProject、Baserow、Code-Server、Metabase
業務財務：Twenty CRM、BigCapital、HRMS、Pretix
醫療管理：OpenEMR、OpnForm、OnlyOffice
團隊協作：SiYuan、Roundcube、Mattermost、ownCloud
農業供應鏈：FarmOS、Grocy、Recipya、E-Label
獨立媒體：PhotoPrism、MediaCMS、BookLore、Watcharr

更重要的是，這些系統不是「空殼網頁」：每個軟件里都填充了真實業務的數據，包括用戶、項目、訂單、文件等實體記錄。

Agent進入的不是一個空白的測試頁面，而是一個有歷史數據、有干擾項、有跨系統關聯的真實工作環境。

任務模態、領域、app三層分布

106個任務中，93.4%跨越至少兩個應用，三應用任務占了一半（53個）。

純文本任務74個，涉及多模態理解的32個。以Claude Opus 4.6的執行軌跡估算，97.3%的文本任務操作步數超過100步，最長軌跡達300+步。

任務難度分析 ——大多數任務是 Cross-App + Long-Horizon 的

這些任務是怎么來的？

如何評估Agent的操作能力？

SaaS-Bench 采用「LLM生成 + 專家把關」的方式完成任務構建：

先由LLM圍繞六大專業領域和具體職業角色生成任務，明確任務目標、跨應用依賴和驗證要求，并通過多輪修改減少歧義和漏洞。
隨后，專家會對任務進行人工篩選和真實執行檢查，重點判斷任務是否專業、自然、可完成、可驗證。對于堆砌步驟、邏輯混亂或驗證不準的任務，會被修改或剔除，最終確保每個任務都能真實運行，并能被驗證器準確評估。

任務構建流程圖——四個階段保證任務質量

SaaS-Bench允許Agent使用Browser-Use在SaaS環境中操作計算機，并給出了兩個指標：

Resolved Score（完全通過分數，嚴苛）：全部檢查點通過才算1，否則為0
Checkpoint Score（檢查點分數，寬松）：按權重計算部分檢查點完成比例

Agent → Browser-Use → 執行 → 驗證 → 打分總覽圖

后面的結果會表明——這兩個數字之間的巨大落差，恰好暴露了Agent最核心的問題。

榜單出爐：全軍覆沒

來看這組數字 ——

主要結果（DeepSeek V4 、M2.7和GLM5.1為單模態模型，僅測評Text-OnlyDomain）

最強的Claude Opus 4.7，檢查點分數43.9%，端到端完全通過分數只有3.8%——106個任務，只完整通過了4個。Kimi K2.5和Gemini 3.1 Pro？完全通過分數為零。一個任務都沒走完。

這組數字的含義極其殘酷：Agent可以推進工作的部分中間環節，但幾乎沒有能力將一個完整的長程工作流走完。

多跑幾次能救嗎？

四個模型的Pass@k結果

把每個模型在同一任務上獨立跑3次，對一次就算通過。pass@3相比pass@1整體提升約8個百分點。

Sonnet 4.6在多模態任務上從33.9%跳到52.1%（+18.2pp）——它并非完全不行，而是執行極不穩定。

這不是環境隨機性。每次運行的初始狀態完全相同。這是路徑依賴——模型在某個決策點的微小差異，導致后續軌跡完全分叉。

多跑幾次有幫助，但遠不是解決方案。

越復雜，分越低

三個結構維度全部單調遞減：

分數 vs 應用數 / 分數 vs 步長 / 分數 vs 檢查點個數

跨應用數1→4：平均分從53%降至20%
操作步長增加：任務軌跡越長，得分顯著越低
檢查點個數≤6 vs ≥18：平均分從65%降至27%

「跨應用+軌跡長+細粒度驗證」的任務得分最低——這恰恰是真實工作流最常見的形態。

四種結構性失敗：Agent到底在哪翻車

SaaS-Bench真正的價值不在于分數本身，而在于暴露了Agent在真實環境中的四種致命缺陷。

失敗1：任務越長，越做不對

即使每個檢查點通過率高達95%，12個檢查點的全部通過概率也只有54%。而SaaS-Bench的平均檢查點數遠超12。

所有模型都呈現同一個模式：通過率隨任務推進呈下降趨勢，沒有一個模型能在后半段維持住前期表現。

模型隨著任務執行，做對的越來越少

這是一條不可逆的下降曲線。越往后走，越不可能走完。

失敗2：一步錯，步步錯

一個典型案例：任務要求創建一個公司客戶「Arcturus Digital」。Agent同時填了聯系人姓名和公司名，觸發了個人客戶邏輯，實際創建的是個人客戶Elena Vasquez。

此后的10張發票、付款記錄、賬戶對賬，全部掛在錯誤實體下。核心檢查點權重僅3%，但導致了下游30%的權重損失。

上游任務導致下游失敗鏈示意圖

一個3%的錯誤節點，造成30%的分數損失。

失敗3：做完不檢查，自以為對了

Claude Opus 4.6在Step 124識別出日期錯誤（2026-03-19 vs. 2026-03-20），執行了修改，但沒有回到頁面復查，直接推進后續子任務。

Step 210提交時，匯報寫的是「賬單日期2026-03-20，已修復」——頁面上實際日期仍是03-19。

Agent 在意圖層面認為成功，Verifier 在狀態層面發現失敗

Agent在意圖層面認為成功，驗證器在狀態層面發現失敗。兩者之間的斷層是系統性的。

當前CUA框架缺少「嚴謹的反思閉環」 —— Agent是個不會檢查自己作業的學生。

失敗4：同一張考卷，成績忽高忽低

Claude Sonnet 4.6在同一任務的三次獨立運行中，分數范圍從 0.00 到 0.68。

這不是環境隨機性造成的 —— 每次運行的初始狀態完全相同 —— 而是路徑依賴：模型在某個決策點的微小差異，會導致后續執行軌跡完全分叉，這讓Agent在長程任務中的執行變成了賭博。

Claude Sonnet 4.6在同一任務的三次運行

這意味著什么

SaaS-Bench撕碎了一個幻覺：Agent的Benchmark成績和真實工作能力之間，存在巨大的鴻溝。

四種結構性失敗模式——越往后越做不對、一步錯步步錯、做完不檢查、次次分數不一樣——指向同一個底層事實：當前Agent缺少對持久狀態的有效推理能力，缺少操作后的閉環驗證機制，缺少從錯誤中恢復的能力。

這些不是靠模型變大、或者加幾個工程模塊就能解決的問題。它們指向的是當前Agent范式更深層的局限：在長程任務中，模型缺少對全局狀態的持續感知，無法像人一樣「心里有數」。這不只是技術債，而是當前范式的天花板。

Computer-Use Agent想要真正替人干活？路還很遠。SaaS-Bench把地圖攤開了——接下來就看各家怎么走了。

但這也引向了一個正在逐漸形成的共識：今天的SaaS是給人設計的——菜單、按鈕、表單，都在服務人類的眼睛和手指。但當Agent成為主要用戶，這些界面就變成了累贅。

未來不是讓Agent學會操作人類的軟件，而是軟件本身要為Agent重新設計。

SaaS-Bench揭示的不只是Agent的短板，也是當前軟件形態的保質期——面向人類的SaaS，可能都要為Agent重做一遍。

·Blog：https://unipat.ai/blog/SaaS-Bench

·GitHub：https://github.com/UniPat-AI/SaaS-Bench

·論文：https://arxiv.org/abs/2605.15777

UniPat AI

UniPat AI致力于構建面向真實場景的AI訓練、評測與應用新范式，推動Agent能力在千行百業中規模化落地，創造切實的經濟與社會價值。

官網鏈接：https://unipat.ai

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
520 跟貼 520
中方代表香會講話當場向日方提出兩個問題

環球網資訊 2026-05-30 19:36:11
6001 跟貼 6001

房主將自家住宅變“網約房” 鄰居有權說“不”嗎？

北青網-北京青年報 2026-05-30 21:06:09
6175 跟貼 6175

熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯歐冠冠軍

齊魯壹點 2026-05-31 06:48:50
225 跟貼 225
人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
1009 跟貼 1009

鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1866 跟貼 1866

今晚，上海男籃迎來最嚴峻考驗！

新民晚報 2026-05-31 11:02:21
75 跟貼 75
陜西西咸新區執法車淪為“堵門工具”，紀工委書記反問“咋不合適”意味著什么

大象新聞 2026-05-30 18:47:05
126 跟貼 126

中超上半程收官戰，泰山隊輸得不難看

齊魯壹點 2026-05-30 23:33:13
152 跟貼 152
國泰航班降落滑行時有幼童哭鬧，男乘客高聲怒斥！航司回應

南方都市報 2026-05-30 20:52:09
661 跟貼 661
NBA｜西部決賽搶七大戰，馬刺擊敗雷霆奪得總決賽門票

澎湃新聞 2026-05-31 10:50:28
244 跟貼 244
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
253 跟貼 253
重慶一兇宅以39萬余元起價被法拍，拍賣公司：屋內曾發生非正常死亡事件

極目新聞 2026-05-31 12:12:29
79 跟貼 79
海南一醫院被指將空調外機裝在室內，散熱影響患者就醫體驗，院方：系老舊建筑空間受限的無奈選擇，該區域屬后勤專用，日常基本無患者通行

瀟湘晨報 2026-05-31 11:30:13
1 跟貼 1
胖東來調整營業時間

界面新聞 2026-05-31 10:21:42
24 跟貼 24
總臺報道有反饋丨內蒙古呼和浩特一藥店高價銷售集采藥當地約談主要負責人

央視新聞客戶端 2026-05-30 15:45:02
166 跟貼 166
法網2026第八比賽日單打賽程出爐：王曦雨沖擊大滿貫八強；張帥組合晉級法網女雙16強

魯中晨報 2026-05-31 15:39:04
7 跟貼 7
國家醫保局發布2026年國家醫保目錄調整工作方案

央視新聞客戶端 2026-05-31 09:28:55
913 跟貼 913
美防長“香會”溫和表態引關注專家解讀

環球時報 2026-05-31 07:34:49
32 跟貼 32
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1480 跟貼 1480
（尋味中華丨藝林）長海號子唱響千年漁歌

環球網資訊 2026-05-31 16:06:17
2 跟貼 2
以軍：已奪取黎南部重要戰略地點

界面新聞 2026-05-31 14:11:04
17 跟貼 17
男子得知母親離世心急駕車返鄉時撞樹，交警：司機都不知道怎么撞的

環球網資訊 2026-05-31 16:38:10
0 跟貼 0
遠安縣“治理物業服務突出問題“民生實事反面典型案例（第三期）這3家物業被曝光

赤腳論壇 2026-05-31 16:37:15
0 跟貼 0

人口大遷徙已是定局？明后年，越來越多人會流入這4座城市？

人口大遷徙已是定局？明后年，越來越多人會流入這4座城市？

小蜜情感說

2026-05-31 12:36:38

年初打好基礎，年底喜獲豐收！2026全年賺得最穩的3個生肖

年初打好基礎，年底喜獲豐收！2026全年賺得最穩的3個生肖

毅談生肖

2026-05-31 14:23:12

AI軍備競賽下一個爆發點！高盛：電容就是“新內存”

AI軍備競賽下一個爆發點！高盛：電容就是“新內存”

華爾街見聞官方

2026-05-30 20:00:35

男子把軟臥讓給一老人，過道坐一晚，誰料，第二天發現口袋多了180塊和一張紙條：有需要，找我兒子

男子把軟臥讓給一老人，過道坐一晚，誰料，第二天發現口袋多了180塊和一張紙條：有需要，找我兒子

背包旅行

2026-05-31 15:26:58

菲防長“裝可憐”：中美會相互尊重，但我們太弱…

菲防長“裝可憐”：中美會相互尊重，但我們太弱…

觀察者網

2026-05-31 11:56:13

都怪塔子哥？女星承諾巴黎門將每撲救1次獎勵1夜陪伴后者今夜0撲

都怪塔子哥？女星承諾巴黎門將每撲救1次獎勵1夜陪伴后者今夜0撲

風過鄉

2026-05-31 11:29:28

女教師“辭職信”火了，一句面子話都沒寫，校長看后沉默不語！

女教師“辭職信”火了，一句面子話都沒寫，校長看后沉默不語！

深度報

2026-05-30 00:29:10

“窮人得了公主病！”大學女生吐槽洗衣機收費貴，反手被網友噴！

“窮人得了公主病！”大學女生吐槽洗衣機收費貴，反手被網友噴！

林林先生

2026-05-29 07:40:06

大定破2萬！余承東：全新M9是地球上最強SUV，沒有之一！網友：廣告法能不能管管他

大定破2萬！余承東：全新M9是地球上最強SUV，沒有之一！網友：廣告法能不能管管他

大白聊IT

2026-05-28 21:21:39

血壓飆升！26歲女兒畢業兩年在家躺平，反懟母親“誰叫你生我”

血壓飆升！26歲女兒畢業兩年在家躺平，反懟母親“誰叫你生我”

火山詩話

2026-05-31 15:08:02

日本防相沒料到，和美防長說完悄悄話，美就在香會喊話"尊重中國"

日本防相沒料到，和美防長說完悄悄話，美就在香會喊話"尊重中國"

夢史

2026-05-31 16:33:15

電訊報：阿森納只想著避免輸球，并沒有真正去追逐勝利

電訊報：阿森納只想著避免輸球，并沒有真正去追逐勝利

懂球帝

2026-05-31 16:21:07

美國對烏克蘭態度突變積極

名人茍或

2026-05-31 16:10:27

全體致敬！37歲竇驍高調官宣喜訊，“豪門贅婿”身份徹底成過去式

全體致敬！37歲竇驍高調官宣喜訊，“豪門贅婿”身份徹底成過去式

生性灑脫

2026-05-30 20:21:18

老太擺攤賣菜被罰2萬，她交完錢就走.次日辦公室接到300個電話

老太擺攤賣菜被罰2萬，她交完錢就走.次日辦公室接到300個電話

曉悅流年

2026-05-27 14:44:40

以軍稱已奪取黎南部重要戰略標點博福爾城堡

以軍稱已奪取黎南部重要戰略標點博福爾城堡

界面新聞

2026-05-31 14:11:04

中印邊境這次真要破冰了？印度前高官突然改口：中國不是威脅

中印邊境這次真要破冰了？印度前高官突然改口：中國不是威脅

荷蘭豆愛健康

2026-05-31 12:07:26

歐冠決賽落幕！誕生5個贏家及3個輸家，巴黎、登貝萊、姆巴佩在列

歐冠決賽落幕！誕生5個贏家及3個輸家，巴黎、登貝萊、姆巴佩在列

球場沒跑道

2026-05-31 03:30:35

福克斯：我的隊友都是斗士，今晚是我們通往最終目標的墊腳石

福克斯：我的隊友都是斗士，今晚是我們通往最終目標的墊腳石

懂球帝

2026-05-31 14:13:35

馬刺擊敗雷霆，3人發揮滿分，有2人需要認真去反思

馬刺擊敗雷霆，3人發揮滿分，有2人需要認真去反思

阿信點評

2026-05-31 14:26:15

AI產業主平臺領航智能+時代

15349文章數 66894關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

50歲女子在美容店打除皺針半月后死亡老板：加量打的

頭條要聞

50歲女子在美容店打除皺針半月后死亡老板：加量打的

體育要聞

阿森納用最悲壯的方式，成就了巴黎王朝

娛樂要聞

賈玲最新動作！侯明昊給虞書欣抬轎！

財經要聞

醫學首席轉崗搞科技，A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

房產

藝術

旅游

公開課

數碼要聞

微星發布搭載英特爾Arc G3的掌機Claw 8 EX AI+ 6月開售

房產要聞

紅動五月！全國搶入核心資產，廣州盯緊凱旋新世界！

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

旅游要聞

魅力山鄉｜昭蘇，一個萬馬奔騰的地方

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<p id="rry8o"></p>

^{<noscript id="rry8o"></noscript>}