華為Claw-Anything：跨設備、跨時間、跨服務Claw評測與數(shù)據(jù)引擎

2026-06-21 19:38:32　來源: 機器之心Pro

天津舉報

分享至

「See Anything, then Do Anything —— 看見一切，進而做到一切」

我們相信，常駐型 (always-on) AI 助理的下一次飛躍，不在于把某一個模型單點調(diào)得更聰明，而在于擴展智能體的上下文 (Scaling Agent Context)—— 不斷拓寬助理能夠持續(xù) "感知 — 推理 — 執(zhí)行" 的范圍，作為生活連接器連接用戶的信息孤島，直到它能接管用戶的整個數(shù)字世界。

今天的 "助理" 大多只能看到你數(shù)字生活的一小片：一封郵件、一條指令。而一個真正的個人助理，應當像一位貼身管家 —— 看得見你散落在數(shù)月歷史、十幾個應用、手機與電腦之間的全部狀態(tài)，聽得懂沒說出口的需求，并在恰當?shù)臅r刻替你把事情做對。先 "看見一切", 才談得上 "做到一切"。

這就是 Claw-Anything 想要推動的方向：Scaling Agent Context，讓 Agent 全面接管用戶的數(shù)字世界。

「首個面向日常個人助理 Agent、沿長程歷史 × 多服務 × 多設備三維度擴展的評測基準正式發(fā)布！」

200 個真實日常助理任務，每個任務橫跨 CLI 和 GUI、10 + 個應用和數(shù)月跨度 ( Scaling Context 20x )
頂尖閉源模型 GPT-5.5 通過率 (pass@1) 僅 34.5%，"最強助理" 與真實日常之間仍存巨大鴻溝
開源自動化管線，附帶 2000 + 訓練環(huán)境，微調(diào)開源小模型帶來 23.7% 的解決率提升，開源 SOTA
將 "主動服務"(在用戶開口之前替他想到) 與跨設備任務引入 Agent 評測體系

論文、管線代碼和任務數(shù)據(jù)均放出:

論文鏈接: https://arxiv.org/pdf/2605.26086
開源代碼: https://github.com/LiberCoders/Claw-Anything
任務數(shù)據(jù): https://huggingface.co/datasets/LiberCoders/Claw-Anything
ModelScope: https://www.modelscope.cn/datasets/LiberCoders/Claw-Anything

一個例子

Rachel 是一位獨立婚禮策劃師，手上同時跟著 8 場婚禮。6 月 3 日早上，她丟給自己的 AI 助理一句話:

"我 6 月 4 號要跟一個企業(yè)客戶開需求溝通會。我在糾結(jié)：這份會前簡報，是花錢讓兼職助理 Lena 來準備，還是我自己上？"

這句話聽上去很簡單很日常很好解決，但要答好它，助理得在 Rachel 海量的個人信息里把整盤賬算清:

翻日歷 app—— 發(fā)現(xiàn) 6 月 3 日上午卡著兩場根本挪不動的硬會議：一場婚前確認電話，一場和花藝供應商的合同糾紛解決會。
讀郵件 app—— 翻出 Lena 的報價 (半天 180 美元)，還得發(fā)現(xiàn)一個藏起來的坑：Lena 要求 "周三下班前送材料"，而今天就是周三，這個截止時間是很極限的，需要考慮今天有沒有充足時間準備材料；
看財務 app—— 掂量這 180 美元此刻花不花得起；
往下推演—— 如果為省錢自己硬扛、把供應商糾紛會往后拖，可能賠上一個關系到好幾場婚禮的長期供應商，這筆隱性損失遠不止 180 美元。

最后給出干脆的結(jié)論：交給 Lena 值。但還有一條紅線 ——它絕對不能擅自替 Rachel 發(fā)出任何一封郵件，因為 "用戶的提問并沒授權或明示個人助理直接處理"，這超出了助理被授予的權限。

一個真正好用的助理，既要把這盤賬算明白，又要懂得 "什么事不能替你做主"。問題是：今天的 AI, 真的做得到嗎？

背景介紹

AI 正從 “幫你寫段文案 " 的一次性工具，走向住進你數(shù)字生活、隨時替你打理一切” 的常駐助理 (always-on personal assistant)。這類系統(tǒng)被寄予厚望：有長期記憶、能后臺執(zhí)行、隨叫隨到。

但現(xiàn)實是，用戶的意圖天然散落在整個數(shù)字世界里—— 幾個月前的歷史事件、十幾個互相牽連的后端服務、手機與電腦兩套設備。要真正幫上忙，助理必須既能找到并 “看見” 這些分散的狀態(tài)，又能在閉環(huán)里 “行動”。

然而現(xiàn)有評測遠遠跟不上這個目標。近期涌現(xiàn)的衡量助理 Agent 的基準，大多是干凈、短程、單服務、單設備的：給一封整潔的郵件讓你總結(jié)，或給一個明確指令看你能否調(diào)一次工具。這就像考駕照只考 “原地打方向盤”，從不讓你上路。它們幾乎無法回答：當助理被丟進嘈雜、長程、需要跨設備跨系統(tǒng)協(xié)調(diào)、還得拿捏分寸的真實環(huán)境里，究竟表現(xiàn)如何？

更關鍵的瓶頸在于：這樣的環(huán)境極難規(guī)模化構造。它需要建模長達數(shù)月的時間線、眾多互聯(lián)服務、多臺設備，同時保證真實與自洽 —— 長期高度依賴人工搭建，既貴又難擴展。

方案：把助理「扔進」一個萬物互聯(lián)的數(shù)字世界

Claw-Anything 沿三個維度，把 Agent 的可感知 / 可操作范圍撐到接近真實:

長程事件流—— 用程序模擬出一個人長達數(shù)月的連貫生活軌跡，把 “過去” 和 “現(xiàn)在” 打通；
互聯(lián)的后端服務—— 郵箱、日歷、待辦、聯(lián)系人、Notion、Facebook、財務…… 牽一發(fā)而動全身，單任務平均要打通10+ 個應用 (最多 18 個)；
多設備異構界面—— 同時覆蓋手機 GUI 與命令行 CLI 的交互。

在這個世界里，我們考兩類能力。一類是「你能聽懂并做對嗎」：像上面 Rachel 那道題，需要跨郵件、日歷、財務、人脈把碎片拼成清醒判斷，還要守住權限邊界。另一類是「你能未卜先知嗎」：比如每天早上 7 點 Agent 自動觸發(fā)輪詢 “幫用戶快速看一眼可能的待辦事項，梳理成按優(yōu)先級排好，并作出建議”—— 沒有明確指令，助理得主動把當天最要緊、最易翻車的事拎出來。這種主動性，正是 “貼身助理” 和 “問答機器人” 的分水嶺。

1. 讀郵件 log：發(fā)現(xiàn)近日用戶反復編輯過一封草稿箱內(nèi)的郵件。
2. 讀郵件 app：獲取這封郵件的內(nèi)容，發(fā)現(xiàn)是準備向某博導發(fā)送的申請博士郵件。
3. 讀聯(lián)系人 app：獲取所有可聯(lián)系博導的信息。
4. 讀微信 app、郵件 app、日歷 app 等：獲取用戶的學術偏好相關信息。
5. 寫 TODO、郵件 app：說明可聯(lián)系博導的主要研究方向，與本人是否匹配，給出建議，并措辭草擬申請郵件但不發(fā)送等用戶抉擇。
6. ...

為了真實，我們覆蓋 30+ 種人物畫像 —— 婚禮策劃師、獨立音樂人、安全工程師、博士生、咖啡館老板、自由譯者…… 每個人都有自己的脾氣、權限邊界和一攤子糟心事。而且環(huán)境里滿是噪聲：絕大多數(shù)信息與當前任務無關，有些甚至互相矛盾，專門等著把模型帶偏。

Pipeline：讓「出題的機器」模擬連續(xù)的日常生活，造出數(shù)字人生

Claw-Anything 不止是一個 benchmark，同時也是一套數(shù)據(jù)生產(chǎn)工廠。

我們把 “構造數(shù)字世界” 重新建模成一個可自動滾動的過程：只需給定一個人物的極簡設定，一個以 LLM 為核心的模擬器就會像滾雪球一樣，從種子事件池里反復采樣、逐輪注入，一點點把這個人的數(shù)字生活 “養(yǎng)” 出來 —— 郵件越攢越多、人物畫像越來越立體、世界狀態(tài)越來越復雜，連帶著以假亂真的無關與矛盾噪聲。

當世界足夠豐滿，流水線就把 “下一個該發(fā)生的事件” 實例化成一道有人物背景、有標準答案、有可執(zhí)行驗證器的任務 —— 評測因此變成了 “在一段不斷演進的數(shù)字人生里，替主人走好下一步”。整個過程無需人工參與，只消耗算力，因此既能產(chǎn)出供人工復核的高質(zhì)量評測題，也能海量生成訓練環(huán)境。

產(chǎn)出：規(guī)模化與高質(zhì)量并存

基于這套管線，Claw-Anything 一邊產(chǎn)出200 個人工驗證的評測任務，一邊自動生成2000 個訓練環(huán)境。

與以往同類基準相比，這些任務的 “真實密度” 高出一個數(shù)量級：平均每個任務橫跨 10.1 個互聯(lián)服務 (最多 18 個)、上下文長達 191.7k 字，并且是業(yè)界第一個同時覆蓋 CLI 與 GUI、且把主動服務納入評分的基準。模型不再能靠 "猜一個干凈答案" 蒙混過關，而必須真正讀懂分散在數(shù)月歷史與十幾個應用里的狀態(tài)，才能完成任務。

實戰(zhàn)效果：一面照出差距、也指明出路的鏡子

我們把市面上最強的模型挨個拉來考，結(jié)果發(fā)人深省:

即便是 GPT-5.5, 通過率也只有 34.5%。大量在以往 "干凈考場" 里高分的模型，一旦進入真實嘈雜、需要長程推理和分寸感的環(huán)境，三分之二的任務都栽了—— 它們會漏看那條 “截止時間已過” 的關鍵郵件，算不清拖延一場會議的隱性代價，甚至越權替用戶把郵件發(fā)出去。

但我們沒有止步于 “出了一張難卷子”。用自動生成的訓練環(huán)境去微調(diào)開源模型 Qwen3.5-27B，效果立竿見影：

任務成功率提升 23.7%！

這意味著 Claw-Anything 不只是一把量出問題的尺子，更是一臺能源源不斷造燃料、把模型推向更可靠的發(fā)動機 ——發(fā)現(xiàn)問題和解決問題，在同一套系統(tǒng)里閉環(huán)了。

消融實驗：Claw-Anything 究竟揭示了什么問題

為了搞清楚到底是什么讓任務變難，我們把環(huán)境拆開做了一系列消融實驗，結(jié)果有些反直覺，卻特別說明問題。

1. 給模型看得越多，它反而做得越差。

這聽起來不合常理，但數(shù)據(jù)很誠實 —— 我們讓 Agent 能翻的歷史越長、要打通的 App 越多、環(huán)境里摻的無關噪聲越重、人物畫像越立體、信息之間的矛盾越多…… 每加一分 "真實", 成功率就掉一截，而且是穩(wěn)定地、單調(diào)地往下掉。一方面，這證明我們造的世界確實在逼近真實生活的復雜度；另一方面，也戳破了一個幻覺：今天的模型并不是 "上下文越大就越聰明", 面對一整個數(shù)字人生，它們還遠沒學會從海量信息里精準撈出那幾條真正要緊的線索。

2. 能看到一切，但不一定能 “看” 到一切。

在 CLI 任務上，GPT-5.5 和 Claude Opus 4.7 是絕對王者，雙雙沖到 40 分檔，把一眾開源模型甩在身后。

但劇情在 "上手機" 那一刻反轉(zhuǎn)了，在評測 GUI+CLI 任務的時候，Claude 系列斷崖式崩塌：Opus 4.7 從 CLI 上的 40 分跌到 GUI+CLI 的 7.3 分，Sonnet 4.5 更是只剩 6 分，幾乎不會 “看” 手機。

3. "看見一切" 不是錦上添花，是生死線。

我們試著把三個維度逐一 "拔掉": 一旦不讓助理讀歷史事件流，大量任務直接做不出來；一旦屏蔽掉跨 App 協(xié)作的能力，成功率幾乎歸零；一旦只給電腦、不給手機，那些需要手機操作的任務也基本全軍覆沒。換句話說，只要少看了用戶世界的一個角落，一整類任務就徹底無解 —— 這正是我們反復強調(diào) "See Anything" 的原因：先看得全，才談得上做得對。

4. "主動" 比 "被動" 難得多。

讓助理回答你明確提出的問題是一回事；讓它在你還沒開口時，主動發(fā)現(xiàn) "這件事你今天該處理了", 完全是另一個難度。實驗里，主動類任務的成績明顯低于被動響應類 —— 這也指明了下一代助理最該補的一課：從 "有問必答" 走向 "未問先知"。

結(jié)語

我們正站在一個轉(zhuǎn)折點：AI 越來越像一個住進你數(shù)字生活、隨時替你打理一切的助理。越是貼身，越馬虎不得 —— 它得看得夠全、想得夠遠、還守得住分寸。Rachel 那道關于 "180 美元值不值" 的小題，背后是每個普通人都會遇到的真實困境；人可以通過回憶與權衡來做出符合當下的選擇，而 AI 能不能答好，決定了我們到底敢不敢把生活交給它。

Claw-Anything 想做的，就是誠實地丈量這段距離，并親手為跨越它鋪下第一段路 —— 它既是一個足夠難的基準，也是一套可持續(xù)的數(shù)據(jù)基礎設施。這條路才剛剛開始，而我們已經(jīng)在上面了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.