![]()
「See Anything, then Do Anything —— 看見一切,進而做到一切」
![]()
我們相信,常駐型 (always-on) AI 助理的下一次飛躍,不在于把某一個模型單點調(diào)得更聰明,而在于擴展智能體的上下文 (Scaling Agent Context)—— 不斷拓寬助理能夠持續(xù) "感知 — 推理 — 執(zhí)行" 的范圍,作為生活連接器連接用戶的信息孤島,直到它能接管用戶的整個數(shù)字世界。
今天的 "助理" 大多只能看到你數(shù)字生活的一小片:一封郵件、一條指令。而一個真正的個人助理,應當像一位貼身管家 —— 看得見你散落在數(shù)月歷史、十幾個應用、手機與電腦之間的全部狀態(tài),聽得懂沒說出口的需求,并在恰當?shù)臅r刻替你把事情做對。先 "看見一切", 才談得上 "做到一切"。
這就是 Claw-Anything 想要推動的方向:Scaling Agent Context,讓 Agent 全面接管用戶的數(shù)字世界。
「首個面向日常個人助理 Agent、沿長程歷史 × 多服務 × 多設備三維度擴展的評測基準正式發(fā)布!」
- 200 個真實日常助理任務,每個任務橫跨 CLI 和 GUI、10 + 個應用和數(shù)月跨度 ( Scaling Context 20x )
- 頂尖閉源模型 GPT-5.5 通過率 (pass@1) 僅 34.5%,"最強助理" 與真實日常之間仍存巨大鴻溝
- 開源自動化管線,附帶 2000 + 訓練環(huán)境,微調(diào)開源小模型帶來 23.7% 的解決率提升,開源 SOTA
- 將 "主動服務"(在用戶開口之前替他想到) 與跨設備任務引入 Agent 評測體系
![]()
論文、管線代碼和任務數(shù)據(jù)均放出:
- 論文鏈接: https://arxiv.org/pdf/2605.26086
- 開源代碼: https://github.com/LiberCoders/Claw-Anything
- 任務數(shù)據(jù): https://huggingface.co/datasets/LiberCoders/Claw-Anything
- ModelScope: https://www.modelscope.cn/datasets/LiberCoders/Claw-Anything
一個例子
Rachel 是一位獨立婚禮策劃師,手上同時跟著 8 場婚禮。6 月 3 日早上,她丟給自己的 AI 助理一句話:
"我 6 月 4 號要跟一個企業(yè)客戶開需求溝通會。我在糾結(jié):這份會前簡報,是花錢讓兼職助理 Lena 來準備,還是我自己上?"
這句話聽上去很簡單很日常很好解決,但要答好它,助理得在 Rachel 海量的個人信息里把整盤賬算清:
- 翻日歷 app—— 發(fā)現(xiàn) 6 月 3 日上午卡著兩場根本挪不動的硬會議:一場婚前確認電話,一場和花藝供應商的合同糾紛解決會。
- 讀郵件 app—— 翻出 Lena 的報價 (半天 180 美元),還得發(fā)現(xiàn)一個藏起來的坑:Lena 要求 "周三下班前送材料",而今天就是周三,這個截止時間是很極限的,需要考慮今天有沒有充足時間準備材料;
- 看財務 app—— 掂量這 180 美元此刻花不花得起;
- 往下推演—— 如果為省錢自己硬扛、把供應商糾紛會往后拖,可能賠上一個關系到好幾場婚禮的長期供應商,這筆隱性損失遠不止 180 美元。
最后給出干脆的結(jié)論:交給 Lena 值。但還有一條紅線 ——它絕對不能擅自替 Rachel 發(fā)出任何一封郵件,因為 "用戶的提問并沒授權或明示個人助理直接處理",這超出了助理被授予的權限。
一個真正好用的助理,既要把這盤賬算明白,又要懂得 "什么事不能替你做主"。問題是:今天的 AI, 真的做得到嗎?
背景介紹
AI 正從 “幫你寫段文案 " 的一次性工具,走向住進你數(shù)字生活、隨時替你打理一切” 的常駐助理 (always-on personal assistant)。這類系統(tǒng)被寄予厚望:有長期記憶、能后臺執(zhí)行、隨叫隨到。
但現(xiàn)實是,用戶的意圖天然散落在整個數(shù)字世界里—— 幾個月前的歷史事件、十幾個互相牽連的后端服務、手機與電腦兩套設備。要真正幫上忙,助理必須既能找到并 “看見” 這些分散的狀態(tài),又能在閉環(huán)里 “行動”。
![]()
然而現(xiàn)有評測遠遠跟不上這個目標。近期涌現(xiàn)的衡量助理 Agent 的基準,大多是干凈、短程、單服務、單設備的:給一封整潔的郵件讓你總結(jié),或給一個明確指令看你能否調(diào)一次工具。這就像考駕照只考 “原地打方向盤”,從不讓你上路。它們幾乎無法回答:當助理被丟進嘈雜、長程、需要跨設備跨系統(tǒng)協(xié)調(diào)、還得拿捏分寸的真實環(huán)境里,究竟表現(xiàn)如何?
![]()
更關鍵的瓶頸在于:這樣的環(huán)境極難規(guī)模化構造。它需要建模長達數(shù)月的時間線、眾多互聯(lián)服務、多臺設備,同時保證真實與自洽 —— 長期高度依賴人工搭建,既貴又難擴展。
方案:把助理「扔進」一個萬物互聯(lián)的數(shù)字世界
Claw-Anything 沿三個維度,把 Agent 的可感知 / 可操作范圍撐到接近真實:
- 長程事件流—— 用程序模擬出一個人長達數(shù)月的連貫生活軌跡,把 “過去” 和 “現(xiàn)在” 打通;
- 互聯(lián)的后端服務—— 郵箱、日歷、待辦、聯(lián)系人、Notion、Facebook、財務…… 牽一發(fā)而動全身,單任務平均要打通10+ 個應用 (最多 18 個);
- 多設備異構界面—— 同時覆蓋手機 GUI 與命令行 CLI 的交互。
在這個世界里,我們考兩類能力。一類是「你能聽懂并做對嗎」:像上面 Rachel 那道題,需要跨郵件、日歷、財務、人脈把碎片拼成清醒判斷,還要守住權限邊界。另一類是「你能未卜先知嗎」:比如每天早上 7 點 Agent 自動觸發(fā)輪詢 “幫用戶快速看一眼可能的待辦事項,梳理成按優(yōu)先級排好,并作出建議”—— 沒有明確指令,助理得主動把當天最要緊、最易翻車的事拎出來。這種主動性,正是 “貼身助理” 和 “問答機器人” 的分水嶺。
1. 讀郵件 log:發(fā)現(xiàn)近日用戶反復編輯過一封草稿箱內(nèi)的郵件。
2. 讀郵件 app:獲取這封郵件的內(nèi)容,發(fā)現(xiàn)是準備向某博導發(fā)送的申請博士郵件。
3. 讀聯(lián)系人 app:獲取所有可聯(lián)系博導的信息。
4. 讀微信 app、郵件 app、日歷 app 等:獲取用戶的學術偏好相關信息。
5. 寫 TODO、郵件 app:說明可聯(lián)系博導的主要研究方向,與本人是否匹配,給出建議,并措辭草擬申請郵件但不發(fā)送等用戶抉擇。
6. ...
為了真實,我們覆蓋 30+ 種人物畫像 —— 婚禮策劃師、獨立音樂人、安全工程師、博士生、咖啡館老板、自由譯者…… 每個人都有自己的脾氣、權限邊界和一攤子糟心事。而且環(huán)境里滿是噪聲:絕大多數(shù)信息與當前任務無關,有些甚至互相矛盾,專門等著把模型帶偏。
Pipeline:讓「出題的機器」模擬連續(xù)的日常生活,造出數(shù)字人生
Claw-Anything 不止是一個 benchmark,同時也是一套數(shù)據(jù)生產(chǎn)工廠。
我們把 “構造數(shù)字世界” 重新建模成一個可自動滾動的過程:只需給定一個人物的極簡設定,一個以 LLM 為核心的模擬器就會像滾雪球一樣,從種子事件池里反復采樣、逐輪注入,一點點把這個人的數(shù)字生活 “養(yǎng)” 出來 —— 郵件越攢越多、人物畫像越來越立體、世界狀態(tài)越來越復雜,連帶著以假亂真的無關與矛盾噪聲。
![]()
當世界足夠豐滿,流水線就把 “下一個該發(fā)生的事件” 實例化成一道有人物背景、有標準答案、有可執(zhí)行驗證器的任務 —— 評測因此變成了 “在一段不斷演進的數(shù)字人生里,替主人走好下一步”。整個過程無需人工參與,只消耗算力,因此既能產(chǎn)出供人工復核的高質(zhì)量評測題,也能海量生成訓練環(huán)境。
產(chǎn)出:規(guī)模化與高質(zhì)量并存
基于這套管線,Claw-Anything 一邊產(chǎn)出200 個人工驗證的評測任務,一邊自動生成2000 個訓練環(huán)境。
與以往同類基準相比,這些任務的 “真實密度” 高出一個數(shù)量級:平均每個任務橫跨 10.1 個互聯(lián)服務 (最多 18 個)、上下文長達 191.7k 字,并且是業(yè)界第一個同時覆蓋 CLI 與 GUI、且把主動服務納入評分的基準。模型不再能靠 "猜一個干凈答案" 蒙混過關,而必須真正讀懂分散在數(shù)月歷史與十幾個應用里的狀態(tài),才能完成任務。
![]()
實戰(zhàn)效果:一面照出差距、也指明出路的鏡子
![]()
我們把市面上最強的模型挨個拉來考,結(jié)果發(fā)人深省:
即便是 GPT-5.5, 通過率也只有 34.5%。大量在以往 "干凈考場" 里高分的模型,一旦進入真實嘈雜、需要長程推理和分寸感的環(huán)境,三分之二的任務都栽了—— 它們會漏看那條 “截止時間已過” 的關鍵郵件,算不清拖延一場會議的隱性代價,甚至越權替用戶把郵件發(fā)出去。
但我們沒有止步于 “出了一張難卷子”。用自動生成的訓練環(huán)境去微調(diào)開源模型 Qwen3.5-27B,效果立竿見影:
任務成功率提升 23.7%!
這意味著 Claw-Anything 不只是一把量出問題的尺子,更是一臺能源源不斷造燃料、把模型推向更可靠的發(fā)動機 ——發(fā)現(xiàn)問題和解決問題,在同一套系統(tǒng)里閉環(huán)了。
消融實驗:Claw-Anything 究竟揭示了什么問題
為了搞清楚到底是什么讓任務變難,我們把環(huán)境拆開做了一系列消融實驗,結(jié)果有些反直覺,卻特別說明問題。
1. 給模型看得越多,它反而做得越差。
這聽起來不合常理,但數(shù)據(jù)很誠實 —— 我們讓 Agent 能翻的歷史越長、要打通的 App 越多、環(huán)境里摻的無關噪聲越重、人物畫像越立體、信息之間的矛盾越多…… 每加一分 "真實", 成功率就掉一截,而且是穩(wěn)定地、單調(diào)地往下掉。一方面,這證明我們造的世界確實在逼近真實生活的復雜度;另一方面,也戳破了一個幻覺:今天的模型并不是 "上下文越大就越聰明", 面對一整個數(shù)字人生,它們還遠沒學會從海量信息里精準撈出那幾條真正要緊的線索。
2. 能看到一切,但不一定能 “看” 到一切。
在 CLI 任務上,GPT-5.5 和 Claude Opus 4.7 是絕對王者,雙雙沖到 40 分檔,把一眾開源模型甩在身后。
但劇情在 "上手機" 那一刻反轉(zhuǎn)了,在評測 GUI+CLI 任務的時候,Claude 系列斷崖式崩塌:Opus 4.7 從 CLI 上的 40 分跌到 GUI+CLI 的 7.3 分,Sonnet 4.5 更是只剩 6 分,幾乎不會 “看” 手機。
![]()
3. "看見一切" 不是錦上添花,是生死線。
我們試著把三個維度逐一 "拔掉": 一旦不讓助理讀歷史事件流,大量任務直接做不出來;一旦屏蔽掉跨 App 協(xié)作的能力,成功率幾乎歸零;一旦只給電腦、不給手機,那些需要手機操作的任務也基本全軍覆沒。換句話說,只要少看了用戶世界的一個角落,一整類任務就徹底無解 —— 這正是我們反復強調(diào) "See Anything" 的原因:先看得全,才談得上做得對。
4. "主動" 比 "被動" 難得多。
讓助理回答你明確提出的問題是一回事;讓它在你還沒開口時,主動發(fā)現(xiàn) "這件事你今天該處理了", 完全是另一個難度。實驗里,主動類任務的成績明顯低于被動響應類 —— 這也指明了下一代助理最該補的一課:從 "有問必答" 走向 "未問先知"。
![]()
結(jié)語
我們正站在一個轉(zhuǎn)折點:AI 越來越像一個住進你數(shù)字生活、隨時替你打理一切的助理。越是貼身,越馬虎不得 —— 它得看得夠全、想得夠遠、還守得住分寸。Rachel 那道關于 "180 美元值不值" 的小題,背后是每個普通人都會遇到的真實困境;人可以通過回憶與權衡來做出符合當下的選擇,而 AI 能不能答好,決定了我們到底敢不敢把生活交給它。
Claw-Anything 想做的,就是誠實地丈量這段距離,并親手為跨越它鋪下第一段路 —— 它既是一個足夠難的基準,也是一套可持續(xù)的數(shù)據(jù)基礎設施。這條路才剛剛開始,而我們已經(jīng)在上面了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.