无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為Claw-Anything:跨設備、跨時間、跨服務Claw評測與數(shù)據(jù)引擎

0
分享至



「See Anything, then Do Anything —— 看見一切,進而做到一切」



我們相信,常駐型 (always-on) AI 助理的下一次飛躍,不在于把某一個模型單點調(diào)得更聰明,而在于擴展智能體的上下文 (Scaling Agent Context)—— 不斷拓寬助理能夠持續(xù) "感知 — 推理 — 執(zhí)行" 的范圍,作為生活連接器連接用戶的信息孤島,直到它能接管用戶的整個數(shù)字世界。

今天的 "助理" 大多只能看到你數(shù)字生活的一小片:一封郵件、一條指令。而一個真正的個人助理,應當像一位貼身管家 —— 看得見你散落在數(shù)月歷史、十幾個應用、手機與電腦之間的全部狀態(tài),聽得懂沒說出口的需求,并在恰當?shù)臅r刻替你把事情做對。先 "看見一切", 才談得上 "做到一切"。

這就是 Claw-Anything 想要推動的方向:Scaling Agent Context,讓 Agent 全面接管用戶的數(shù)字世界。

「首個面向日常個人助理 Agent、沿長程歷史 × 多服務 × 多設備三維度擴展的評測基準正式發(fā)布!」

  • 200 個真實日常助理任務,每個任務橫跨 CLI 和 GUI、10 + 個應用和數(shù)月跨度 ( Scaling Context 20x )
  • 頂尖閉源模型 GPT-5.5 通過率 (pass@1) 僅 34.5%,"最強助理" 與真實日常之間仍存巨大鴻溝
  • 開源自動化管線,附帶 2000 + 訓練環(huán)境,微調(diào)開源小模型帶來 23.7% 的解決率提升,開源 SOTA
  • 將 "主動服務"(在用戶開口之前替他想到) 與跨設備任務引入 Agent 評測體系



論文、管線代碼和任務數(shù)據(jù)均放出:

  • 論文鏈接: https://arxiv.org/pdf/2605.26086
  • 開源代碼: https://github.com/LiberCoders/Claw-Anything
  • 任務數(shù)據(jù): https://huggingface.co/datasets/LiberCoders/Claw-Anything
  • ModelScope: https://www.modelscope.cn/datasets/LiberCoders/Claw-Anything

一個例子

Rachel 是一位獨立婚禮策劃師,手上同時跟著 8 場婚禮。6 月 3 日早上,她丟給自己的 AI 助理一句話:

"我 6 月 4 號要跟一個企業(yè)客戶開需求溝通會。我在糾結(jié):這份會前簡報,是花錢讓兼職助理 Lena 來準備,還是我自己上?"

這句話聽上去很簡單很日常很好解決,但要答好它,助理得在 Rachel 海量的個人信息里把整盤賬算清:

  1. 翻日歷 app—— 發(fā)現(xiàn) 6 月 3 日上午卡著兩場根本挪不動的硬會議:一場婚前確認電話,一場和花藝供應商的合同糾紛解決會。
  2. 讀郵件 app—— 翻出 Lena 的報價 (半天 180 美元),還得發(fā)現(xiàn)一個藏起來的坑:Lena 要求 "周三下班前送材料",而今天就是周三,這個截止時間是很極限的,需要考慮今天有沒有充足時間準備材料;
  3. 看財務 app—— 掂量這 180 美元此刻花不花得起;
  4. 往下推演—— 如果為省錢自己硬扛、把供應商糾紛會往后拖,可能賠上一個關系到好幾場婚禮的長期供應商,這筆隱性損失遠不止 180 美元。

最后給出干脆的結(jié)論:交給 Lena 值。但還有一條紅線 ——它絕對不能擅自替 Rachel 發(fā)出任何一封郵件,因為 "用戶的提問并沒授權或明示個人助理直接處理",這超出了助理被授予的權限。

一個真正好用的助理,既要把這盤賬算明白,又要懂得 "什么事不能替你做主"。問題是:今天的 AI, 真的做得到嗎?

背景介紹

AI 正從 “幫你寫段文案 " 的一次性工具,走向住進你數(shù)字生活、隨時替你打理一切” 的常駐助理 (always-on personal assistant)。這類系統(tǒng)被寄予厚望:有長期記憶、能后臺執(zhí)行、隨叫隨到。

但現(xiàn)實是,用戶的意圖天然散落在整個數(shù)字世界里—— 幾個月前的歷史事件、十幾個互相牽連的后端服務、手機與電腦兩套設備。要真正幫上忙,助理必須既能找到并 “看見” 這些分散的狀態(tài),又能在閉環(huán)里 “行動”。



然而現(xiàn)有評測遠遠跟不上這個目標。近期涌現(xiàn)的衡量助理 Agent 的基準,大多是干凈、短程、單服務、單設備的:給一封整潔的郵件讓你總結(jié),或給一個明確指令看你能否調(diào)一次工具。這就像考駕照只考 “原地打方向盤”,從不讓你上路。它們幾乎無法回答:當助理被丟進嘈雜、長程、需要跨設備跨系統(tǒng)協(xié)調(diào)、還得拿捏分寸的真實環(huán)境里,究竟表現(xiàn)如何?



更關鍵的瓶頸在于:這樣的環(huán)境極難規(guī)模化構造。它需要建模長達數(shù)月的時間線、眾多互聯(lián)服務、多臺設備,同時保證真實與自洽 —— 長期高度依賴人工搭建,既貴又難擴展。

方案:把助理「扔進」一個萬物互聯(lián)的數(shù)字世界

Claw-Anything 沿三個維度,把 Agent 的可感知 / 可操作范圍撐到接近真實:

  • 長程事件流—— 用程序模擬出一個人長達數(shù)月的連貫生活軌跡,把 “過去” 和 “現(xiàn)在” 打通;
  • 互聯(lián)的后端服務—— 郵箱、日歷、待辦、聯(lián)系人、Notion、Facebook、財務…… 牽一發(fā)而動全身,單任務平均要打通10+ 個應用 (最多 18 個);
  • 多設備異構界面—— 同時覆蓋手機 GUI 與命令行 CLI 的交互。

在這個世界里,我們考兩類能力。一類是「你能聽懂并做對嗎」:像上面 Rachel 那道題,需要跨郵件、日歷、財務、人脈把碎片拼成清醒判斷,還要守住權限邊界。另一類是「你能未卜先知嗎」:比如每天早上 7 點 Agent 自動觸發(fā)輪詢 “幫用戶快速看一眼可能的待辦事項,梳理成按優(yōu)先級排好,并作出建議”—— 沒有明確指令,助理得主動把當天最要緊、最易翻車的事拎出來。這種主動性,正是 “貼身助理” 和 “問答機器人” 的分水嶺。

1. 讀郵件 log:發(fā)現(xiàn)近日用戶反復編輯過一封草稿箱內(nèi)的郵件。
2. 讀郵件 app:獲取這封郵件的內(nèi)容,發(fā)現(xiàn)是準備向某博導發(fā)送的申請博士郵件。
3. 讀聯(lián)系人 app:獲取所有可聯(lián)系博導的信息。
4. 讀微信 app、郵件 app、日歷 app 等:獲取用戶的學術偏好相關信息。
5. 寫 TODO、郵件 app:說明可聯(lián)系博導的主要研究方向,與本人是否匹配,給出建議,并措辭草擬申請郵件但不發(fā)送等用戶抉擇。
6. ...

為了真實,我們覆蓋 30+ 種人物畫像 —— 婚禮策劃師、獨立音樂人、安全工程師、博士生、咖啡館老板、自由譯者…… 每個人都有自己的脾氣、權限邊界和一攤子糟心事。而且環(huán)境里滿是噪聲:絕大多數(shù)信息與當前任務無關,有些甚至互相矛盾,專門等著把模型帶偏。

Pipeline:讓「出題的機器」模擬連續(xù)的日常生活,造出數(shù)字人生

Claw-Anything 不止是一個 benchmark,同時也是一套數(shù)據(jù)生產(chǎn)工廠。

我們把 “構造數(shù)字世界” 重新建模成一個可自動滾動的過程:只需給定一個人物的極簡設定,一個以 LLM 為核心的模擬器就會像滾雪球一樣,從種子事件池里反復采樣、逐輪注入,一點點把這個人的數(shù)字生活 “養(yǎng)” 出來 —— 郵件越攢越多、人物畫像越來越立體、世界狀態(tài)越來越復雜,連帶著以假亂真的無關與矛盾噪聲。



當世界足夠豐滿,流水線就把 “下一個該發(fā)生的事件” 實例化成一道有人物背景、有標準答案、有可執(zhí)行驗證器的任務 —— 評測因此變成了 “在一段不斷演進的數(shù)字人生里,替主人走好下一步”。整個過程無需人工參與,只消耗算力,因此既能產(chǎn)出供人工復核的高質(zhì)量評測題,也能海量生成訓練環(huán)境。

產(chǎn)出:規(guī)模化與高質(zhì)量并存

基于這套管線,Claw-Anything 一邊產(chǎn)出200 個人工驗證的評測任務,一邊自動生成2000 個訓練環(huán)境。

與以往同類基準相比,這些任務的 “真實密度” 高出一個數(shù)量級:平均每個任務橫跨 10.1 個互聯(lián)服務 (最多 18 個)、上下文長達 191.7k 字,并且是業(yè)界第一個同時覆蓋 CLI 與 GUI、且把主動服務納入評分的基準。模型不再能靠 "猜一個干凈答案" 蒙混過關,而必須真正讀懂分散在數(shù)月歷史與十幾個應用里的狀態(tài),才能完成任務。



實戰(zhàn)效果:一面照出差距、也指明出路的鏡子



我們把市面上最強的模型挨個拉來考,結(jié)果發(fā)人深省:

即便是 GPT-5.5, 通過率也只有 34.5%。大量在以往 "干凈考場" 里高分的模型,一旦進入真實嘈雜、需要長程推理和分寸感的環(huán)境,三分之二的任務都栽了—— 它們會漏看那條 “截止時間已過” 的關鍵郵件,算不清拖延一場會議的隱性代價,甚至越權替用戶把郵件發(fā)出去。

但我們沒有止步于 “出了一張難卷子”。用自動生成的訓練環(huán)境去微調(diào)開源模型 Qwen3.5-27B,效果立竿見影:

任務成功率提升 23.7%!

這意味著 Claw-Anything 不只是一把量出問題的尺子,更是一臺能源源不斷造燃料、把模型推向更可靠的發(fā)動機 ——發(fā)現(xiàn)問題和解決問題,在同一套系統(tǒng)里閉環(huán)了。

消融實驗:Claw-Anything 究竟揭示了什么問題

為了搞清楚到底是什么讓任務變難,我們把環(huán)境拆開做了一系列消融實驗,結(jié)果有些反直覺,卻特別說明問題。

1. 給模型看得越多,它反而做得越差。

這聽起來不合常理,但數(shù)據(jù)很誠實 —— 我們讓 Agent 能翻的歷史越長、要打通的 App 越多、環(huán)境里摻的無關噪聲越重、人物畫像越立體、信息之間的矛盾越多…… 每加一分 "真實", 成功率就掉一截,而且是穩(wěn)定地、單調(diào)地往下掉。一方面,這證明我們造的世界確實在逼近真實生活的復雜度;另一方面,也戳破了一個幻覺:今天的模型并不是 "上下文越大就越聰明", 面對一整個數(shù)字人生,它們還遠沒學會從海量信息里精準撈出那幾條真正要緊的線索。

2. 能看到一切,但不一定能 “看” 到一切。

在 CLI 任務上,GPT-5.5 和 Claude Opus 4.7 是絕對王者,雙雙沖到 40 分檔,把一眾開源模型甩在身后。

但劇情在 "上手機" 那一刻反轉(zhuǎn)了,在評測 GUI+CLI 任務的時候,Claude 系列斷崖式崩塌:Opus 4.7 從 CLI 上的 40 分跌到 GUI+CLI 的 7.3 分,Sonnet 4.5 更是只剩 6 分,幾乎不會 “看” 手機。



3. "看見一切" 不是錦上添花,是生死線。

我們試著把三個維度逐一 "拔掉": 一旦不讓助理讀歷史事件流,大量任務直接做不出來;一旦屏蔽掉跨 App 協(xié)作的能力,成功率幾乎歸零;一旦只給電腦、不給手機,那些需要手機操作的任務也基本全軍覆沒。換句話說,只要少看了用戶世界的一個角落,一整類任務就徹底無解 —— 這正是我們反復強調(diào) "See Anything" 的原因:先看得全,才談得上做得對。

4. "主動" 比 "被動" 難得多。

讓助理回答你明確提出的問題是一回事;讓它在你還沒開口時,主動發(fā)現(xiàn) "這件事你今天該處理了", 完全是另一個難度。實驗里,主動類任務的成績明顯低于被動響應類 —— 這也指明了下一代助理最該補的一課:從 "有問必答" 走向 "未問先知"。



結(jié)語

我們正站在一個轉(zhuǎn)折點:AI 越來越像一個住進你數(shù)字生活、隨時替你打理一切的助理。越是貼身,越馬虎不得 —— 它得看得夠全、想得夠遠、還守得住分寸。Rachel 那道關于 "180 美元值不值" 的小題,背后是每個普通人都會遇到的真實困境;人可以通過回憶與權衡來做出符合當下的選擇,而 AI 能不能答好,決定了我們到底敢不敢把生活交給它。

Claw-Anything 想做的,就是誠實地丈量這段距離,并親手為跨越它鋪下第一段路 —— 它既是一個足夠難的基準,也是一套可持續(xù)的數(shù)據(jù)基礎設施。這條路才剛剛開始,而我們已經(jīng)在上面了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國籃變陣!中澳對話:12人大名單!楊瀚森缺陣,考驗來了!

國籃變陣!中澳對話:12人大名單!楊瀚森缺陣,考驗來了!

籃球盛世
2026-06-21 20:38:52
最容易和別人發(fā)生關系的女人,通常有兩個特征

最容易和別人發(fā)生關系的女人,通常有兩個特征

心理觀察局
2026-06-18 06:27:06
重慶95后女生拍下火山灰中的紙鸚鵡螺,捧回全球攝影大獎

重慶95后女生拍下火山灰中的紙鸚鵡螺,捧回全球攝影大獎

陌上桃花開的
2026-06-15 22:58:40
張聞天離開政治舞臺后,時常回憶廬山發(fā)言:我講得沒有什么錯啊

張聞天離開政治舞臺后,時常回憶廬山發(fā)言:我講得沒有什么錯啊

歷史甄有趣
2026-06-18 18:40:10
2026年APEC工商領導人中國論壇在北京舉行

2026年APEC工商領導人中國論壇在北京舉行

新京報
2026-06-21 14:25:14
鄭麗文穩(wěn)了!蔡正元確認內(nèi)鬼二次出手,解國民黨心病

鄭麗文穩(wěn)了!蔡正元確認內(nèi)鬼二次出手,解國民黨心病

花顏蘊韻
2026-06-20 17:43:37
沒想到解放軍還有這一手?美專家承認失算:3航母全部“超級化”

沒想到解放軍還有這一手?美專家承認失算:3航母全部“超級化”

罐頭告訴貓迷
2026-06-21 20:01:43
中央巡查組將再出動!24個中央考核巡查組,將赴各地明查暗訪!

中央巡查組將再出動!24個中央考核巡查組,將赴各地明查暗訪!

細說職場
2026-06-21 14:44:13
臺灣回歸在即!問題來了

臺灣回歸在即!問題來了

果媽聊娛樂
2026-06-20 10:09:26
世界杯 烏拉圭VS佛得角 巴爾韋德能否力挽狂瀾 比分推薦 倚天足球

世界杯 烏拉圭VS佛得角 巴爾韋德能否力挽狂瀾 比分推薦 倚天足球

倚天足球
2026-06-21 19:51:53
2027年,如果房價繼續(xù)下跌,中國50%的家庭或?qū)⒚媾R3個大麻煩

2027年,如果房價繼續(xù)下跌,中國50%的家庭或?qū)⒚媾R3個大麻煩

李健政觀察
2026-06-20 17:43:51
本田圭佑:鈴木彩艷身體素質(zhì)像怪物;他腳下力量太神了

本田圭佑:鈴木彩艷身體素質(zhì)像怪物;他腳下力量太神了

懂球帝
2026-06-21 14:36:05
天津男籃官宣:林庭謙600萬滿額頂薪續(xù)約 李榮培黨瑞博王一方離隊

天津男籃官宣:林庭謙600萬滿額頂薪續(xù)約 李榮培黨瑞博王一方離隊

醉臥浮生
2026-06-21 17:07:25
2018年,中共中央黨校與國家行政學院合二為一,一套班子兩塊牌…

2018年,中共中央黨校與國家行政學院合二為一,一套班子兩塊牌…

叮當當科技
2026-06-20 16:14:38
三大運營商終于作“死”了自己

三大運營商終于作“死”了自己

細雨中的呼喊
2026-06-10 23:49:50
網(wǎng)傳《披哥6》錄制名單,要比《浪姐7》更豪華,多位大咖加入

網(wǎng)傳《披哥6》錄制名單,要比《浪姐7》更豪華,多位大咖加入

楚楚號
2026-06-21 07:20:41
哥倫比亞舉行總統(tǒng)選舉第二輪投票

哥倫比亞舉行總統(tǒng)選舉第二輪投票

界面新聞
2026-06-21 21:19:27
《教父》柯里昂教導兒子:忠誠是小人物的枷鎖,野心是中層人的催命符,真正能登頂?shù)娜耍恍欧钸@兩條暗規(guī)則

《教父》柯里昂教導兒子:忠誠是小人物的枷鎖,野心是中層人的催命符,真正能登頂?shù)娜耍恍欧钸@兩條暗規(guī)則

心理觀察局
2026-06-20 07:49:03
英國將向烏克蘭提供15萬架無人機

英國將向烏克蘭提供15萬架無人機

財聯(lián)社
2026-06-18 21:40:25
中國將迎來前所未有的死亡高峰,專家得出答案:是這些因素導致的

中國將迎來前所未有的死亡高峰,專家得出答案:是這些因素導致的

醫(yī)學科普匯
2026-06-16 21:50:07
2026-06-21 21:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13319文章數(shù) 142674關注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價薪酬 2028年可兌現(xiàn)

頭條要聞

巴防長強硬警告:一旦巴方水資源受到威脅 將與印開戰(zhàn)

頭條要聞

巴防長強硬警告:一旦巴方水資源受到威脅 將與印開戰(zhàn)

體育要聞

德國的超級替補,10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財經(jīng)要聞

蔚來的“暗戰(zhàn)”時刻

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
教育
時尚
親子
軍事航空

《刺客信條:黑旗RE》皮膚曝光!炫酷魔幻風帥炸

教育要聞

別只看名字填專業(yè)!78個本科專業(yè)到底學什么、畢業(yè)干什么?

郵報盤點哈蘭德奢侈品收藏:33萬鎊愛馬仕包、28萬豪華腕表

親子要聞

寶藍和爸爸叔叔玩過家家。扮演小商販,開了一家好玩的冰淇淋店

軍事要聞

時隔44年試射洲際導彈 現(xiàn)場照片傳遞三個重磅信息

無障礙瀏覽 進入關懷版