无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI手機時代需要怎樣的Agent Harness?

0
分享至



過去一年,AI 與手機的關系正在被重新定義:OpenAI AI Phone / AI Agent Phone 把「AI 原生手機」推到臺前,Gemini on Android 也在把系統級助手從問答帶向跨 App、多步驟任務協助。

這些信號指向同一個趨勢:AI 不再只是聊天框里的回答者,而是正在進入手機這個最日常、最復雜、也最具狀態性的計算環境。

騰訊混元牽頭,聯合 The Chinese University of Hong Kong、The Chinese University of Hong Kong, Shenzhen、Tsinghua University等機構的最新研究 PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools 關注一個更基礎的問題:當 AI 真正在手機上行動,我們如何讓它真正完成任務,并驗證它確實完成了?

作者團隊給出的結論是:

  • 手機 Agent 的核心不只是「更會點屏幕」,而是能根據任務選擇 CLI、GUI、MCP 工具等合適的行動面;
  • 真實手機 workflow 需要可驗證的副作用:文件是否生成、設置是否改變、郵件 / 日歷對象是否真的創建,都不能只靠模型口頭回答;
  • PhoneHarness 提供 mixed-action 執行 harness;PhoneHarness Bench 則用 trace、系統狀態、App 結果和安全策略評估任務是否真的完成。



  • 論文地址:https://phoneharness.github.io/assets/paper.pdf
  • 項目主頁:https://phoneharness.github.io/
  • GitHub:https://github.com/PhoneHarness/PhoneHarness
  • HuggingFace Dataset:https://huggingface.co/datasets/PhoneHarness/phoneharness-bench

先看三個執行片段:手機 Agent 不只是點屏幕

下面三個 demo 展示了 PhoneHarness 想表達的核心差異:真實手機任務往往不是一條更長的 GUI 點擊鏈,而是 CLI、GUI、MCP-style tools 與 verifier 共同組成的執行 workflow。

Demo 1|CLI-first:先讀設備狀態,再決定是否進入 GUI



視頻鏈接:https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg

Demo 2|Mixed workflow:MCP 檢索 + GUI 執行 + verifier 復核



視頻鏈接:https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg

Demo 3|Virtual display:后臺 GUI 執行與過程留痕



先把第一個問題說清楚:手機 Agent 真的「做了」嗎?

在很多手機 Agent 評測里,任務被拆成一連串 GUI 操作。模型觀察屏幕,決定下一步點哪里、滑哪里、輸什么。如果最后 UI 狀態看起來對,就算任務完成。

這套范式當然有價值。畢竟,手機確實是一個強 GUI 環境,真實 App 的搜索、瀏覽、點擊和輸入都需要視覺 grounding。

但對于 AI 手機時代的 Agent 來說,只會 GUI 操作遠遠不夠。

傳統 GUI-centric 視角:

  • 把手機任務看成 screenshot → tap /swipe/type;
  • 視覺感知幾乎是所有動作執行的前置操作;
  • 更適合單 App、強視覺、低副作用任務。

PhoneHarness 的 mixed-action 視角:

  • 把手機任務看成跨 CLI、GUI、MCP 工具的完整 workflow;
  • 評估重點不是「看起來完成」,而是副作用是否真實發生、trace 是否可審計;
  • 更適合系統設置、文件、搜索、郵件、日歷和跨 App 任務。

例如,「查一個 App 內的信息,再結合網頁搜索補充背景,并整理成郵件」這類任務,不是一個更長的點擊鏈。它同時包含 App 內 GUI 交互、外部信息檢索、文本處理、郵件副作用,以及最終結果驗證。

如果評測只看最終回答,就會漏掉最關鍵的問題:模型到底有沒有查對來源、有沒有真的創建文件、有沒有真的發出郵件、有沒有繞過了應該被確認的高風險操作?

核心判斷:PhoneHarness 的出發點很直接:手機 Agent 的評測不能只問「它會不會點屏幕」,而要問「它能不能在真實手機環境里把一件事做完,并留下可驗證證據」。

PhoneHarness:讓手機 Agent 的行動空間不止 GUI

PhoneHarness 的核心不是再造一個 GUI 點擊器,而是把手機任務放進一個混合動作空間里。

關鍵區別:問題不是「純 GUI 理論上能不能做」,而是「純 GUI 是否是可靠、高效、可驗證的動作抽象」。真實手機 workflow 往往同時跨越系統狀態、App 界面、文件、網頁、郵件、日歷和安全邊界。GUI 是重要入口,但不應該是唯一入口。

因此,mixed-action 不是給 GUI agent 加幾個外掛工具,而是讓 agent 在執行過程中為不同子目標選擇合適的 action surface:能用確定性命令讀取狀態,就不必反復點設置頁;必須進入 App 內完成交互時,才交給 GUI;需要外部信息、文件處理或結果復核時,則調用 host-side tools 或 verifier。



為什么 mixed-action 比純 GUI 更穩



PhoneHarness 架構圖:host-side orchestration 與 Android device-side execution 共同構成 mixed-action harness。

在 PhoneHarness 中,agent 可以在三類行動面之間切換:CLI /device-side commands、GUI delegation、以及 MCP-style host tools。



圖解:PhoneHarness 的三類行動面



PhoneHarness 的 mixed action space:CLI、GUI 與 MCP-style tools 在同一個 phone-agent loop 中共存。

這意味著,PhoneHarness 里的 agent 不必把所有任務都硬塞進 GUI 點擊鏈。它可以判斷:什么時候該走系統命令,什么時候該交給 GUI worker,什么時候該調用搜索、文檔、郵件、日歷等工具。

這種設計更接近 AI 手機時代的真實需求。AI 手機不是「在手機里放一個聊天機器人」,而是讓智能體能在復雜手機環境里理解目標、選擇行動、執行任務,并產生可檢查的結果。

PhoneHarness Bench:如何構建并驗證手機 workflow

有了 mixed-action harness,還需要一個能真正檢驗執行結果的 benchmark。原因很簡單:對手機 Agent 來說,能行動不等于真的完成了任務。

PhoneHarness Bench 建立在 PhoneHarness 之上,不把任務寫成抽象問答題,而是寫成一段可以執行、記錄和復核的 phone workflow。Agent 在執行過程中會留下截圖、CLI / MCP 操作、文件變化、系統狀態和 App 側結果;benchmark 再通過 task-specific verifier 判斷任務副作用是否真實發生。

Bench 的關鍵:PhoneHarness Bench 不問「模型有沒有說自己做完」,而是看「任務證據鏈是否支持它真的做完」。這也是它區別于純問答式評測和純 GUI 狀態評測的關鍵。



PhoneHarness Bench 如何驗證任務完成

Bench 是怎么構建的?

每個 PhoneHarness Bench task 都包含一個用戶目標、一組可調用行動面,以及一個面向副作用的 verifier。這樣,benchmark 評估的不是單步 GUI 操作,而是完整 workflow:任務輸入、agent loop、混合動作執行、trace 記錄、結果驗證和失敗歸因。



PhoneHarness Bench 的任務分布:覆蓋 device/system、single-app GUI、tool-assisted workflow 與 cross-app workflow。

為什么這能幫助分析失?。?/strong>

這條鏈路讓失敗不再只是一個籠統的「沒做對」。我們可以進一步區分:是外層 controller 沒有規劃好,是 GUI worker 沒有點對,是工具調用失敗,是環境不穩定,還是 verifier 沒有看到預期副作用。



代表性執行軌跡:截圖、CLI / MCP 操作卡片與 verifier 信號共同構成可審計證據鏈。

實驗發現:收益來自 mixed-action routing,不是單純更會點屏幕

在論文實驗中,我們沒有把 PhoneHarness 描述成一個「所有場景都更強」的 GUI agent。相反,實驗更清楚地顯示了它的邊界和價值。

PhoneHarness 的收益主要來自那些存在確定性路徑、工具輔助路徑或可驗證副作用的任務。比如設備狀態查詢、文件處理、網頁檢索、日歷 / 郵件 / 文檔相關 workflow,以及需要跨行動面組合的手機任務。

對于純 GUI-heavy 的任務,視覺 grounding、權限彈窗、登錄狀態、廣告、搜索結果不穩定等問題仍然會帶來挑戰。

實驗解讀:這個結論反而更重要:手機智能體的未來不是「把 GUI 點擊模型做得更大」,而是要讓 agent 學會選擇合適的行動面,并讓每一步執行都能被驗證。



mixed-action affordance 任務上的行動空間拆解。



不同任務類型下的執行步數,輔助理解效率差異。

當 AI 手機真正到來,我們會看到什么新瓶頸?

OpenAI AI Phone 和 Gemini on Android 之所以值得關注,不只是因為「大廠要做 AI 手機」。更重要的是,它們共同指向了一個產品范式變化:手機正在從 App-centric device 走向 Agent-centric device。

在 App-centric 時代,用戶自己負責拆解任務:打開哪個 App、點哪里、復制什么、搜什么、確認什么。

在 Agent-centric 時代,用戶表達目標,agent 負責調度行動。



AI 手機時代的新瓶頸

PhoneHarness 的切入點正是在這里:AI 手機時代需要的不只是更強的模型,還需要能承載真實執行的 harness,以及能驗證執行結果的 benchmark。

PhoneHarness 和 PhoneHarness Bench,到底推進了什么?



PhoneHarness 與 PhoneHarness Bench 的分工

這兩個產物是相互依賴的。

沒有 harness,benchmark 很難覆蓋真實混合任務。沒有 benchmark,harness 的執行能力也很難被系統性評估。

如果說過去手機 Agent 的競爭更像「誰更會看屏幕點按鈕」,那么 AI 手機時代真正重要的問題會變成:誰能把真實手機 workflow 做完,誰能留下可信證據,誰能在安全邊界內穩定執行。

PhoneHarness 回答的是「怎么讓手機 Agent 真的行動」。PhoneHarness Bench 回答的是「怎么確認它真的做成」。

AI 手機不是簡單地把大模型塞進系統。它意味著手機從 App-centric device 走向 Agent-centric device:用戶表達目標,agent 負責選擇路徑、調用工具、操作 App,并完成可驗證的結果。

這背后的基礎設施問題,比「模型會不會點屏幕」更復雜,也更關鍵。

PhoneHarness 和 PhoneHarness Bench 想推進的,正是這一層基礎設施:讓手機 Agent 的行動空間更接近真實世界,也讓評測更接近真實完成。

一句話總結:AI 手機時代,關鍵問題不只是模型能不能理解屏幕,而是它能否在真實手機環境里選擇正確行動面、完成可驗證任務,并留下可審計的執行軌跡。

作者信息

共同一作:Jason、Zhengyao Fang、Zhengyang Tang、Pengyuan Lyu。

完整作者:Jason, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu.

機構:Tencent Hunyuan; The Chinese University of Hong Kong; The Chinese University of Hong Kong, Shenzhen; Tsinghua University.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

房產
健康
藝術
旅游
軍事航空

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

嘗試干細胞療法如何避免踩坑?

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版