網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI手機(jī)時(shí)代需要怎樣的Agent Harness？

2026-05-27 11:13:34　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

過(guò)去一年，AI 與手機(jī)的關(guān)系正在被重新定義：OpenAI AI Phone / AI Agent Phone 把「AI 原生手機(jī)」推到臺(tái)前，Gemini on Android 也在把系統(tǒng)級(jí)助手從問(wèn)答帶向跨 App、多步驟任務(wù)協(xié)助。

這些信號(hào)指向同一個(gè)趨勢(shì)：AI 不再只是聊天框里的回答者，而是正在進(jìn)入手機(jī)這個(gè)最日常、最復(fù)雜、也最具狀態(tài)性的計(jì)算環(huán)境。

騰訊混元牽頭，聯(lián)合 The Chinese University of Hong Kong、The Chinese University of Hong Kong, Shenzhen、Tsinghua University等機(jī)構(gòu)的最新研究 PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools 關(guān)注一個(gè)更基礎(chǔ)的問(wèn)題：當(dāng) AI 真正在手機(jī)上行動(dòng)，我們?nèi)绾巫屗嬲瓿扇蝿?wù)，并驗(yàn)證它確實(shí)完成了？

作者團(tuán)隊(duì)給出的結(jié)論是：

手機(jī) Agent 的核心不只是「更會(huì)點(diǎn)屏幕」，而是能根據(jù)任務(wù)選擇 CLI、GUI、MCP 工具等合適的行動(dòng)面；
真實(shí)手機(jī) workflow 需要可驗(yàn)證的副作用：文件是否生成、設(shè)置是否改變、郵件 / 日歷對(duì)象是否真的創(chuàng)建，都不能只靠模型口頭回答；
PhoneHarness 提供 mixed-action 執(zhí)行 harness；PhoneHarness Bench 則用 trace、系統(tǒng)狀態(tài)、App 結(jié)果和安全策略評(píng)估任務(wù)是否真的完成。

論文地址：https://phoneharness.github.io/assets/paper.pdf
項(xiàng)目主頁(yè)：https://phoneharness.github.io/
GitHub：https://github.com/PhoneHarness/PhoneHarness
HuggingFace Dataset：https://huggingface.co/datasets/PhoneHarness/phoneharness-bench

先看三個(gè)執(zhí)行片段：手機(jī) Agent 不只是點(diǎn)屏幕

下面三個(gè) demo 展示了 PhoneHarness 想表達(dá)的核心差異：真實(shí)手機(jī)任務(wù)往往不是一條更長(zhǎng)的 GUI 點(diǎn)擊鏈，而是 CLI、GUI、MCP-style tools 與 verifier 共同組成的執(zhí)行 workflow。

Demo 1｜CLI-first：先讀設(shè)備狀態(tài)，再?zèng)Q定是否進(jìn)入 GUI

視頻鏈接：https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg

Demo 2｜Mixed workflow：MCP 檢索 + GUI 執(zhí)行 + verifier 復(fù)核

視頻鏈接：https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg

Demo 3｜Virtual display：后臺(tái) GUI 執(zhí)行與過(guò)程留痕

先把第一個(gè)問(wèn)題說(shuō)清楚：手機(jī) Agent 真的「做了」嗎？

在很多手機(jī) Agent 評(píng)測(cè)里，任務(wù)被拆成一連串 GUI 操作。模型觀(guān)察屏幕，決定下一步點(diǎn)哪里、滑哪里、輸什么。如果最后 UI 狀態(tài)看起來(lái)對(duì)，就算任務(wù)完成。

這套范式當(dāng)然有價(jià)值。畢竟，手機(jī)確實(shí)是一個(gè)強(qiáng) GUI 環(huán)境，真實(shí) App 的搜索、瀏覽、點(diǎn)擊和輸入都需要視覺(jué) grounding。

但對(duì)于 AI 手機(jī)時(shí)代的 Agent 來(lái)說(shuō)，只會(huì) GUI 操作遠(yuǎn)遠(yuǎn)不夠。

傳統(tǒng) GUI-centric 視角：

把手機(jī)任務(wù)看成 screenshot → tap /swipe/type；
視覺(jué)感知幾乎是所有動(dòng)作執(zhí)行的前置操作；
更適合單 App、強(qiáng)視覺(jué)、低副作用任務(wù)。

PhoneHarness 的 mixed-action 視角：

把手機(jī)任務(wù)看成跨 CLI、GUI、MCP 工具的完整 workflow；
評(píng)估重點(diǎn)不是「看起來(lái)完成」，而是副作用是否真實(shí)發(fā)生、trace 是否可審計(jì)；
更適合系統(tǒng)設(shè)置、文件、搜索、郵件、日歷和跨 App 任務(wù)。

例如，「查一個(gè) App 內(nèi)的信息，再結(jié)合網(wǎng)頁(yè)搜索補(bǔ)充背景，并整理成郵件」這類(lèi)任務(wù)，不是一個(gè)更長(zhǎng)的點(diǎn)擊鏈。它同時(shí)包含 App 內(nèi) GUI 交互、外部信息檢索、文本處理、郵件副作用，以及最終結(jié)果驗(yàn)證。

如果評(píng)測(cè)只看最終回答，就會(huì)漏掉最關(guān)鍵的問(wèn)題：模型到底有沒(méi)有查對(duì)來(lái)源、有沒(méi)有真的創(chuàng)建文件、有沒(méi)有真的發(fā)出郵件、有沒(méi)有繞過(guò)了應(yīng)該被確認(rèn)的高風(fēng)險(xiǎn)操作？

核心判斷：PhoneHarness 的出發(fā)點(diǎn)很直接：手機(jī) Agent 的評(píng)測(cè)不能只問(wèn)「它會(huì)不會(huì)點(diǎn)屏幕」，而要問(wèn)「它能不能在真實(shí)手機(jī)環(huán)境里把一件事做完，并留下可驗(yàn)證證據(jù)」。

PhoneHarness：讓手機(jī) Agent 的行動(dòng)空間不止 GUI

PhoneHarness 的核心不是再造一個(gè) GUI 點(diǎn)擊器，而是把手機(jī)任務(wù)放進(jìn)一個(gè)混合動(dòng)作空間里。

關(guān)鍵區(qū)別：問(wèn)題不是「純 GUI 理論上能不能做」，而是「純 GUI 是否是可靠、高效、可驗(yàn)證的動(dòng)作抽象」。真實(shí)手機(jī) workflow 往往同時(shí)跨越系統(tǒng)狀態(tài)、App 界面、文件、網(wǎng)頁(yè)、郵件、日歷和安全邊界。GUI 是重要入口，但不應(yīng)該是唯一入口。

因此，mixed-action 不是給 GUI agent 加幾個(gè)外掛工具，而是讓 agent 在執(zhí)行過(guò)程中為不同子目標(biāo)選擇合適的 action surface：能用確定性命令讀取狀態(tài)，就不必反復(fù)點(diǎn)設(shè)置頁(yè)；必須進(jìn)入 App 內(nèi)完成交互時(shí)，才交給 GUI；需要外部信息、文件處理或結(jié)果復(fù)核時(shí)，則調(diào)用 host-side tools 或 verifier。

為什么 mixed-action 比純 GUI 更穩(wěn)

PhoneHarness 架構(gòu)圖：host-side orchestration 與 Android device-side execution 共同構(gòu)成 mixed-action harness。

在 PhoneHarness 中，agent 可以在三類(lèi)行動(dòng)面之間切換：CLI /device-side commands、GUI delegation、以及 MCP-style host tools。

圖解：PhoneHarness 的三類(lèi)行動(dòng)面

PhoneHarness 的 mixed action space：CLI、GUI 與 MCP-style tools 在同一個(gè) phone-agent loop 中共存。

這意味著，PhoneHarness 里的 agent 不必把所有任務(wù)都硬塞進(jìn) GUI 點(diǎn)擊鏈。它可以判斷：什么時(shí)候該走系統(tǒng)命令，什么時(shí)候該交給 GUI worker，什么時(shí)候該調(diào)用搜索、文檔、郵件、日歷等工具。

這種設(shè)計(jì)更接近 AI 手機(jī)時(shí)代的真實(shí)需求。AI 手機(jī)不是「在手機(jī)里放一個(gè)聊天機(jī)器人」，而是讓智能體能在復(fù)雜手機(jī)環(huán)境里理解目標(biāo)、選擇行動(dòng)、執(zhí)行任務(wù)，并產(chǎn)生可檢查的結(jié)果。

PhoneHarness Bench：如何構(gòu)建并驗(yàn)證手機(jī) workflow

有了 mixed-action harness，還需要一個(gè)能真正檢驗(yàn)執(zhí)行結(jié)果的 benchmark。原因很簡(jiǎn)單：對(duì)手機(jī) Agent 來(lái)說(shuō)，能行動(dòng)不等于真的完成了任務(wù)。

PhoneHarness Bench 建立在 PhoneHarness 之上，不把任務(wù)寫(xiě)成抽象問(wèn)答題，而是寫(xiě)成一段可以執(zhí)行、記錄和復(fù)核的 phone workflow。Agent 在執(zhí)行過(guò)程中會(huì)留下截圖、CLI / MCP 操作、文件變化、系統(tǒng)狀態(tài)和 App 側(cè)結(jié)果；benchmark 再通過(guò) task-specific verifier 判斷任務(wù)副作用是否真實(shí)發(fā)生。

Bench 的關(guān)鍵：PhoneHarness Bench 不問(wèn)「模型有沒(méi)有說(shuō)自己做完」，而是看「任務(wù)證據(jù)鏈?zhǔn)欠裰С炙娴淖鐾辍埂＿@也是它區(qū)別于純問(wèn)答式評(píng)測(cè)和純 GUI 狀態(tài)評(píng)測(cè)的關(guān)鍵。

PhoneHarness Bench 如何驗(yàn)證任務(wù)完成

Bench 是怎么構(gòu)建的？

每個(gè) PhoneHarness Bench task 都包含一個(gè)用戶(hù)目標(biāo)、一組可調(diào)用行動(dòng)面，以及一個(gè)面向副作用的 verifier。這樣，benchmark 評(píng)估的不是單步 GUI 操作，而是完整 workflow：任務(wù)輸入、agent loop、混合動(dòng)作執(zhí)行、trace 記錄、結(jié)果驗(yàn)證和失敗歸因。

PhoneHarness Bench 的任務(wù)分布：覆蓋 device/system、single-app GUI、tool-assisted workflow 與 cross-app workflow。

為什么這能幫助分析失敗？

這條鏈路讓失敗不再只是一個(gè)籠統(tǒng)的「沒(méi)做對(duì)」。我們可以進(jìn)一步區(qū)分：是外層 controller 沒(méi)有規(guī)劃好，是 GUI worker 沒(méi)有點(diǎn)對(duì)，是工具調(diào)用失敗，是環(huán)境不穩(wěn)定，還是 verifier 沒(méi)有看到預(yù)期副作用。

代表性執(zhí)行軌跡：截圖、CLI / MCP 操作卡片與 verifier 信號(hào)共同構(gòu)成可審計(jì)證據(jù)鏈。

實(shí)驗(yàn)發(fā)現(xiàn)：收益來(lái)自 mixed-action routing，不是單純更會(huì)點(diǎn)屏幕

在論文實(shí)驗(yàn)中，我們沒(méi)有把 PhoneHarness 描述成一個(gè)「所有場(chǎng)景都更強(qiáng)」的 GUI agent。相反，實(shí)驗(yàn)更清楚地顯示了它的邊界和價(jià)值。

PhoneHarness 的收益主要來(lái)自那些存在確定性路徑、工具輔助路徑或可驗(yàn)證副作用的任務(wù)。比如設(shè)備狀態(tài)查詢(xún)、文件處理、網(wǎng)頁(yè)檢索、日歷 / 郵件 / 文檔相關(guān) workflow，以及需要跨行動(dòng)面組合的手機(jī)任務(wù)。

對(duì)于純 GUI-heavy 的任務(wù)，視覺(jué) grounding、權(quán)限彈窗、登錄狀態(tài)、廣告、搜索結(jié)果不穩(wěn)定等問(wèn)題仍然會(huì)帶來(lái)挑戰(zhàn)。

實(shí)驗(yàn)解讀：這個(gè)結(jié)論反而更重要：手機(jī)智能體的未來(lái)不是「把 GUI 點(diǎn)擊模型做得更大」，而是要讓 agent 學(xué)會(huì)選擇合適的行動(dòng)面，并讓每一步執(zhí)行都能被驗(yàn)證。

mixed-action affordance 任務(wù)上的行動(dòng)空間拆解。

不同任務(wù)類(lèi)型下的執(zhí)行步數(shù)，輔助理解效率差異。

當(dāng) AI 手機(jī)真正到來(lái)，我們會(huì)看到什么新瓶頸？

OpenAI AI Phone 和 Gemini on Android 之所以值得關(guān)注，不只是因?yàn)椤复髲S(chǎng)要做 AI 手機(jī)」。更重要的是，它們共同指向了一個(gè)產(chǎn)品范式變化：手機(jī)正在從 App-centric device 走向 Agent-centric device。

在 App-centric 時(shí)代，用戶(hù)自己負(fù)責(zé)拆解任務(wù)：打開(kāi)哪個(gè) App、點(diǎn)哪里、復(fù)制什么、搜什么、確認(rèn)什么。

在 Agent-centric 時(shí)代，用戶(hù)表達(dá)目標(biāo)，agent 負(fù)責(zé)調(diào)度行動(dòng)。

AI 手機(jī)時(shí)代的新瓶頸

PhoneHarness 的切入點(diǎn)正是在這里：AI 手機(jī)時(shí)代需要的不只是更強(qiáng)的模型，還需要能承載真實(shí)執(zhí)行的 harness，以及能驗(yàn)證執(zhí)行結(jié)果的 benchmark。

PhoneHarness 和 PhoneHarness Bench，到底推進(jìn)了什么？

PhoneHarness 與 PhoneHarness Bench 的分工

這兩個(gè)產(chǎn)物是相互依賴(lài)的。

沒(méi)有 harness，benchmark 很難覆蓋真實(shí)混合任務(wù)。沒(méi)有 benchmark，harness 的執(zhí)行能力也很難被系統(tǒng)性評(píng)估。

如果說(shuō)過(guò)去手機(jī) Agent 的競(jìng)爭(zhēng)更像「誰(shuí)更會(huì)看屏幕點(diǎn)按鈕」，那么 AI 手機(jī)時(shí)代真正重要的問(wèn)題會(huì)變成：誰(shuí)能把真實(shí)手機(jī) workflow 做完，誰(shuí)能留下可信證據(jù)，誰(shuí)能在安全邊界內(nèi)穩(wěn)定執(zhí)行。

PhoneHarness 回答的是「怎么讓手機(jī) Agent 真的行動(dòng)」。PhoneHarness Bench 回答的是「怎么確認(rèn)它真的做成」。

AI 手機(jī)不是簡(jiǎn)單地把大模型塞進(jìn)系統(tǒng)。它意味著手機(jī)從 App-centric device 走向 Agent-centric device：用戶(hù)表達(dá)目標(biāo)，agent 負(fù)責(zé)選擇路徑、調(diào)用工具、操作 App，并完成可驗(yàn)證的結(jié)果。

這背后的基礎(chǔ)設(shè)施問(wèn)題，比「模型會(huì)不會(huì)點(diǎn)屏幕」更復(fù)雜，也更關(guān)鍵。

PhoneHarness 和 PhoneHarness Bench 想推進(jìn)的，正是這一層基礎(chǔ)設(shè)施：讓手機(jī) Agent 的行動(dòng)空間更接近真實(shí)世界，也讓評(píng)測(cè)更接近真實(shí)完成。

一句話(huà)總結(jié)：AI 手機(jī)時(shí)代，關(guān)鍵問(wèn)題不只是模型能不能理解屏幕，而是它能否在真實(shí)手機(jī)環(huán)境里選擇正確行動(dòng)面、完成可驗(yàn)證任務(wù)，并留下可審計(jì)的執(zhí)行軌跡。

作者信息

共同一作：Jason、Zhengyao Fang、Zhengyang Tang、Pengyuan Lyu。

完整作者：Jason, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu.

機(jī)構(gòu)：Tencent Hunyuan; The Chinese University of Hong Kong; The Chinese University of Hong Kong, Shenzhen; Tsinghua University.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.