雷峰網訊 2026 年 5 月 11 日,本地 AI 智能體框架 OpenClaw 正式上線了 macOS 專屬桌面操控工具 Peekaboo,提供像素級截圖、UI 元素識別、以及完整的 GUI 自動化能力。簡單來說,就是讓 Agent “長出眼睛”,從此看得見屏幕、點得到按鈕,甚至自主操作電腦。![]()
GUI 自動化或可以視為 OpenClaw 在 Computer Use 上的最后一塊能力短板。此前的 Agent 交互模式尚停留在文本對話層面,雖然已經實現了高度自主的指令遵循和任務閉環(huán)能力,但圖形操作界面仍然是人類的專屬。而 Peekaboo 的登場將 Agent 帶進了下一個時代,只有能夠“看見”,它們才算是成為了真正能夠全權接管桌面的自主執(zhí)行體。
那么對用戶而言,這意味著什么樣的體驗革新?Peekaboo 又是如何讓 AI 真正接管桌面?我們第一時間上手進行了實測。
![]()
01
接管桌面,OpenClaw 超進化
“Agent 的眼睛”聽起來很像是某種普通的附加功能,但這一描述遠遠低估了 Peekaboo 的真實地位,它更重要的意義在于徹底打破了 Agent 只能被動應答的局限,將其拉入真實的桌面操作場景。
Peekaboo 搭載的像素級識別能力,能夠自動精準標注屏幕上的按鈕、輸入框、彈窗、軟件窗口等所有界面元素,且無需人工標記或提前適配。同時它可以完美模擬人類的操作邏輯,自主完成鼠標點擊、文字輸入、頁面滾動、快捷鍵操控等全套鍵鼠行為。
更核心的優(yōu)勢在于無依賴通用性,Peekaboo 不依賴軟件官方 API、無需嵌入 SDK 適配,這意味著所有桌面軟件、網頁平臺都能直接兼容適配。它在賽博世界留下的痕跡就像一個真正的人類用戶那樣,一切你能操作的對象,它都可以接手。
這已然提供了一種重構電腦操作底層邏輯的可能。而我們首先好奇的是,Peekaboo 到底是具備真實的落地能力,抑或只是噱頭式的 Agent 玩具?在真實的桌面環(huán)境下,我們首先測試了其復雜連續(xù)操作能力。
這是一項信息檢索測試。我們要求 Peekaboo 打開 Safari 瀏覽器,自動關閉網頁彈窗干擾,然后在頂部網址搜索框查找「AI近期大事」,在下方一眾搜出來的網站中,打開第一個網站,然后關閉網站。
整套流程全部由 OpenClaw 自主完成,任務內容雖然并不復雜,但實際操作覆蓋了圖標識別、按鈕點擊、彈窗檢測、搜索框定位、內容輸入等多項能力。
特別是在同一個頁面中執(zhí)行輸入內容、定位詞條等任務時,從視頻中可以看出,Peekaboo 自主完成了規(guī)避彈窗干擾、適配動態(tài)網頁布局,這表明其能夠穩(wěn)定地識別復雜的軟件界面。更關鍵的是,在連貫完成多步驟桌面操作時,Peekaboo 表現出的操作邏輯也非常貼合人類使用習慣。
到此為止,可以說 Peekaboo 絕非僅僅支持單點點擊的演示型工具。當然,對于 GUI 自動化而言這還只是入門。落地能力更為核心的考驗是在任務流延伸至跨軟件乃至跨系統(tǒng)的程度時,Peekaboo 是否仍然能夠實現全流程自主的桌面操作。
第二項測試將信息檢索延伸至成果交付階段,要求 Peekaboo 在 Safari 瀏覽器中搜索百度熱搜榜,依次提取熱搜榜、電影榜、小說榜、電視劇榜前六名的數據,然后回到桌面新建 Excel 表格,將此前采集到的四類榜單數據進行匯總。
結果顯示,Peekaboo 自主操作電腦完成了長鏈路的復合任務。其中涉及到瀏覽器的部分在案例一中已有所展示,更值得關注的是其在瀏覽器、辦公軟件、系統(tǒng)桌面、文件夾、系統(tǒng)設置等多個操作平臺之間的跳轉,整套流程并未出現需要人工干預的卡頓。
這意味著 OpenClaw 和 Peekaboo 的結合已經具備了真實的辦公自動化能力,而 OpenClaw 的定位也正在從 AI 工具的調用者,轉向下一代桌面環(huán)境操作底座。在 Agent 普遍以調用第三方工具為核心邏輯的背景下,Peekaboo 讓 OpenClaw 成為了距離接管整個電腦最近的選手。
![]()
02
極客玩具,普通人也能上手了
很長一段時間以來, AI 桌面自動化工具大多局限于極客群體,難以走進普通用戶日常的辦公、生活場景。而 Peekaboo 的不同之處在于,它的部署跟競品比起來實在太簡單了,既可以作為 MCP 服務運行,一行命令行無縫接入OpenClaw、Codex、Claude Code 或 Cursor,小白也可以直接在 ClawHub 安裝 Peekaboo Skill,零配置使用。
事實上,GUI 自動化并非全新的嘗試,類似的產品此前也并不鮮見,但恰恰是作為后來者的 Peekaboo 踩上了新一代多模態(tài)技術的東風。UI 識別曾經是長期困擾這一賽道的瓶頸之一,突如其來的彈窗和頁面內容變動,導致的 GUI 自動化翻車是家常便飯。而 Peekaboo 不綁定單一廠商,可以說是坐收多模態(tài)技術水漲船高的紅利。
此外,曾經的 GUI 自動化工具要看軟件廠商臉色行事,系統(tǒng)權限被牢牢把握在對方手中,真正能夠落地的場景非常有限,強行上馬的結局往往是被送上黑名單。最終有能力和毅力把它們用起來的,往往也只剩下極客。
而對于 OpenClaw 而言,這同樣不再是問題。傳統(tǒng)方案是等廠商開放 API 接口,Peekaboo 直接操作屏幕,不僅繞開了請求許可的環(huán)節(jié),而且意味著即使是那些多年不曾更新的小眾軟件,和從未對外開放接口的內部工具,都被一視同仁地納入了 Peekaboo 的能力范圍。
多模態(tài)技術的迭代和對封閉生態(tài)的突破合流,某種程度上,Peekaboo 成為了第一款普通人也能用的桌面自動化工具。
將這種顛覆性的桌面操控能力交予大眾之手的同時,Peekaboo 另一個讓人驚喜之處是高度完善的安全性保障。隱私方面,Peekaboo 會對操作界面進行像素級截圖,但由于全程跑在本地,因此屏幕畫面無需上傳云端。此外可控性方面,Peekaboo 執(zhí)行的每一項任務都有完整的操作記錄可供追溯,由手動觸發(fā)啟動,不支持后臺靜默運行,且可以隨時一鍵中斷。
多重安全機制疊加下,雖無法實現絕對的零風險,操作的主動權卻始終由用戶掌控,有效規(guī)避了 AI 后臺私自操作、隱私數據泄露等核心風險。
![]()
03
必經之路,還是權宜之計
在出色的桌面操控能力之外,Peekaboo 仍然表現出了諸多 GUI 自動化工具常見的問題。
首先是坐標偏移。不同的顯示器分辨率、窗口縮放比例之下,頁面元素位置的變化偶爾會導致點擊坐標漂移、操作點位偏差。即便整體識別率處于較高水平,也仍然影響了 Peekaboo 對于復雜任務的完成精度。
此外還有上下文遺忘。當超長程任務進行到后半段時,Peekaboo 常常會忘記自己此前干了什么,然后重復執(zhí)行某些操作,直到卡死進程。
當然如果你看了前面的測試視頻,會發(fā)現最明顯的問題仍然是執(zhí)行速度。復雜界面識別、超長任務流程都會導致 Peekaboo 有比較明顯的延遲,這也是 GUI 自動化工具的通病。
一種解釋是,視覺方案在執(zhí)行速度上無法與通過代碼命令直接操作比擬,但更值得追問之處在于,這是否意味著視覺方案本身的落地能力就不盡人意。
除了此前提到的操作精準性和執(zhí)行速度,通過多模態(tài)理解實現的 GUI 自動化還意味著不俗的 Token 成本。Peekaboo 在設計之初顯然也考慮到了這一點,試圖通過 VQA 定向分析和元素 ID 壓縮等方式減少 Token 消耗,前者指多模態(tài)模型收到屏幕截圖后不返回完整圖像描述,而是針對具體問題生成精簡回答,后者則表示使用短 ID 來標記界面 UI 元素,相比原始坐標或完整描述更加緊湊。
然而當代碼命令方案成為比較的對象,這仍然是一筆無法忽視的成本。
在 Peekaboo 之前,另一個耐人尋味的例子是豆包手機助手。后者初期憑借便捷體驗快速出圈,但很快因其使用安卓系統(tǒng)級高危權限模擬用戶點擊、跨應用跳轉,被微信、支付寶、淘寶等主流 App 的風控系統(tǒng)識別為異常行為,導致部分跨應用操作功能受限或被迫下線,甚至一度遭到眾多主流軟件廠商的聲討。時至今日,其后續(xù)發(fā)展仍然面臨著生態(tài)兼容與合作模式的重大不確定性。
這背后是 GUI 自動化技術在權限邊界、數據主權和商業(yè)利益上與現有移動生態(tài)的深層沖突。Peekaboo 為規(guī)避生態(tài)壁壘而生,卻無法真正繞過它。當 Agent 之爭走向落地執(zhí)行能力的較量,速度、成本、準確性,日后或許都會成為 Peekaboo 的命門。
視覺方案到底是打通 AI 現實操作鏈路的必經之路,還是生態(tài)封禁被真正突破之前的權宜之計?值得拭目以待。
雷峰網文章
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.