![]()
新智元報道
編輯:艾倫
【新智元導讀】OpenClaw 的專屬 Computer Use 工具 Peekaboo v3 正式回歸,并在發布后高頻更新。它補上了 OpenClaw 最缺的一環,讓 AI 不只會回消息,還能看屏幕、點按鈕、操作真實桌面。
OpenClaw 終于要長出眼和手了!
![]()
https://x.com/steipete/status/2053114837698249190
過去幾個月,OpenClaw 的熱度像一鍋剛燒開的水,先是咕嘟咕嘟冒泡,隨后逐漸歸于平穩。
項目跑起來了,用戶開始上手,討論也從「這是什么」變成「它還能做什么」。
這時,一個被擱在旁邊的老問題重新浮上來。
AI 能接消息,能理解指令,能調用工具,下一步總得碰一碰真實世界。
桌面上的按鈕、菜單、彈窗、輸入框,才是多數工作的最后一公里。
一個 Agent 如果只能在聊天框里給建議,多少像坐在副駕駛上指路,嘴上懂路,手上碰不到方向盤。
Peekaboo 就是在這個時候回來的。
這個名字本身就有點俏皮。Peekaboo 是「躲貓貓」的意思。
電腦界面確實天天跟自動化躲貓貓。
按鈕躲在彈窗里,菜單躲在系統欄里,窗口一動坐標全變,焦點一跑輸入落空。
人類會憑直覺修正,AI 只能靠一套更靠譜的眼睛和手。
如今,Peekaboo 要補上的正是這套眼睛和手。
![]()
從停更到一日三更
Peekaboo 從去年年末發布 v3.0.0-beta 3 后,開始停更。
![]()
之后,Peter 將主要精力轉向 OpenClaw。
可以理解,OpenClaw 本身就是一張更大的網,要接消息平臺,要做網關,要處理本地運行,要支撐 Agent 調度,還要讓普通用戶裝得上、跑得穩、用得明白。
于是 Peekaboo 暫時退到幕后。
變化發生在最近兩周。
v3.0.0-beta 4 先出來試水。
![]()
就在前天,正式版 v3.0.0 發布。
![]()
正式版落地之后,更新節奏開始狂飆,今天一日三更,v3.1.0、v3.1.1、v3.1.2 接連推出。
![]()
![]()
![]()
這種更新密度一般只有兩種可能。
一種是出現了重大 Bug,維護者正端著滅火器忙著救火。
另一種是方向終于對齊,積累已久的東西開始往外傾瀉。
Peekaboo 這次更接近后者。
過去幾個月,OpenClaw 把渠道、網關、Agent 的外殼先搭起來了。
現在,項目開始補最重要的課。
Peekaboo 到底在補什么
對普通用戶來說,Peekaboo 最好理解成一套 macOS 自動化工具。
它能截圖,能識別窗口,能讀 UI 元素,能找按鈕,能點、能打字、能滾動、能切應用、能操作菜單。
傳統腳本最怕環境變化。
按鈕位置換一下,窗口遮一下,彈窗突然出現,腳本就像踩空樓梯,啪一下摔進錯誤分支。
Agent 更麻煩,因為它要邊看邊想邊操作,任何一步看錯、點錯、等錯,后面都會一路歪下去。
Peekaboo 的價值,是把桌面變成 Agent 能理解的工作場域。
它不只是截一張圖給模型看,還要把圖里的控件、窗口、文本、按鈕關系整理出來,形成可追蹤、可復盤、可繼續操作的現場記錄。
AI 看到的不再只是一片像素,而是一張帶結構的桌面地圖。
這就像給一個會讀菜譜的人配上廚房燈、砧板和鍋鏟。沒有這些東西,廚藝只能停在嘴上。加上這些東西,才有可能開火。
為什么現在才變得關鍵
Peekaboo 并非橫空出世。
它早在去年6月就已上線初版,問題是過去的模型能力還沒完全到位。
![]()
視覺模型能看圖,但未必能穩定理解復雜界面。
Computer-Use 能操作,但經常像第一次摸觸控板的人,動作大,心里虛,偶爾還會把瀏覽器當滑板。
最近的變化在于,模型視覺能力和 Computer-Use 能力都過了一個臨界點。
單項進步看起來只是多識別一點、多點準一點、多理解一步,疊起來之后,體驗會發生質變。
Agent 不再只是偶爾能演示一下,而是開始接近可持續跑流程的狀態。
這時,底層自動化工具的價值被放大。
模型再聰明,也需要穩定輸入和穩定執行。
沒有 Peekaboo 這樣的橋,AI 對桌面的理解就容易停在截圖問答。
它能說出屏幕上有什么,卻不一定能可靠地完成下一步。
Peekaboo 做的事情,就是把「看見」和「動手」接到一起。
OpenClaw 為什么需要它
OpenClaw 最初打動人的地方,是把 Agent 放進各種消息渠道。
用戶可以從 Telegram、Slack、iMessage、WhatsApp 一類入口發起任務。
這個設計抓住了一個現實問題——人已經懶得為每個 AI 打開一個新網頁,也不想在不同工具之間來回搬運上下文。
最順手的入口,往往就是聊天窗口。
可聊天窗口只是入口。真正的工作場景常常在電腦里。
要處理一個網頁后臺,要檢查一個本地應用,要跑一個模擬器,要填一個表單,要點一個配置項,要看一張報錯截圖。
OpenClaw 可以把任務接進來,Agent 可以想出步驟,但如果沒有能操作屏幕的本地層,它最終還是要把步驟發回給人,讓人自己動手。
這就尷尬了。
用戶叫來一個助手,最后助手遞過來一張待辦清單。
Peekaboo 接入之后,OpenClaw 的角色開始變化。
它不再只是多渠道消息網關,也不只是 Agent 的調度臺。
它有機會成為一個能在本機環境里真正辦事的系統。
一句話概括,OpenClaw 管「誰來找我」「要做什么」「交給哪個 Agent」,Peekaboo 管「屏幕上有什么」「按鈕在哪里」「這一刀該往哪兒落」。
開發工具,潛力巨大
社區里已經有人用 Peekaboo 在瀏覽器里驅動遠程 iOS 模擬器。
![]()
![]()
流程大概是,先讓 Peekaboo 分析一張移動應用截圖,識別出它是 Little Vault 的歡迎頁,頁面上有應用 Logo、標題、關于私人記憶的標語、創建 Vault 的主按鈕、登錄入口,以及右上角的語言選擇器。
隨后注冊這個屏幕,點擊 Create Your Vault,等待界面變化,再截圖,繼續進行探索。
這段演示有意思,因為它展示的并非單純「AI 看懂一張圖」。真正關鍵的是后半段。
看懂之后,它要把屏幕注冊為一個狀態,要選擇目標,要執行點擊,要等待反饋,要根據新截圖繼續走。
這里面每一步都可能出錯,每一步也都可以被記錄下來。
這才是 Agent 從玩具走向工具的分界線。
Peekaboo 把這些動作變得可觀察、可復盤、可繼續。
對 OpenClaw 來說,這等于讓遠程指令和本地執行之間出現了一條可鋪設的軌道。
Peter 忙著更新些什么
這幾天的更新看起來有些工程瑣碎,比如模型目錄、工具 schema、打包產物、版本標記、捕獲路徑、daemon 調度。
![]()
這些詞放進發布公告里不一定吸睛,卻正是 Agent 產品能不能跑起來的地基。
AI 工具最怕一種場景——演示時行云流水,用戶一裝就各種權限、路徑、模型、窗口、截圖、輸入法、延遲問題接連冒頭。
最后用戶也只能得出結論——未來確實來了,就是還沒到自己電腦上。
Peekaboo 的連續更新,在修的就是這類問題。
它要讓 CLI、MCP、桌面應用、遠程 Agent、不同模型之間盡量減小摩擦。
它要讓一次截圖、一次點擊、一次窗口選擇都更接近可預期。
這里沒有神跡,只有大量臟活。臟活做得越多,用戶越少感知到它。
好工具的最高境界往往是沒存在感。按鈕該點就點,窗口該找就找,任務該繼續就繼續。
Peekaboo 現在就在往這個方向補課。
它讓 OpenClaw 從會聊天變成會干活
OpenClaw 過去解決的是連接問題。
人從哪里發消息,消息怎么進來,Agent 怎么處理,結果怎么回去。
Peekaboo 解決的是執行問題。Agent 接到任務以后,能不能看到真實桌面,能不能找到可操作對象,能不能一步步推進。
這兩個問題合在一起,才接近普通人想象中的 AI 助手。
加上 Peekaboo,OpenClaw 才開始像值班的工程師,能登錄機器、看屏幕、查問題、點配置、跑流程,讓人愿意把事托付出去。
這也是 Peekaboo 對 OpenClaw 的真正意義。
它把 OpenClaw 從消息系統往操作系統的邊緣推了一步。
再往前走,OpenClaw 就不只是 AI 的入口,而可能成為 AI 操作個人電腦和個人工作流的本地控制層。
參考資料:
https://peekaboo.sh
https://github.com/openclaw/Peekaboo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.