大家好,我是袋鼠帝。
一直以來,我都覺得,對于 AI Agent 來說,最好的 Skill(技能)就是各種 APP。
APP 們才是被無數產品經理、開發者精心打磨、精密封裝出來的終極 Skills,它們功能強大、運行穩定、極其封閉...
![]()
特別是在國內,大部分 APP 都是不那么 Open 的。
需要身份驗證、有各種加密機制、以及防止爬蟲的無數的反制措施。
所以,你想讓 AI 去自動化操作這些 APP,難度非常高。
當然,少數 APP 提供了 CLI(命令行界面)供外部調用,這也是理論上最適合 Agent 操作的方式。
但是,CLI 需要各家 APP 廠商主動去開發適配,推進極其緩慢。
目前我了解到提供CLI的只有飛書,釘釘等,整個生態的進度很慢。要絲滑打通所有APP,不知道要等到啥時候去了。
不過最近,我發現了一個寶藏開源項目,可以解決這個問題。它叫 Turix CUA。
開源不久,在 GitHub 上已獲得 2.3K Star。
![]()
https://github.com/TurixAI/TuriX-CUA
什么是 CUA?簡單解釋一下,CUA 全稱是 Computer Use Agent,也就是計算機操作智能體。如果說大模型是 AI 的大腦,那 CUA 就是 AI 的手和眼。它可以通過視覺識別屏幕上的內容,然后模擬人類的鼠標點擊和鍵盤輸入去操作電腦。
Turix 有開箱即用的桌面版。
你還可以把它作為一個 Skill,直接接入到龍蝦(OpenClaw)、愛馬仕(Hermes Agent)、Claude Code、Codex 等各種 Agent 里,直接讓它們實現 APP 自由!
![]()
比如,我用它來控制微信,幫我全自動通過積累的好友驗證請求。
甚至,我還能讓它去扮演元寶的男朋友,在微信里自動跟元寶聊天。
并且,它的操作速度還挺快。
大概比正常人熟練操作慢一半,但在目前的 CUA 領域,這已經算是非常迅速了。
一、 安裝使用:
1.給 Agent 安裝
給Agent安裝也不難。
比如可以直接把 Turix 的 GitHub 鏈接丟給Codex,下達指令:
請幫我安裝這個 GitHub 倉庫里的 Agent Skill:
https://github.com/TurixAI/TuriX-CUA
![]()
Codex 很快就幫我把環境拉下來并配置好了。
![]()
這玩意兒安裝好之后,相當于在你的主 Agent 之下,掛載了一個專門負責動手的小跟班(也就是一個 CUA 子智能體)。
所以,你還需要給這個子智能體單獨配置一個帶有強大視覺識別能力的模型 API。
這塊也可以直接大白話丟給你的本地 Agent 幫搞定。
Turix 支持自定義配置模型。比如你可以配置自己常用的 API 中轉站,只需要提供 API Key、模型名稱和 Base URL(API 地址),讓本地 Agent 幫你寫進配置文件即可。
![]()
另外,Turix 官方其實也自研了專門針對 GUI(圖形用戶界面)操作微調或者訓練過的模型,分為 turix-brain 和 turix-actor。官方推薦組合效果最佳。
只需要去 Turix 的官網 API 平臺獲取一個apikey:
https://turixapi.io/console/token
新建一個 API Key,然后把這個 Key 提供給本地 Agent,讓它幫你配置即可(不用再配模型名和 Base URL,因為默認自帶了官方模型的指向)。
![]()
配置好之后,你就可以把那些以前沒法在瀏覽器和純 API 層面完成的臟活累活,下發給這個子智能體了。
我發現注冊之后,賬戶余額里居然自動躺了 100萬 Tokens。還不錯,可以上來先白嫖一波。
![]()
如果你覺得用命令行去操縱 Agent 安裝對你來說有門檻,或者你只想單純體驗一下電腦被自動操控的快感,也有一鍵安裝的 Turix 桌面版。
https://turix.ai/
它長這個樣子。
![]()
桌面版的優點是安裝即用,有優化的圖形界面。Work(辦公)模式和 Chat(聊天)模式結合。
以及桌面版在安全權限上做得更好。在涉及到文件刪除、發送郵件等關鍵步驟時,它都會彈窗向用戶詢問請求,不會一股腦亂動你的電腦。
而且,我實測發現,相比于把 Turix 作為skill接入到其他 Agent 里,直接使用 Turix 的桌面版,執行速度會更快。
所以,下面我錄屏的任務,都是使用 Turix 桌面版來完成的。
當 AI 操縱你的電腦
先讓它找首歌聽聽
我一上來先嘗試了一個相對簡單的娛樂任務。
打開 QQ 音樂,幫我找到 QQ 音樂熱歌榜,播放排名第一的歌曲。
它完成得極其輕松。直接拉起 QQ 音樂,點擊排行,找到熱歌榜,然后點擊了第一首歌的MV播放按鈕。
播放的是一首賈斯汀·比伯早期的經典 MV。說實話,這個12年前的MV確實很新穎,是自拍的形式,那時候的賈斯丁比伯感覺是顏值巔峰。
結果就被這首歌和MV深深感染到,不知不覺把MV都錄完了,感興趣的朋友可以一直看完,挺奇妙的。
好了,我們回歸正題
我準備試一試讓它去操縱國內最封閉的國民 APP:微信。
微信全自動通過好友請求
平時微信里加我的人不少。一般我都是固定時間,手動一個一個去點同意,還是比較費時間的。
這次我決定用 Turix 試試。
用 CUA 操作微信最大的好處是,沒有封號風險。因為它本質上就是在模擬正常人的鼠標點擊和滑動,根本不涉及底層協議的破解或 API 劫持。
Prompt:打開微信,打開微信左側欄的通訊錄,展開新的朋友,這里面有很多等待驗證的朋友,從最上面開始,一個一個點擊它們,前往驗證,權限選擇朋友圈,點擊確定,然后一個一個執行,直到全部通過為止。
看著鼠標自動在屏幕上有條不紊的點擊、驗證通過、返回、再點擊下一個,那種把重復勞動甩給AI的爽感,絕了。
微信指數查詢自動化
平時寫文章,我經常需要去查各種熱詞的微信指數。這也屬于枯燥的重復勞動。
那就讓它幫我看看OpenClaw最近的熱度怎么樣了
Prompt:打開微信,打開「微信指數」小程序,在里面搜OpenClaw,查看目前OpenClaw微信指數熱度
它極其精準的找到了微信指數,打開了微信指數小程序,最終查詢到OpenClaw的微信指數(熱度越來越低了)。整個流程一氣呵成。
有了這個基礎,完全可以每天讓它定時去跑很多個關鍵詞的指數,監控熱點。
賽博男友在線代聊
那能不能讓它直接幫我回消息?
我直接讓它扮演元寶的男朋友,跟元寶去聊聊,看看是怎么個事兒
Prompt:打開微信,搜索元寶,給元寶發消息,扮演她的男朋友跟它閑聊,等他回復,根據他回復的內容,繼續聊天。這樣一來一回,聊5輪結束。輸入消息后回車是發送消息。最終把這段聊天記錄導出到當前工作空間(md格式)。
打字發送的過程極其絲滑。
角色扮演也相當入戲,開口就是:"寶貝,在干嘛呢?想你啦~"
還會根據元寶發來的表情包做出恰當的文字回應。
整個對話進行了好多輪,甜蜜程度爆表
但也暴露出了 Turix 目前的一個問題。
它好像容易聊嗨了。對于我規定的 聊 5 輪結束 這個數字限制不敏感。
兩"人"你一言我一語,對話輪數遠遠超出了 5 輪,最后還是我強行干預才停下來。
希望官方能盡快優化它對數字的約束能力。
發現了 問題 怎么辦?為了方便,我讓它自己給自己提 Bug
也就是讓 Turix 自己去提 Issue(問題報告)!
直接套娃,哈哈
Prompt:幫我給這個開源項目提一個issue:https://github.com/TurixAI/TuriX-CUA,大意是執行CUA任務的時候,對數字不敏感,比如我讓它跟微信好友對話5輪就結束,它會聊嗨掉,最后對話輪數遠遠超出5輪。不是偶現問題,希望盡快優化。用谷歌瀏覽器
絲滑的打開正在使用的瀏覽器,因為已經登錄了我的github賬號,就不用重新登錄了。
然后不是只填原話,而是根據自己的理解和issue的格式,填寫了一條標準的issue信息,并順利提交了~
然后我發現,Turix 在操作瀏覽器時的絲滑程度,簡直就像大學生做小學題一樣。感覺比操作APP更絲滑
順帶提一嘴,前兩天,Codex 桌面版也更新了,同樣支持了操縱本地 APP 的功能。
我也體驗了一下 Codex 的 CUA 能力
坦白說,在基礎的點擊準確率上,兩者效果差不多。
Codex 的操作有時候也會顯得迷惑。
比如我讓它去QQ音樂里播放周杰倫新專輯,它死活敲不出漢字,在那給我整個拼音瞎搜。
![]()
相比之下Turix 的架構明顯更加靈活。因為它是完全開源的,它可以被當成一個底層的能力模塊,接入到任何你喜歡的 Agent 框架里當 Skill 用。
你也可以隨意給它更換更強大的視覺大模型底座,上限很高。
在CUA的執行速度上,Codex桌面版也會比turix桌面版稍慢一些。
但是Codex好的一點是,點擊的時候不會搶鼠標,會生成一個新的鼠標來點擊。而Turix會搶鼠標,希望這塊官方也能盡快優化一下子。
「最后」
從技術的角度來看,讓 Agent 操縱各種 APP,最穩定、最高效的終極方案絕對是底層 API 調用或者 CLI 命令行。
但是,目前必須面對現實。CLI 這項技術雖然古老且成熟,但在國內這種處處建護城河的互聯網大環境下,愿意主動開放系統底層接口的官方 APP 屈指可數。
所以,我認為在未來一段時間內,CUA(計算機視覺操作)還是最具普適性的APP自動化方案。
特別是當CUA再進化一段時間后,操作速度和準確度會更上一層樓。
到那時候,CUA 的工作模式絕對會顛覆傳統 RPA 行業的。
因為使用RPA,你需要程序員去寫復雜的抓取腳本,網頁一旦改版,腳本就得重寫。而且上手門檻也挺高的。。
而 CUA,你只要用大白話下達一次指令,它如果磕磕絆絆地成功執行了一次,能立刻把這套操作流程沉淀成一個經驗 Skill。下次你再讓它干同樣的活,直接調用這個 Skill,就能更快、更穩的完成任務。
這就相當于你花十分鐘教了一個聰明的徒弟,以后這活兒就是他的了。
你怎么看,想要操縱什么APP 干什么事情,歡迎在評論區一起開腦洞交流~
我是袋鼠帝, 一個致力于幫你把 AI 變成生產力的博主. 我們下期見~
能看到這里的都是鳳毛麟角的存在!
如果覺得不錯, 隨手點個贊、在看、轉發三連吧~
如果想第一時間收到推送, 也可以給我個星標?
謝謝你耐心看完我的文章~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.