![]()
最近,Anthropic對旗下Claude Cowork與Claude Code桌面端進行更新,推出桌面操控功能Computer Use,被外界譽為是另一版“龍蝦”。
據官方介紹,該功能核心是讓AI直接操控電腦,表示“任何你坐在電腦前可以做的事情,Claude都能使用電腦幫你完成”,可模擬鼠標、鍵盤操作,完成打開文件、使用瀏覽器等任務。
目前它處于研究預覽階段,僅向訂閱用戶開放,暫為macOS獨占,Windows和Linux版本將后續推出。
一些體驗過Claude版龍蝦的用戶斷言,這款產品“絕殺了OpenClaw”。但筆者體驗和了解后發現,Claude版龍蝦的技術路線并非獨創。
為何先行者們“生不逢時”?因為技術難題可以破解,但公司利益和現實風險卻難以逾越。
Claude的“小龍蝦”
我們向剛了解這個領域的讀者再介紹下Claude,其母公司為Anthropic,是一家專注于大語言模型研發的科技企業。
作為Anthropic的核心產品,Claude在全球主流大模型榜單中表現突出。筆者在《國外大模型更好用?我們做了一下專門研究》中提到過claude opus 4.6霸榜第一,明顯領先于國內一流模型;在專門衡量AI智能體任務能力的PinchBench榜單中,Claude Opus 4.6以82.5%的任務成功率蟬聯第一。
憑借在代碼開發、復雜推理領域的優勢,國內字節跳動、騰訊等大廠均將Claude用于內部輔助研發,技術實力獲得行業廣泛認可。
而Claude推出的Computer Use,明顯對標開源社區的OpenClaw(俗稱“小龍蝦”),二者核心定位均為AI自主操控設備,但基于雙方官方框架的原生能力差異明顯:
![]()
可以看到,Claude Computer Use作為一個閉源付費產品,易用性、安全性、功能上明顯更強。
專門的絕活
但最值得關注的,是Claude這款桌面工具采用的視覺操控技術路線——這也是它能真正打破應用壁壘的關鍵。
OpenClaw等智能體之所以能進行操作,傳統方式大多是依賴應用提供的API接口,相當于軟件廠商主動“開門”,讓AI能直接對接內部功能。
但Claude的Computer Use走了另一條路:它像人一樣“看”屏幕,通過實時截圖、OCR識別和視覺解析,看懂屏幕上的按鈕、文本和界面布局,再模擬鼠標點擊、鍵盤輸入等動作,完成操作,形成“觀察-決策-執行-反饋”的完整循環。
這正是典型的OODA循環邏輯,也是它能高效完成任務的核心。
這種視覺操控的最大優勢,就是能適配那些不提供API接口的軟件。
我們日常使用的很多軟件,尤其是一些小眾工具、專業軟件,廠商往往出于安全、利益考慮不愿開放接口的應用,AI靠傳統的API方式根本無法操控。
而Claude的視覺操控,不需要軟件廠商配合,只要能在屏幕上顯示,AI就能識別并操作,相當于繞開了“開門”的限制,自己找到“窗戶”,真正實現了跨應用、全場景的自動化。比如一些沒有開放接口的專業設計軟件、小眾辦公工具,它都能輕松上手,這也是它相比傳統AI工具的核心突破。
了解了這些細節后,我們就可以清晰梳理出當前AI智能體操控其他工具的兩種核心方式:一種是API調用,相當于軟件廠商主動開放接口,AI通過接口“精準對接”,高效且穩定,就像汽車自動駕駛的激光雷達方案,靠精準的傳感器獲取信息;另一種就是視覺操控,AI通過“看”屏幕來識別和操作,無需廠商配合,通用性極強,類似自動駕駛的視覺方案,靠攝像頭捕捉環境信息,自主判斷路徑。
這兩種方式,其實沒有絕對的優劣之分,技術上也都有成熟的路徑可走——如今的AI視覺識別能力、動作模擬精度,已經能滿足大部分日常場景的需求,只要持續優化,技術層面的瓶頸不難突破。
真正的壁壘
其實,這種“視覺識別+模擬操作”的技術路線,并不是Claude首創——早在去年年底,一度火爆全網的豆包手機助手,就已經采用了幾乎完全相同的思路。
當時,豆包手機助手一經推出就引發轟動,它能通過視覺識別手機屏幕,模擬人手觸摸、點擊,實現跨APP自動化操作,比如一句話完成“請假+訂高鐵+訂酒店”的連貫任務,一度讓人們看到了AI助手的未來形態。
可惜的是,豆包手機助手終究生不逢時,沒能持續火下去,很快就因廠商間的壁壘問題迅速走下神壇。
它的困境,本質上是技術理想與商業現實的碰撞:一方面,它需要獲取手機系統級的高危權限,才能實現模擬觸摸操作,這被微信、支付寶等超級APP判定為“安全風險”,紛紛采取風控措施,導致賬號異常、功能禁用;另一方面,各大手機廠商有自己的AI助手,不愿開放系統權限,而淘寶、美團等APP則擔心它跳過廣告、推薦環節,沖擊自身的流量變現模式,紛紛“拉黑”它。
更關鍵的是,AI操作的責任界定模糊,一旦出現誤操作導致用戶損失,責任難以劃分,這也讓很多廠商選擇直接禁用相關功能。
最終,這款本該改變手機交互方式的工具,只能無奈收縮功能,逐漸淡出大眾視野。
但真正難以逾越的,從來不是技術這座高山,而是各個廠商之間的利益與風險壁壘。
就像豆包手機助手,不是技術不夠先進,而是觸動了手機廠商、應用廠商的既得利益:手機廠商不愿放棄系統入口的控制權,應用廠商不愿失去流量和變現渠道,大家都在維護自己的“圍墻花園”,不愿為了技術創新而讓步。
事實上,Claude的桌面工具目前只支持macOS,未來要拓展到Windows、Linux,同樣會面臨各類權限、生態兼容的問題;而OpenClaw作為開源項目,雖然靈活,但也會受到廠商的權限限制,難以實現全場景無障礙使用。
說到底,AI智能體要真正走進我們的日常,實現“一句話讓AI替我們干活”的愿景,技術的進步只是基礎,更重要的是打破廠商間的利益壁壘,建立起兼顧安全、利益與創新的行業規則。否則,再先進的技術,也只能被困在“圍墻”之內,難以發揮真正的價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.