網易首頁 > 網易號 > 正文申請入駐

同為視覺操控，Claude版龍蝦火爆，豆包手機卻生不逢時?

2026-03-25 19:18:35　來源: 科技浮世繪

北京舉報

分享至

最近，Anthropic對旗下Claude Cowork與Claude Code桌面端進行更新，推出桌面操控功能Computer Use，被外界譽為是另一版“龍蝦”。

據官方介紹，該功能核心是讓AI直接操控電腦，表示“任何你坐在電腦前可以做的事情，Claude都能使用電腦幫你完成”，可模擬鼠標、鍵盤操作，完成打開文件、使用瀏覽器等任務。

目前它處于研究預覽階段，僅向訂閱用戶開放，暫為macOS獨占，Windows和Linux版本將后續推出。

一些體驗過Claude版龍蝦的用戶斷言，這款產品“絕殺了OpenClaw”。但筆者體驗和了解后發現，Claude版龍蝦的技術路線并非獨創。

為何先行者們“生不逢時”？因為技術難題可以破解，但公司利益和現實風險卻難以逾越。

Claude的“小龍蝦”

我們向剛了解這個領域的讀者再介紹下Claude，其母公司為Anthropic，是一家專注于大語言模型研發的科技企業。

作為Anthropic的核心產品，Claude在全球主流大模型榜單中表現突出。筆者在《國外大模型更好用？我們做了一下專門研究》中提到過claude opus 4.6霸榜第一，明顯領先于國內一流模型；在專門衡量AI智能體任務能力的PinchBench榜單中，Claude Opus 4.6以82.5%的任務成功率蟬聯第一。

憑借在代碼開發、復雜推理領域的優勢，國內字節跳動、騰訊等大廠均將Claude用于內部輔助研發，技術實力獲得行業廣泛認可。

而Claude推出的Computer Use，明顯對標開源社區的OpenClaw（俗稱“小龍蝦”），二者核心定位均為AI自主操控設備，但基于雙方官方框架的原生能力差異明顯：

可以看到，Claude Computer Use作為一個閉源付費產品，易用性、安全性、功能上明顯更強。

專門的絕活

但最值得關注的，是Claude這款桌面工具采用的視覺操控技術路線——這也是它能真正打破應用壁壘的關鍵。

OpenClaw等智能體之所以能進行操作，傳統方式大多是依賴應用提供的API接口，相當于軟件廠商主動“開門”，讓AI能直接對接內部功能。

但Claude的Computer Use走了另一條路：它像人一樣“看”屏幕，通過實時截圖、OCR識別和視覺解析，看懂屏幕上的按鈕、文本和界面布局，再模擬鼠標點擊、鍵盤輸入等動作，完成操作，形成“觀察-決策-執行-反饋”的完整循環。

這正是典型的OODA循環邏輯，也是它能高效完成任務的核心。

這種視覺操控的最大優勢，就是能適配那些不提供API接口的軟件。

我們日常使用的很多軟件，尤其是一些小眾工具、專業軟件，廠商往往出于安全、利益考慮不愿開放接口的應用，AI靠傳統的API方式根本無法操控。

而Claude的視覺操控，不需要軟件廠商配合，只要能在屏幕上顯示，AI就能識別并操作，相當于繞開了“開門”的限制，自己找到“窗戶”，真正實現了跨應用、全場景的自動化。比如一些沒有開放接口的專業設計軟件、小眾辦公工具，它都能輕松上手，這也是它相比傳統AI工具的核心突破。

了解了這些細節后，我們就可以清晰梳理出當前AI智能體操控其他工具的兩種核心方式：一種是API調用，相當于軟件廠商主動開放接口，AI通過接口“精準對接”，高效且穩定，就像汽車自動駕駛的激光雷達方案，靠精準的傳感器獲取信息；另一種就是視覺操控，AI通過“看”屏幕來識別和操作，無需廠商配合，通用性極強，類似自動駕駛的視覺方案，靠攝像頭捕捉環境信息，自主判斷路徑。

這兩種方式，其實沒有絕對的優劣之分，技術上也都有成熟的路徑可走——如今的AI視覺識別能力、動作模擬精度，已經能滿足大部分日常場景的需求，只要持續優化，技術層面的瓶頸不難突破。

真正的壁壘

其實，這種“視覺識別+模擬操作”的技術路線，并不是Claude首創——早在去年年底，一度火爆全網的豆包手機助手，就已經采用了幾乎完全相同的思路。

當時，豆包手機助手一經推出就引發轟動，它能通過視覺識別手機屏幕，模擬人手觸摸、點擊，實現跨APP自動化操作，比如一句話完成“請假+訂高鐵+訂酒店”的連貫任務，一度讓人們看到了AI助手的未來形態。

可惜的是，豆包手機助手終究生不逢時，沒能持續火下去，很快就因廠商間的壁壘問題迅速走下神壇。

它的困境，本質上是技術理想與商業現實的碰撞：一方面，它需要獲取手機系統級的高危權限，才能實現模擬觸摸操作，這被微信、支付寶等超級APP判定為“安全風險”，紛紛采取風控措施，導致賬號異常、功能禁用；另一方面，各大手機廠商有自己的AI助手，不愿開放系統權限，而淘寶、美團等APP則擔心它跳過廣告、推薦環節，沖擊自身的流量變現模式，紛紛“拉黑”它。

更關鍵的是，AI操作的責任界定模糊，一旦出現誤操作導致用戶損失，責任難以劃分，這也讓很多廠商選擇直接禁用相關功能。

最終，這款本該改變手機交互方式的工具，只能無奈收縮功能，逐漸淡出大眾視野。

但真正難以逾越的，從來不是技術這座高山，而是各個廠商之間的利益與風險壁壘。

就像豆包手機助手，不是技術不夠先進，而是觸動了手機廠商、應用廠商的既得利益：手機廠商不愿放棄系統入口的控制權，應用廠商不愿失去流量和變現渠道，大家都在維護自己的“圍墻花園”，不愿為了技術創新而讓步。

事實上，Claude的桌面工具目前只支持macOS，未來要拓展到Windows、Linux，同樣會面臨各類權限、生態兼容的問題；而OpenClaw作為開源項目，雖然靈活，但也會受到廠商的權限限制，難以實現全場景無障礙使用。

說到底，AI智能體要真正走進我們的日常，實現“一句話讓AI替我們干活”的愿景，技術的進步只是基礎，更重要的是打破廠商間的利益壁壘，建立起兼顧安全、利益與創新的行業規則。否則，再先進的技術，也只能被困在“圍墻”之內，難以發揮真正的價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.