你的AI助手能寫代碼,卻連按鈕在哪都找不著——這事挺尷尬的。
Domscribe這家公司搞了個新玩法:不給AI看代碼,直接讓它"看"網(wǎng)頁長啥樣。用視覺(計算機(jī)視覺)而不是DOM樹(網(wǎng)頁結(jié)構(gòu)文檔)來理解界面,思路挺野的。
![]()
一圖拆解:AI怎么"看見"網(wǎng)頁
傳統(tǒng)路線:AI讀HTML→解析標(biāo)簽→猜位置。問題很明顯——現(xiàn)代網(wǎng)頁一堆動態(tài)加載、CSS魔法,代碼和實際畫面經(jīng)常對不上號。
Domscribe的路線:截圖→視覺識別→生成結(jié)構(gòu)化描述。像給人看UI設(shè)計稿,而不是塞給他一坨代碼。
這解決了AI Agent(智能代理)的老大難問題:操作瀏覽器時找不著北。比如讓它"點擊設(shè)置里的隱私選項",它可能卡在三層菜單里打轉(zhuǎn)。
為什么現(xiàn)在才有人做?
視覺理解模型(多模態(tài)大模型)去年才夠用。以前截圖給AI,它連"這是按鈕還是圖片"都分不清。
另一個隱藏需求:測試自動化。QA工程師最煩的就是寫選擇器(定位頁面元素的代碼),頁面一改全崩。視覺方案抗折騰多了。
商業(yè)上的小心思
Domscribe沒開源核心模型,賣的是API和托管服務(wù)。這很聰明——大模型能力 commoditize(商品化)太快,但"視覺解析網(wǎng)頁"這個場景封裝有粘性。
競品思路對比:Browserbase、Stagehand這些Agent框架還在死磕DOM+LLM(大語言模型)混合方案。Domscribe押注純視覺,是賭多模態(tài)進(jìn)步速度超過網(wǎng)頁復(fù)雜度增長速度。
有個細(xì)節(jié)很有意思:他們專門處理了陰影、圓角、半透明這些"視覺干擾項"。說明真做過落地,不是demo(演示)選手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.