![]()
這項由北京大學、威斯康星大學麥迪遜分校和MIT-IBM沃森人工智能實驗室聯合開展的研究,以預印本形式發表于2026年5月31日,論文編號為arXiv:2606.01414,感興趣的讀者可通過該編號查閱完整原文。
**一道繞不開的坎:AI助手為什么會"知道該干什么"卻"不知道在哪里干"**
假設你雇了一位新助手,他背熟了所有操作手冊,能夠流利地說出"打開設置菜單,找到無線局域網選項,點擊進入"——但當你把手機遞給他,他盯著屏幕半天,愣是找不到那個按鈕在哪兒。手冊上寫的是"找到那個圖標",可圖標究竟有多大、周圍有沒有其他容易點錯的按鈕、真正可以觸碰的區域是整個圖標還是圖標中心那個小符號,這些全都沒有寫。于是,這位助手讀了再多的說明書,也還是會在實際操作時頻頻出錯。
這個困境,正是當前幾乎所有AI智能體系統都在面臨的真實處境。北京大學等機構的研究團隊將這個問題命名為"文字瓶頸",并提出了一套名為"視覺技能(Visual Skill)"的解決方案,同時開發了一個能自動生成這類視覺技能的系統"AutoVisualSkill"。
**一、背景:AI助手是怎么"學會"做事的**
為了理解這個問題的根源,先退一步看看AI智能體是如何積累經驗的。當前主流的做法,是把AI完成任務的過程記錄下來,提煉成一段文字說明,比如"先點擊右上角的設置圖標,再滾動到第三個選項,然后點擊確認"。這段文字被稱為"技能(Skill)",之后每次遇到類似任務,AI就把這段說明拿出來參考,照著做。
這種做法對于那些天然適合用文字描述的任務效果很好。比如編寫程序代碼、查詢數據庫、做邏輯推理——這些事情本來就是由符號和語言構成的,用文字來記錄和復用經驗完全合理。
然而,當任務變成"在手機屏幕上找到并點擊某個控件"、"數清楚照片里有多少只鳥"、"根據設計稿核對網頁布局是否正確",情況就完全不同了。這些任務的核心知識不在于"做什么",而在于"在哪里看"、"看到什么算對"、"怎么驗證結果"——而這些知識,天然地存在于視覺空間中,用文字描述不僅費力,還容易丟失關鍵信息。
研究團隊把這種情況類比為:把一張詳細的地圖強行翻譯成一段文字描述路線。你可以寫"向北走兩個路口,右轉,再走三百米",但這段話永遠無法完整還原地圖上那些空間關系、地標位置和轉彎時視野里的參照物。壓縮本身,就意味著損失。
**二、兩種典型的失敗模式**
研究團隊在大量實驗中觀察到,"只有文字技能、沒有視覺支撐"的AI助手會陷入兩類典型困境,就像兩種截然不同的迷路方式。
第一種困境叫做"靜態協議模糊"。簡單來說,很多視覺操作依賴于一些約定俗成的空間規則,這些規則在人類界面設計中幾乎處處存在,卻極難用文字說清楚。以點擊按鈕為例:你以為要點的是圖標上那個小符號,但實際上可點擊的區域比符號大得多,包括圖標四周的留白都算在內。文字技能可以說"點擊搜索圖標",但它無法告訴AI那個可以觸碰的區域到底有多大,也無法說明當旁邊有三個緊挨著的小圖標時該如何精確定位。更關鍵的是,即便在文字技能里加上越來越多的補充說明,也只會讓AI的推理負擔越來越重,并不能真正解決空間識別的問題。
第二種困境叫做"動態跟蹤崩潰"。這種問題出現在需要持續記錄"已經處理過哪些"的任務中。數一張照片里有多少朵花,這件事對人來說很自然——你會用手指一朵一朵地點過去,或者在心里給數過的花"打勾"。但AI用文字來記錄這個過程,只能寫"坐標(120, 340)處有一朵,坐標(280, 190)處有一朵……"。當花很密集的時候,這串坐標數字毫無直覺可言,AI很容易重復數同一朵,或者漏掉某個區域,不是因為它不知道規則,而是因為文字本身就不是記錄空間位置狀態的好媒介。
這兩種困境雖然表現不同,但根源一致:文字技能沒有把視覺結構作為可復用的知識保存下來。
**三、視覺技能:給AI助手配上"地圖"和"標記筆"**
為了解決這個問題,研究團隊提出了"視覺技能"這一全新的技能范式。如果說傳統的文字技能是一本操作手冊,那么視覺技能就是在這本手冊的基礎上,同時附上了一套可復用的視覺參考資料——就像給手冊配上了注解圖、區域標注和操作示意圖。
視覺技能由三個部分組合而成。第一部分是"聲明性文字邏輯",也就是原有的文字說明,負責描述任務目標、執行步驟和各種邊界情況,這部分繼續發揮文字在抽象推理方面的優勢。第二部分是"可復用視覺支持",負責保存那些文字難以描述的空間結構和視覺規律。第三部分是"多模態綁定協議",負責規定什么時候應該參考視覺支持、怎么把視覺信息和文字邏輯結合起來用。
在視覺支持這個核心部分,研究團隊又區分出三種不同的形式,對應三種不同類型的任務需求。
第一種叫"靜態先驗",適用于那些在不同任務實例中保持穩定的空間規律。以手機界面為例,不管是哪款應用,圖標的可點擊區域總是比圖標符號本身稍大一圈,這是一條通用的視覺約定。研究團隊為此制作了一張示意圖:圖上用綠點標注了真正的點擊中心,周圍用線框標出了完整的可觸碰范圍,旁邊還展示了密集排列的圖標群和嵌套的容器控件。這張圖不包含任何具體的答案或坐標,只是把這條空間規律視覺化地固定下來,供AI在處理各種不同界面時參照。類似地,在表格中定位某個單元格,需要用橫向行帶和縱向列帶的交叉來確定位置;在柱狀圖中讀取數值,需要從柱子頂端水平投影到縱軸——這些都可以制作成靜態的視覺參考圖,一次制作、反復復用。
第二種叫"動態先驗",適用于需要持續追蹤中間狀態的任務。還是以數花為例:使用動態先驗時,AI每數到一朵花,就在圖片上對應位置標注一個編號綠點,然后把標注了綠點的圖片作為"更新后的工作狀態"傳回給自己看。下一輪處理時,AI看到的不再是一張空白的原圖,而是一張已經標記了哪些位置被數過的圖。這就把原本藏在"隱形記憶"里的計數狀態,變成了一種可見的、可審查的視覺工作記憶。就像你在一張地圖上用筆畫出已經走過的路線,而不是靠腦子死記硬背。這種方法同樣適用于迷宮路徑追蹤、幾何證明中的輔助線繪制、奇異物品搜索中已排查項目的標記等。
第三種叫"交錯視覺技能",適用于那些推理步驟必須緊貼著具體視覺證據來進行的任務。比如講解一個數學證明,每一個推導步驟都應該緊挨著對應的圖示;比如軟件操作文檔,每一步說明都應該配上對應的截圖。這種形式不是一張單獨的參考圖,而是一個"步驟與證據交織"的結構,確保推理語言始終錨定在可見的視覺來源上,不會變成飄在空中的抽象描述。
**四、綁定協議:讓文字和圖像協同工作**
視覺技能的三個部分并不是簡單地堆在一起,它們的協同需要一套明確的調度規則,也就是"多模態綁定協議"。這套協議的工作方式類似一個調度員:在AI執行任務的每一個推理步驟中,調度員判斷這一步是否需要視覺支持,如果需要,再判斷這一步依賴的是穩定的空間約定(調取靜態先驗)、還是需要實時追蹤當前狀態(初始化動態先驗并持續更新)、還是需要緊靠著具體的視覺證據來推理(綁定交錯參考幀)。
這套協議還有一個重要的防混淆機制:它明確規定了靜態參考圖不能被當成任務本身的答案圖來用——那張示意圖是用來理解"規則長什么樣"的,不是用來直接抄坐標的。這個區分對保證視覺技能的通用性至關重要。
**五、AutoVisualSkill:自動把經驗變成可復用的視覺技能**
提出了視覺技能的概念之后,研究團隊還需要解決一個實際問題:這些技能怎么來?總不能每次都靠人工手繪參考圖和編寫說明吧。為此,他們開發了AutoVisualSkill這一自動化系統,專門負責把任務經驗轉化為規范的視覺技能制品。
AutoVisualSkill的工作流程可以理解為一個四步的"經驗提煉工廠"。第一步是解析輸入:系統接收用戶的任務目標和可選的參考材料,這些材料可以是文字、圖片、視頻幀,甚至是網頁鏈接,系統將其統一整理為可處理的格式,同時提取任務約束和候選的視覺規律。
第二步是一個關鍵的"視覺瓶頸診斷門":系統自動判斷這個任務是否需要視覺支持,以及需要哪種類型的支持。判斷標準包括:任務是否需要空間定位、是否涉及幾何結構、是否需要持續跟蹤、是否需要視覺證據支撐推理。同時,系統還會檢查候選的視覺支持是否真的編碼了跨實例通用的規律,而不只是某個具體任務的截圖緩存——這一點直接決定了最終技能的可復用性。
第三步是雙軌并行生成:一條軌道負責撰寫文字邏輯,另一條軌道負責生成視覺資產。視覺資產的來源可以是從輸入材料中提取的區域、從網絡檢索補充的約定圖示、用程序代碼渲染的示意圖,或者通過生成式視覺模型創建的圖像。
第四步是打包成規范的技能制品:每個技能都生成一個包含完整說明的文檔(skill.md)、一個記錄圖像元數據和綁定規則的清單(manifest.json),以及對應的視覺資產圖像文件夾。這個制品可以被AI系統直接加載,也可以被人類查閱和修改,還可以像代碼一樣進行版本管理。
**六、實驗驗證:數字說明了什么**
為了把"文字瓶頸"從一個定性描述變成可以量化的指標,研究團隊設計了一個叫做"文字降解率(TDR)"的測量方法:用視覺技能的性能減去文字技能的性能,得到的差值就代表了"因為只用文字記錄知識而損失的那部分性能"。這個數字越大,說明這個任務越不適合用純文字技能來處理。
研究團隊選擇了兩個典型任務來做受控實驗,每個任務對應一種視覺瓶頸類型。
針對靜態先驗,他們選擇了"GUI定位"任務:給AI看一張手機或電腦界面的截圖,讓它找到特定按鈕并標出點擊位置。實驗在ScreenSpot、ScreenSpot-v2和GroundUI-18K三個標準測試集上進行,使用的AI模型是當時性能很強的Qwen3-VL-32B-Thinking。評估指標包括"點擊落入正確區域的比例"、"預測區域與正確區域的重疊度"以及"預測中心點與正確中心點的距離"。
結果顯示,在不使用任何技能的情況下,三個測試集上的平均點擊準確率分別為87.3%、91.7%和67.0%。加上文字技能后,略有提升,變為90.1%、92.3%和68.6%。而加上視覺技能(含靜態先驗圖)之后,進一步躍升至93.0%、95.1%和71.3%。重疊度(IoU)指標的提升幅度更為顯著:文字技能相比無技能提升了約4個百分點,而視覺技能在文字技能基礎上又額外提升了約5個百分點。這意味著,視覺技能對于那些需要精確定位邊界的指標,帶來的增益比對點擊準確率本身還要大——這正好印證了"界面操作的核心困難在于邊界精度,而不是找到大致位置"這一判斷。綜合三個測試集,文字降解率的歸一化值在17.1%到9.2%之間,說明有接近一到兩成的可挽回性能被純文字技能白白放棄了。
針對動態先驗,他們選擇了"密集物體計數"任務:給AI看一張照片,讓它數出某類物體的數量。實驗在CountBenchQA測試集上進行,使用的AI模型是Gemini-2.5-Pro。評估指標包括"精確命中率"(預測數量與真實數量完全一致的比例)、"平均絕對誤差"和"誤差在1以內的比例"。
這里出現了一個頗為微妙的結果:加上文字技能之后,精確命中率從94.24%下降到了93.00%,平均誤差也從0.1317上升到了0.1612。也就是說,給AI更多的文字指令,反而讓它數得更不準了。研究團隊分析認為,這是因為額外的文字說明引入了更多的推理負擔,卻沒有給空間跟蹤提供任何實質性的幫助。而加上視覺技能(含動態先驗)之后,精確命中率大幅提升到了97.12%,平均誤差驟降到0.0535,降幅約為60%。這個結果在統計上高度顯著(p=0.003),不是偶然現象。歸一化文字降解率高達58.9%(精確準確率維度)、72.2%(誤差1以內準確率維度)和66.8%(平均誤差維度),說明對于計數這類任務,純文字技能放棄了約六到七成的可挽回性能。
**七、視覺技能不是萬能藥:失敗案例同樣值得關注**
研究團隊并沒有只展示成功的案例,他們同樣認真分析了視覺技能失效的情況。
在GUI定位任務中,視覺技能有時會"過度執行"空間約定。比如指令是"播放火星視頻",靜態先驗告訴AI要點擊最小的功能性圖標,于是AI把注意力鎖定在播放按鈕最中心的那個三角符號上,而不是整個播放控件區域,結果IoU得分從無技能的0.93和文字技能的0.56,驟降到了0.06。還有"關閉圖片窗口"這個指令,視覺技能把點擊區域標注得比正確位置偏上,導致精度下降。這類失敗的共同原因是:靜態先驗編碼的空間約定與當前任務的語義意圖產生了沖突——先驗認為"要點小圖標",但有些情況下應該點的是包含這個圖標的整個容器。
在計數任務中,動態先驗會強迫AI明確"什么算一個獨立個體",而這個問題有時候本身就是模糊的。一盞壁燈算一個還是兩個(底座加燈罩)?一套耳機算一個還是兩個(兩個耳罩)?當AI被要求給每個"有效實例"標注一個錨點時,它必須做出明確決策,于是原本被模糊感知"pass"掉的歧義問題就暴露出來了。這類失敗提示未來的改進方向:視覺技能系統需要更好地協調"語義范圍的文字定義"和"空間分割的視覺操作"之間的張力。
**八、視覺技能與少樣本提示:兩種不同的邏輯**
看到這里,很多人可能會有一個自然的疑問:在提示詞里直接給幾張參考圖片,效果不是一樣嗎?研究團隊專門區分了這兩種做法的本質差異。
給AI看幾張參考圖片,這叫"少樣本提示",本質上是"實例級"的:你給的是幾個具體的輸入-輸出配對案例,AI從中模仿局部模式。這種方法每次用完就丟,不會留下任何可以持續復用的東西,也沒有辦法被版本管理或跨任務共享。
而視覺技能是"協議級"的:它不包含任何具體任務的答案,只編碼了跨任務實例共享的空間規律和操作約定。它可以被存儲、檢索、修改和復用,就像一份專業技能證書,而不是一次性的做題參考。這個區別對于需要長期積累能力的AI智能體系統來說至關重要。
**九、什么時候該用視覺技能,什么時候不該用**
研究團隊還明確劃定了視覺技能的適用邊界,避免"為了用而用"。
對于純符號性的任務,比如代數運算、SQL語句生成、代碼合成,可復用的知識天然就是離散的、程序化的、語言性的,沒有必要強加視覺支持。對于無結構的開放式視覺感知,比如對自然場景的自由問答,強加一套剛性的空間圖式反而可能約束AI的視覺推理。
視覺技能應當被調用的信號是:任務的瓶頸在于空間結構或感知追蹤——也就是說,當可復用的知識里有內在的視覺結構,而且這種結構確實難以用文字準確表達時,才值得配備視覺技能。
此外,研究團隊還總結了有效視覺先驗的三條設計原則。第一,視覺先驗應當是抽象的、跨實例通用的,而不是某個具體任務的截圖或答案圖。第二,視覺先驗中應當包含那些確實難以線性文字化的東西,比如形狀、位置、邊界和空間流程;如果一張圖只是把文字說明換了個字體展示出來,那它提供的價值并不比文字本身更多。第三,文字里已經說清楚的信息就留在文字里,視覺先驗只應當承擔那些文字確實難以表達的空間結構。
**說到底,這項研究在告訴我們什么**
歸根結底,這項工作揭示的是一個長期被忽視的不對稱性:多模態AI系統可以"看見"圖像,但它們"記住"經驗的方式,卻一直停留在純文字的層面。這個不對稱性,就像一位在照片里看過無數次某地風景的導游,卻從來沒有擁有過一張地圖——他知道那個地方很美,知道有個湖,有棵大樹,但當你真的問他"從停車場走到湖邊要怎么走",他只能一臉茫然。
研究團隊用嚴格的實驗數據證明,這個不對稱性不只是理論上的缺陷,而是有真實、可量化的性能損失。對于手機和電腦界面操作這類任務,文字技能放棄了大約一成的可挽回性能;對于密集物體計數這類任務,這個數字更是高達六到七成。
更有意思的是,簡單地給AI更多的文字指令,不僅不能彌補這個損失,有時反而會幫倒忙——就像在手冊里堆砌越來越多的文字描述,卻沒有一張配圖,只會讓讀手冊的人越來越困惑。
更強的AI模型未來可能會縮小這個差距,但研究團隊認為,這不會從根本上消除視覺結構作為可復用知識的價值。當知識本身是空間性的,最好的保存方式就是空間性的,這不是模型能力強弱的問題,而是信息存儲形式與信息本質的匹配問題。這項研究真正傳遞的核心思路是:AI智能體的技能庫不應該只有文字,而應該是真正意義上的多模態資產。
有興趣深入了解的讀者,可以通過arXiv編號2606.01414查閱完整原文,或訪問論文配套的GitHub項目(Little-Fridge/AutoVisualSkill)體驗AutoVisualSkill系統的實際效果。
Q&A
Q1:視覺技能和直接給AI看幾張參考圖片有什么區別?
A:視覺技能是"協議級"的,它編碼的是跨任務通用的空間規律,不包含任何具體答案,可以持續復用、版本管理和跨任務共享。而給AI看幾張參考圖片是"實例級"的少樣本提示,只是提供具體的輸入輸出配對案例,每次用完即棄,本質上是臨時性的上下文,并不能沉淀成可復用的技能資產。
Q2:AutoVisualSkill生成的視覺技能是不是只對特定AI模型有效?
A:并不是。研究團隊在實驗中有意選擇了兩個不同的強基礎模型(Qwen3-VL-32B-Thinking用于界面操作,Gemini-2.5-Pro用于計數),目的就是驗證視覺技能在不同模型上是否都有效。結果表明,無論基礎模型本身有多強,加上視覺技能后都能進一步提升,說明視覺技能的價值不依賴于特定模型架構。
Q3:動態先驗是怎么讓AI數數變得更準確的?
A:動態先驗的核心機制是"把中間狀態寫回圖像"。AI每數到一個目標,就在圖像上標記一個編號錨點,然后把標記了錨點的圖像傳回給自己看,以此作為下一步的輸入。這樣一來,"已經數過哪些"就不再是需要靠AI內部記憶維持的隱藏狀態,而變成了圖像上可見的標記,AI可以直接"看見"已經處理過的區域,大幅減少重復計數和遺漏的概率。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.