網易首頁 > 網易號 > 正文申請入駐

當AI助手"只會背課文"：北大等機構揭示視覺智能體的致命盲區

2026-06-08 16:59:14　來源: 科技行者

北京舉報

分享至

這項由北京大學、威斯康星大學麥迪遜分校和MIT-IBM沃森人工智能實驗室聯合開展的研究，以預印本形式發表于2026年5月31日，論文編號為arXiv:2606.01414，感興趣的讀者可通過該編號查閱完整原文。

**一道繞不開的坎：AI助手為什么會"知道該干什么"卻"不知道在哪里干"**

假設你雇了一位新助手，他背熟了所有操作手冊，能夠流利地說出"打開設置菜單，找到無線局域網選項，點擊進入"——但當你把手機遞給他，他盯著屏幕半天，愣是找不到那個按鈕在哪兒。手冊上寫的是"找到那個圖標"，可圖標究竟有多大、周圍有沒有其他容易點錯的按鈕、真正可以觸碰的區域是整個圖標還是圖標中心那個小符號，這些全都沒有寫。于是，這位助手讀了再多的說明書，也還是會在實際操作時頻頻出錯。

這個困境，正是當前幾乎所有AI智能體系統都在面臨的真實處境。北京大學等機構的研究團隊將這個問題命名為"文字瓶頸"，并提出了一套名為"視覺技能（Visual Skill）"的解決方案，同時開發了一個能自動生成這類視覺技能的系統"AutoVisualSkill"。

**一、背景：AI助手是怎么"學會"做事的**

為了理解這個問題的根源，先退一步看看AI智能體是如何積累經驗的。當前主流的做法，是把AI完成任務的過程記錄下來，提煉成一段文字說明，比如"先點擊右上角的設置圖標，再滾動到第三個選項，然后點擊確認"。這段文字被稱為"技能（Skill）"，之后每次遇到類似任務，AI就把這段說明拿出來參考，照著做。

這種做法對于那些天然適合用文字描述的任務效果很好。比如編寫程序代碼、查詢數據庫、做邏輯推理——這些事情本來就是由符號和語言構成的，用文字來記錄和復用經驗完全合理。

然而，當任務變成"在手機屏幕上找到并點擊某個控件"、"數清楚照片里有多少只鳥"、"根據設計稿核對網頁布局是否正確"，情況就完全不同了。這些任務的核心知識不在于"做什么"，而在于"在哪里看"、"看到什么算對"、"怎么驗證結果"——而這些知識，天然地存在于視覺空間中，用文字描述不僅費力，還容易丟失關鍵信息。

研究團隊把這種情況類比為：把一張詳細的地圖強行翻譯成一段文字描述路線。你可以寫"向北走兩個路口，右轉，再走三百米"，但這段話永遠無法完整還原地圖上那些空間關系、地標位置和轉彎時視野里的參照物。壓縮本身，就意味著損失。

**二、兩種典型的失敗模式**

研究團隊在大量實驗中觀察到，"只有文字技能、沒有視覺支撐"的AI助手會陷入兩類典型困境，就像兩種截然不同的迷路方式。

第一種困境叫做"靜態協議模糊"。簡單來說，很多視覺操作依賴于一些約定俗成的空間規則，這些規則在人類界面設計中幾乎處處存在，卻極難用文字說清楚。以點擊按鈕為例：你以為要點的是圖標上那個小符號，但實際上可點擊的區域比符號大得多，包括圖標四周的留白都算在內。文字技能可以說"點擊搜索圖標"，但它無法告訴AI那個可以觸碰的區域到底有多大，也無法說明當旁邊有三個緊挨著的小圖標時該如何精確定位。更關鍵的是，即便在文字技能里加上越來越多的補充說明，也只會讓AI的推理負擔越來越重，并不能真正解決空間識別的問題。

第二種困境叫做"動態跟蹤崩潰"。這種問題出現在需要持續記錄"已經處理過哪些"的任務中。數一張照片里有多少朵花，這件事對人來說很自然——你會用手指一朵一朵地點過去，或者在心里給數過的花"打勾"。但AI用文字來記錄這個過程，只能寫"坐標(120, 340)處有一朵，坐標(280, 190)處有一朵……"。當花很密集的時候，這串坐標數字毫無直覺可言，AI很容易重復數同一朵，或者漏掉某個區域，不是因為它不知道規則，而是因為文字本身就不是記錄空間位置狀態的好媒介。

這兩種困境雖然表現不同，但根源一致：文字技能沒有把視覺結構作為可復用的知識保存下來。

**三、視覺技能：給AI助手配上"地圖"和"標記筆"**

為了解決這個問題，研究團隊提出了"視覺技能"這一全新的技能范式。如果說傳統的文字技能是一本操作手冊，那么視覺技能就是在這本手冊的基礎上，同時附上了一套可復用的視覺參考資料——就像給手冊配上了注解圖、區域標注和操作示意圖。

視覺技能由三個部分組合而成。第一部分是"聲明性文字邏輯"，也就是原有的文字說明，負責描述任務目標、執行步驟和各種邊界情況，這部分繼續發揮文字在抽象推理方面的優勢。第二部分是"可復用視覺支持"，負責保存那些文字難以描述的空間結構和視覺規律。第三部分是"多模態綁定協議"，負責規定什么時候應該參考視覺支持、怎么把視覺信息和文字邏輯結合起來用。

在視覺支持這個核心部分，研究團隊又區分出三種不同的形式，對應三種不同類型的任務需求。

第一種叫"靜態先驗"，適用于那些在不同任務實例中保持穩定的空間規律。以手機界面為例，不管是哪款應用，圖標的可點擊區域總是比圖標符號本身稍大一圈，這是一條通用的視覺約定。研究團隊為此制作了一張示意圖：圖上用綠點標注了真正的點擊中心，周圍用線框標出了完整的可觸碰范圍，旁邊還展示了密集排列的圖標群和嵌套的容器控件。這張圖不包含任何具體的答案或坐標，只是把這條空間規律視覺化地固定下來，供AI在處理各種不同界面時參照。類似地，在表格中定位某個單元格，需要用橫向行帶和縱向列帶的交叉來確定位置；在柱狀圖中讀取數值，需要從柱子頂端水平投影到縱軸——這些都可以制作成靜態的視覺參考圖，一次制作、反復復用。

第二種叫"動態先驗"，適用于需要持續追蹤中間狀態的任務。還是以數花為例：使用動態先驗時，AI每數到一朵花，就在圖片上對應位置標注一個編號綠點，然后把標注了綠點的圖片作為"更新后的工作狀態"傳回給自己看。下一輪處理時，AI看到的不再是一張空白的原圖，而是一張已經標記了哪些位置被數過的圖。這就把原本藏在"隱形記憶"里的計數狀態，變成了一種可見的、可審查的視覺工作記憶。就像你在一張地圖上用筆畫出已經走過的路線，而不是靠腦子死記硬背。這種方法同樣適用于迷宮路徑追蹤、幾何證明中的輔助線繪制、奇異物品搜索中已排查項目的標記等。

第三種叫"交錯視覺技能"，適用于那些推理步驟必須緊貼著具體視覺證據來進行的任務。比如講解一個數學證明，每一個推導步驟都應該緊挨著對應的圖示；比如軟件操作文檔，每一步說明都應該配上對應的截圖。這種形式不是一張單獨的參考圖，而是一個"步驟與證據交織"的結構，確保推理語言始終錨定在可見的視覺來源上，不會變成飄在空中的抽象描述。

**四、綁定協議：讓文字和圖像協同工作**

視覺技能的三個部分并不是簡單地堆在一起，它們的協同需要一套明確的調度規則，也就是"多模態綁定協議"。這套協議的工作方式類似一個調度員：在AI執行任務的每一個推理步驟中，調度員判斷這一步是否需要視覺支持，如果需要，再判斷這一步依賴的是穩定的空間約定（調取靜態先驗）、還是需要實時追蹤當前狀態（初始化動態先驗并持續更新）、還是需要緊靠著具體的視覺證據來推理（綁定交錯參考幀）。

這套協議還有一個重要的防混淆機制：它明確規定了靜態參考圖不能被當成任務本身的答案圖來用——那張示意圖是用來理解"規則長什么樣"的，不是用來直接抄坐標的。這個區分對保證視覺技能的通用性至關重要。

**五、AutoVisualSkill：自動把經驗變成可復用的視覺技能**

提出了視覺技能的概念之后，研究團隊還需要解決一個實際問題：這些技能怎么來？總不能每次都靠人工手繪參考圖和編寫說明吧。為此，他們開發了AutoVisualSkill這一自動化系統，專門負責把任務經驗轉化為規范的視覺技能制品。

AutoVisualSkill的工作流程可以理解為一個四步的"經驗提煉工廠"。第一步是解析輸入：系統接收用戶的任務目標和可選的參考材料，這些材料可以是文字、圖片、視頻幀，甚至是網頁鏈接，系統將其統一整理為可處理的格式，同時提取任務約束和候選的視覺規律。

第二步是一個關鍵的"視覺瓶頸診斷門"：系統自動判斷這個任務是否需要視覺支持，以及需要哪種類型的支持。判斷標準包括：任務是否需要空間定位、是否涉及幾何結構、是否需要持續跟蹤、是否需要視覺證據支撐推理。同時，系統還會檢查候選的視覺支持是否真的編碼了跨實例通用的規律，而不只是某個具體任務的截圖緩存——這一點直接決定了最終技能的可復用性。

第三步是雙軌并行生成：一條軌道負責撰寫文字邏輯，另一條軌道負責生成視覺資產。視覺資產的來源可以是從輸入材料中提取的區域、從網絡檢索補充的約定圖示、用程序代碼渲染的示意圖，或者通過生成式視覺模型創建的圖像。

第四步是打包成規范的技能制品：每個技能都生成一個包含完整說明的文檔（skill.md）、一個記錄圖像元數據和綁定規則的清單（manifest.json），以及對應的視覺資產圖像文件夾。這個制品可以被AI系統直接加載，也可以被人類查閱和修改，還可以像代碼一樣進行版本管理。

**六、實驗驗證：數字說明了什么**

為了把"文字瓶頸"從一個定性描述變成可以量化的指標，研究團隊設計了一個叫做"文字降解率（TDR）"的測量方法：用視覺技能的性能減去文字技能的性能，得到的差值就代表了"因為只用文字記錄知識而損失的那部分性能"。這個數字越大，說明這個任務越不適合用純文字技能來處理。

研究團隊選擇了兩個典型任務來做受控實驗，每個任務對應一種視覺瓶頸類型。

針對靜態先驗，他們選擇了"GUI定位"任務：給AI看一張手機或電腦界面的截圖，讓它找到特定按鈕并標出點擊位置。實驗在ScreenSpot、ScreenSpot-v2和GroundUI-18K三個標準測試集上進行，使用的AI模型是當時性能很強的Qwen3-VL-32B-Thinking。評估指標包括"點擊落入正確區域的比例"、"預測區域與正確區域的重疊度"以及"預測中心點與正確中心點的距離"。

結果顯示，在不使用任何技能的情況下，三個測試集上的平均點擊準確率分別為87.3%、91.7%和67.0%。加上文字技能后，略有提升，變為90.1%、92.3%和68.6%。而加上視覺技能（含靜態先驗圖）之后，進一步躍升至93.0%、95.1%和71.3%。重疊度（IoU）指標的提升幅度更為顯著：文字技能相比無技能提升了約4個百分點，而視覺技能在文字技能基礎上又額外提升了約5個百分點。這意味著，視覺技能對于那些需要精確定位邊界的指標，帶來的增益比對點擊準確率本身還要大——這正好印證了"界面操作的核心困難在于邊界精度，而不是找到大致位置"這一判斷。綜合三個測試集，文字降解率的歸一化值在17.1%到9.2%之間，說明有接近一到兩成的可挽回性能被純文字技能白白放棄了。

針對動態先驗，他們選擇了"密集物體計數"任務：給AI看一張照片，讓它數出某類物體的數量。實驗在CountBenchQA測試集上進行，使用的AI模型是Gemini-2.5-Pro。評估指標包括"精確命中率"（預測數量與真實數量完全一致的比例）、"平均絕對誤差"和"誤差在1以內的比例"。

這里出現了一個頗為微妙的結果：加上文字技能之后，精確命中率從94.24%下降到了93.00%，平均誤差也從0.1317上升到了0.1612。也就是說，給AI更多的文字指令，反而讓它數得更不準了。研究團隊分析認為，這是因為額外的文字說明引入了更多的推理負擔，卻沒有給空間跟蹤提供任何實質性的幫助。而加上視覺技能（含動態先驗）之后，精確命中率大幅提升到了97.12%，平均誤差驟降到0.0535，降幅約為60%。這個結果在統計上高度顯著（p=0.003），不是偶然現象。歸一化文字降解率高達58.9%（精確準確率維度）、72.2%（誤差1以內準確率維度）和66.8%（平均誤差維度），說明對于計數這類任務，純文字技能放棄了約六到七成的可挽回性能。

**七、視覺技能不是萬能藥：失敗案例同樣值得關注**

研究團隊并沒有只展示成功的案例，他們同樣認真分析了視覺技能失效的情況。

在GUI定位任務中，視覺技能有時會"過度執行"空間約定。比如指令是"播放火星視頻"，靜態先驗告訴AI要點擊最小的功能性圖標，于是AI把注意力鎖定在播放按鈕最中心的那個三角符號上，而不是整個播放控件區域，結果IoU得分從無技能的0.93和文字技能的0.56，驟降到了0.06。還有"關閉圖片窗口"這個指令，視覺技能把點擊區域標注得比正確位置偏上，導致精度下降。這類失敗的共同原因是：靜態先驗編碼的空間約定與當前任務的語義意圖產生了沖突——先驗認為"要點小圖標"，但有些情況下應該點的是包含這個圖標的整個容器。

在計數任務中，動態先驗會強迫AI明確"什么算一個獨立個體"，而這個問題有時候本身就是模糊的。一盞壁燈算一個還是兩個（底座加燈罩）？一套耳機算一個還是兩個（兩個耳罩）？當AI被要求給每個"有效實例"標注一個錨點時，它必須做出明確決策，于是原本被模糊感知"pass"掉的歧義問題就暴露出來了。這類失敗提示未來的改進方向：視覺技能系統需要更好地協調"語義范圍的文字定義"和"空間分割的視覺操作"之間的張力。

**八、視覺技能與少樣本提示：兩種不同的邏輯**

看到這里，很多人可能會有一個自然的疑問：在提示詞里直接給幾張參考圖片，效果不是一樣嗎？研究團隊專門區分了這兩種做法的本質差異。

給AI看幾張參考圖片，這叫"少樣本提示"，本質上是"實例級"的：你給的是幾個具體的輸入-輸出配對案例，AI從中模仿局部模式。這種方法每次用完就丟，不會留下任何可以持續復用的東西，也沒有辦法被版本管理或跨任務共享。

而視覺技能是"協議級"的：它不包含任何具體任務的答案，只編碼了跨任務實例共享的空間規律和操作約定。它可以被存儲、檢索、修改和復用，就像一份專業技能證書，而不是一次性的做題參考。這個區別對于需要長期積累能力的AI智能體系統來說至關重要。

**九、什么時候該用視覺技能，什么時候不該用**

研究團隊還明確劃定了視覺技能的適用邊界，避免"為了用而用"。

對于純符號性的任務，比如代數運算、SQL語句生成、代碼合成，可復用的知識天然就是離散的、程序化的、語言性的，沒有必要強加視覺支持。對于無結構的開放式視覺感知，比如對自然場景的自由問答，強加一套剛性的空間圖式反而可能約束AI的視覺推理。

視覺技能應當被調用的信號是：任務的瓶頸在于空間結構或感知追蹤——也就是說，當可復用的知識里有內在的視覺結構，而且這種結構確實難以用文字準確表達時，才值得配備視覺技能。

此外，研究團隊還總結了有效視覺先驗的三條設計原則。第一，視覺先驗應當是抽象的、跨實例通用的，而不是某個具體任務的截圖或答案圖。第二，視覺先驗中應當包含那些確實難以線性文字化的東西，比如形狀、位置、邊界和空間流程；如果一張圖只是把文字說明換了個字體展示出來，那它提供的價值并不比文字本身更多。第三，文字里已經說清楚的信息就留在文字里，視覺先驗只應當承擔那些文字確實難以表達的空間結構。

**說到底，這項研究在告訴我們什么**

歸根結底，這項工作揭示的是一個長期被忽視的不對稱性：多模態AI系統可以"看見"圖像，但它們"記住"經驗的方式，卻一直停留在純文字的層面。這個不對稱性，就像一位在照片里看過無數次某地風景的導游，卻從來沒有擁有過一張地圖——他知道那個地方很美，知道有個湖，有棵大樹，但當你真的問他"從停車場走到湖邊要怎么走"，他只能一臉茫然。

研究團隊用嚴格的實驗數據證明，這個不對稱性不只是理論上的缺陷，而是有真實、可量化的性能損失。對于手機和電腦界面操作這類任務，文字技能放棄了大約一成的可挽回性能；對于密集物體計數這類任務，這個數字更是高達六到七成。

更有意思的是，簡單地給AI更多的文字指令，不僅不能彌補這個損失，有時反而會幫倒忙——就像在手冊里堆砌越來越多的文字描述，卻沒有一張配圖，只會讓讀手冊的人越來越困惑。

更強的AI模型未來可能會縮小這個差距，但研究團隊認為，這不會從根本上消除視覺結構作為可復用知識的價值。當知識本身是空間性的，最好的保存方式就是空間性的，這不是模型能力強弱的問題，而是信息存儲形式與信息本質的匹配問題。這項研究真正傳遞的核心思路是：AI智能體的技能庫不應該只有文字，而應該是真正意義上的多模態資產。

有興趣深入了解的讀者，可以通過arXiv編號2606.01414查閱完整原文，或訪問論文配套的GitHub項目（Little-Fridge/AutoVisualSkill）體驗AutoVisualSkill系統的實際效果。

Q&A

Q1：視覺技能和直接給AI看幾張參考圖片有什么區別？

A：視覺技能是"協議級"的，它編碼的是跨任務通用的空間規律，不包含任何具體答案，可以持續復用、版本管理和跨任務共享。而給AI看幾張參考圖片是"實例級"的少樣本提示，只是提供具體的輸入輸出配對案例，每次用完即棄，本質上是臨時性的上下文，并不能沉淀成可復用的技能資產。

Q2：AutoVisualSkill生成的視覺技能是不是只對特定AI模型有效？

A：并不是。研究團隊在實驗中有意選擇了兩個不同的強基礎模型（Qwen3-VL-32B-Thinking用于界面操作，Gemini-2.5-Pro用于計數），目的就是驗證視覺技能在不同模型上是否都有效。結果表明，無論基礎模型本身有多強，加上視覺技能后都能進一步提升，說明視覺技能的價值不依賴于特定模型架構。

Q3：動態先驗是怎么讓AI數數變得更準確的？

A：動態先驗的核心機制是"把中間狀態寫回圖像"。AI每數到一個目標，就在圖像上標記一個編號錨點，然后把標記了錨點的圖像傳回給自己看，以此作為下一步的輸入。這樣一來，"已經數過哪些"就不再是需要靠AI內部記憶維持的隱藏狀態，而變成了圖像上可見的標記，AI可以直接"看見"已經處理過的區域，大幅減少重復計數和遺漏的概率。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.