當視覺問答遇上不可靠的外部知識,視覺語言模型還能穩住嗎? 一篇被ICLR 2025拒絕的論文,試圖回答這個問題。它提出一套魯棒的檢索增強生成框架,專門為VLM設計,核心目標只有一句話:哪怕檢索回來的知識有噪聲,模型依然能做出正確的推理。 作者設計的框架包含三個關鍵層級。首先是**兩階段檢索**:先用圖片作為錨點,在包含3700萬張圖片的WIT數據庫中找出相似實體;再把這些實體的名稱和描述嵌入原問題,形成更精準的查詢,通過谷歌API獲取文本知識。比如一張建筑圖片,模型先認出這是“好望堡”,然后再用“好望堡建于哪一年”去二次檢索,答案自然更精確。 第二階段叫**查詢導向的視覺標記精煉**。圖片進入VLM后會被切成許多小塊,每個小塊就是一個視覺標記。這一步驟只保留與問題最相關的小塊,無關背景全部丟棄。檢索到的支持圖片也進行同樣的篩選:用原圖關鍵區塊作為參照,只留下相關的視覺信息,最終形成精簡后的視覺序列輸入模型。相當于模型“只盯著問題相關的畫面區域看”。 最關鍵的創新是**噪聲韌性訓練**。訓練過程中,系統故意注入錯誤的檢索結果——讓模型被迫學習區分正確和錯誤的外部信息。模型同時看到原始圖片、問題、多條檢索到的圖文知識,部分正確、部分錯誤,然后通過注意力機制決定該信任哪一段。綠色高注意力、紅色被忽略,模型最終要學會在信息沖突時選擇可靠的證據。正是通過這種訓練,它才能在被拒稿后依然展現出抵抗知識噪聲的實用潛力,也為VLM應用RAG提供了一條值得關注的防御思路。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.