網易首頁 > 網易號 > 正文 申請入駐

無需訓練,如何提升黑箱VLM?CARPRT用「類別感知」給出答案

0
分享至



近年來,視覺-語言模型(Vision-Language Models, VLMs)如 CLIP 的出現,徹底改變了圖像理解的范式。其中,零樣本分類作為 VLM 的核心優勢之一,無需額外標注數據即可完成陌生類別的識別,極大降低了圖像分類的成本與門檻,成為工業界與學術界關注的焦點。

然而,當前 VLM 零樣本分類上仍存在一個亟待解決的問題:其分類性能對 Prompt 極其敏感,僅僅改變描述方式,例如:“a photo of a dog”,“a blurry image of a dog”,模型輸出可能顯著變化。為緩解這一問題,現有提示詞(prompt)集成方案普遍采用全局共享權重設計,無視提示詞與類別之間的語義適配差異,導致分類精度難以突破瓶頸,尤其在黑箱模型場景下。

近期,來自墨爾本大學可信賴機器學習與推理(TMLR)研究小組提出了類別感知提示詞重加權 (Class-Aware Prompt Reweighting, CARPRT) 這一解決方案,該方案以 “無訓練、黑箱適配、類別專屬權重” 為核心,精準解決了當前 VLM 零樣本分類中提示詞語義適配不足的問題,并在多個細分類數據集上獲得了分類性能的突破。目前該論文已被 ICLR 2026(國際學習表征會議)接收。



  • 論文標題:CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Black-Box Vision-Language Models
  • Paper: https://openreview.net/pdf?id=AScQDQqVXY
  • GitHub: https://github.com/tmlr-group/CARPRT

一、VLM 零樣本分類的提示詞的難解

VLMs 的零樣本分類能力,本質上依賴于提示詞(prompt)、圖像之間的語義對齊關系。通常,通過構造一組提示詞模板(如 “a photo of {}”),并將類別嵌入自然語言描述中,從而引導模型在共享嵌入空間中匹配圖像與文本特征,實現分類預測。

然而,提示詞的選擇對模型性能具有顯著影響。不同提示詞在語義上對不同類別的適配程度存在明顯差異。 現有主流方法,如 MPE(Mean Prompt Ensembling)和 WPE(Weighted Prompt Ensembling),通常采用類別無關(class-agnostic)的權重設計,即所有類別共享同一組提示詞權重,隱式假設提示詞對不同類別具有一致的重要性。然而,這一假設在實際中往往并不成立。正如圖 1 所示,不同類別對應的最優提示詞權重分布存在顯著差異,同時,當從類別無關的權重轉為按類別分別計算權重時,多個類別的分類準確率均得到提升,這些現象表明提示詞的有效性本質上具有類別依賴性。



類別無關的權重設計帶來了兩方面局限:其一,從建模角度看,它隱含地假設所有提示詞對不同類別具有一致的重要性,忽略了提示詞與類別之間的語義差異,從而容易引入系統性的匹配偏差;其二,在實際應用中,提示詞往往依賴人工構造或篩選,不僅成本較高,而且泛化能力有限,在跨數據集或新場景下容易失效。

與此同時,在黑箱 VLM 設置下(如閉源模型),由于無法訪問模型參數或利用標注數據進行訓練,研究者難以通過學習機制對提示詞權重進行進一步優化,這也使得上述建模問題更加難以被修正,從而限制了零樣本性能的進一步提升。為解決這一問題,研究團隊提出了一種針對黑箱 VLMs 的,無需訓練、純推理階段優化的提示詞加權方案 ——CARPRT。

二、 類別感知創新思路

從設計理念來看,CARPRT 的核心邏輯源于對 “提示詞語義適配性” 的深刻洞察:研究團隊發現,在零樣本分類任務中,提示詞與類別的語義關聯強度并非固定不變,而是存在顯著的類別差異性 —— 有些提示詞對某些類別具有極強的語義指向性,而對其他類別則幾乎無關聯。例如,“a photo of {}, a type of pet.” 更適合描述 cat,而 “a photo of {}, a type of fruit.” 則更適用于 apple。 若采用全局權重,往往會引入語義錯配,降低分類精度。而 CARPRT 通過為每個類別定制專屬提示詞權重,可最大化發揮高適配提示詞的作用,抑制低適配提示詞的干擾,從而實現分類精度的提升。

直覺之外,CARPRT 進一步從概率建模角度解釋了其合理性。 研究團隊將 VLM 零樣本分類任務形式化為條件概率估計問題,構建了完整的概率框架:



該公式將標簽預測概率分解為權重空間上的積分,清晰揭示了提示詞重加權對分類過程的核心影響;谪惾~斯定理,團隊進一步推導了權重的后驗分布:

并通過偽標簽策略解決了無標注場景下的類別先驗估計問題,證明了隨著數據量增長,偽標簽統計分布將以指數級速度收斂到真實分布:



在此基礎上,團隊引入能量基模型(EBM)建模類條件似然,推導得出關鍵結論:類別專屬權重會直接影響不同類別的似然性,全局共享權重會人為限制模型的表達能力。



最終,研究團隊從數學層面證實:類別無關的權重設計(如 WPE)是類別感知的權重的嚴格子集,其表達能力存在天然短板,而 CARPRT 的類別專屬權重設計,能夠捕捉更豐富的圖文關聯,從根本上提升零樣本分類性能。



與現有方案相比,CARPRT 的優勢十分突出:首先,它無需任何訓練過程,也無需更新模型參數,完全在推理階段完成權重優化;其次,它僅依賴黑箱 VLM 輸出的相似度分數即可完成權重估計,無需訪問模型內部結構;最后,它具備極強的通用性,如 Fig. X 所示,可作為即插即用模塊,無縫提升多種 VLM 適配方法的性能。

三、無訓練的兩步工作流程

盡管 CARPRT 在建模層面引入了 “類別感知” 的新視角,但其實現過程卻非常簡潔。整體方法可以概括為兩個核心階段。



階段一:相關性分數計算(Score Calculation)

首先,使用目標 VLM,對所有圖像、提示詞與類別組合進行前向計算,得到三者之間的相似度分數:

圖像 × Prompt × 類別 → similarity score

這一步的核心在于構建一個完整的語義關聯空間,為后續權重估計提供基礎。整個過程僅依賴模型的推理接口,無需訪問參數或進行任何修改。提示詞集合也可直接采用通用模板(如 “a photo of a [class]”),無需額外設計。

階段二:類別感知權重估計(Weight Calculation)

在獲得相似度分數后,CARPRT 從類別視角重新建模提示詞的作用。具體而言,方法首先利用相似度分數為無標注圖像生成偽標簽,即為每個(圖像,提示詞)組合選擇得分最高的類別作為預測結果。在此基礎上,對所有偽標簽進行聚合,針對每一個類別統計不同提示詞下的平均相似度,并進行歸一化,從而得到該類別對應的提示詞權重分布。這一過程可以理解為:通過數據統計,自動識別 “哪些提示詞更適合描述某一類別”,從而實現對提示詞作用的類別感知建模。整個過程完全無監督,無需人工干預。

在推理階段,CARPRT 將上述類別專屬權重引入標準零樣本分類流程,對不同提示詞的預測結果進行加權融合,并根據融合后的分數確定最終類別。由于僅增加了一個權重計算與融合步驟,不會帶來額外計算開銷,也不會影響整體推理效率。

從整體流程可以看出,CARPRT 的核心優勢在于 “極簡” 與 “通用”:無需訓練、無需參數更新、無需額外數據,僅依賴 VLM 輸出的相似度分數,即可完成權重優化。這種 “即插即用” 的設計,使其能夠同時適配開源與閉源視覺語言模型。

四、性能全面領先同類方案

在提出類別感知提示詞重加權(CARPRT)之后,一個自然的問題是:在完全不訓練的前提下,這種方法是否真的有效?

為此,研究團隊在多個標準零樣本分類基準上進行了系統評估,涵蓋從通用識別到細粒度分類的多種任務,并在不同視覺語言模型架構上進行了驗證。



實驗結果表明,CARPRT 在幾乎所有數據集上均優于現有主流方法,包括:MPE(Mean Prompt Ensembling),多數投票 (Majority Vote), WPE(加權提示詞方法)。無論是在 CLIP(ViT-B/16、ResNet50)還是 DeCLIP 等不同模型架構下,CARPRT 都能夠帶來穩定且一致的性能提升。這說明:其收益并非依賴特定模型,而是來自更合理的建模方式。



為了進一步驗證方法的關鍵因素,研究團隊設計了一個重要對照實驗:將 CARPRT 得到的類別專屬權重進行平均,轉化為 “全局權重”(CARPRT-Uniform)作為 Prompt 權重。實驗結果顯示:相比于類別專屬權重,全局權重的性能顯著下降。這說明:真正帶來提升的,并不是 “更好的權重估計”,而是 “類別感知”本身。

綜合所有實驗,可以得到一個結論:在零樣本 VLM 中,CARPRT 帶來的性能提升并不一定來自更復雜的模型,而可能來自更合理的建模方式。CARPRT 并未引入新的網絡結構,也未使用額外數據或訓練過程,但僅通過重新建模提示詞與類別的關系,就實現了穩定提升。

除了在零樣本分類任務中的顯著優勢,CARPRT 的 “即插即用” 特性還使其具備極強的泛化能力。由于其僅依賴視覺語言模型輸出的相似度分數,而不涉及模型結構修改或參數更新,CARPRT 可以作為一個獨立模塊,無縫嵌入到多種 VLM 應用流程中。

具體而言,無論是在基于提示詞集成的零樣本分類、測試時自適應(test-time adaptation),還是與提示詞學習(prompt tuning)或數據增強方法結合的場景中,CARPRT 都可以作為一個前置或后處理步驟,對提示詞進行類別感知的權重調整,從而進一步提升整體性能。這種模塊化設計,使其不僅能夠獨立使用,也可以與現有方法形成互補,而非替代關系。

五、當模型無法改變時,

我們還能做什么?

在視覺語言模型不斷走向規;c黑箱化的今天,越來越多的應用場景面臨一個現實約束: 模型本身難以修改,但任務需求卻在不斷變化。 CARPRT 給出的答案并不復雜:與其嘗試通過訓練改變模型,不如重新審視模型已有的輸出方式,并在此基礎上進行更合理的建模。

本文的核心發現是,提示詞的作用并非全局一致,而是與類別語義緊密相關。通過引入類別感知的建模方式,即使在完全無訓練、僅依賴推理結果的條件下,也能夠穩定提升零樣本分類性能。從這個角度來看,CARPRT 所體現的,并不僅是一個具體方法,而是一種更一般的思路:在黑箱條件下,通過結構化地重組模型已有信息,實現對模型行為的有效調控。

這一思路或許提示我們,在大模型時代,性能提升并不總是依賴更大的模型或更多的數據,有時也來自對問題本身更精細的建模。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
77歲的吳敬中收到余則成的遺物,才徹底明白當年峨眉峰的真相

77歲的吳敬中收到余則成的遺物,才徹底明白當年峨眉峰的真相

卡西莫多的故事
2026-04-24 11:52:30
開拓者3將身價暴跌!格蘭特低能,阿夫迪亞單一,克林根攻守被虐

開拓者3將身價暴跌!格蘭特低能,阿夫迪亞單一,克林根攻守被虐

籃球資訊達人
2026-04-29 13:09:55
4月28日,人社部召開新聞發布會,公布社保、養老金消息,挺重要

4月28日,人社部召開新聞發布會,公布社保、養老金消息,挺重要

小彬說事
2026-04-29 11:04:51
廣東老漢囚禁50名女子于魚塘,6年后才被發現,結局如何

廣東老漢囚禁50名女子于魚塘,6年后才被發現,結局如何

莫地方
2026-04-28 01:40:03
80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

妍妍教育日記
2026-04-27 09:20:13
爭議!球迷喊“干死他”為趙心童加油 墨菲5連鞭后怒視+握拳回擊

爭議!球迷喊“干死他”為趙心童加油 墨菲5連鞭后怒視+握拳回擊

我愛英超
2026-04-28 21:40:18
感謝菲律賓給機會?中方14艦圍困美日菲7國艦隊,還發射了導彈

感謝菲律賓給機會?中方14艦圍困美日菲7國艦隊,還發射了導彈

破鏡難圓
2026-04-29 10:54:05
多名醫生提醒:只要做過腫瘤切除手術,術后患者必須警惕這幾點!

多名醫生提醒:只要做過腫瘤切除手術,術后患者必須警惕這幾點!

岐黃傳人孫大夫
2026-04-29 12:15:03
新能源車凌晨車庫起火連燒六車損失數百萬,起火車主“裸險”難賠

新能源車凌晨車庫起火連燒六車損失數百萬,起火車主“裸險”難賠

聽心堂
2026-04-28 14:21:59
阿聯酋突然退出歐佩克:此前直指海灣盟友“軟弱”,或開啟“歐佩克的終結”

阿聯酋突然退出歐佩克:此前直指海灣盟友“軟弱”,或開啟“歐佩克的終結”

紅星新聞
2026-04-28 23:18:18
山東男籃潰敗源于內訌:管理層施壓放棄于德豪,邱彪至此開始擺爛

山東男籃潰敗源于內訌:管理層施壓放棄于德豪,邱彪至此開始擺爛

姜大叔侃球
2026-04-29 11:14:52
許家印和娛樂圈的那點事

許家印和娛樂圈的那點事

新浪財經
2026-04-28 18:32:04
慘遭橫掃后,杰倫·格林發狠誓:休賽期我要泡在訓練室!

慘遭橫掃后,杰倫·格林發狠誓:休賽期我要泡在訓練室!

體育妞世界
2026-04-29 11:09:09
歐冠半決賽:一場沒人敢押注的電視轉播

歐冠半決賽:一場沒人敢押注的電視轉播

競技風云錄
2026-04-29 14:16:51
李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫美過度缺點盡顯

李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫美過度缺點盡顯

娛樂團長
2026-04-27 20:27:36
巴黎5-4掀翻拜仁!金球獎頭號熱門誕生:46場54球,創歐冠3大紀錄

巴黎5-4掀翻拜仁!金球獎頭號熱門誕生:46場54球,創歐冠3大紀錄

球場沒跑道
2026-04-29 07:43:57
砍2+1+1!火箭改用小個陣容,32歲前鋒從1防到5,5300萬沒浪費

砍2+1+1!火箭改用小個陣容,32歲前鋒從1防到5,5300萬沒浪費

熊哥愛籃球
2026-04-29 14:56:09
巴黎5-4拜仁!金球先生2射1傳 9000萬飛翼雙響 單場9球創歐冠紀錄

巴黎5-4拜仁!金球先生2射1傳 9000萬飛翼雙響 單場9球創歐冠紀錄

我愛英超
2026-04-29 04:59:25
特斯拉中國發布大版本固件更新,新增舒適剎車等功能!

特斯拉中國發布大版本固件更新,新增舒適剎車等功能!

XCiOS俱樂部
2026-04-29 13:17:28
必須警惕!境外組織資助反華媒體炮制躺平洗腦論,侵蝕青年思想

必須警惕!境外組織資助反華媒體炮制躺平洗腦論,侵蝕青年思想

米果說識
2026-04-28 16:46:38
2026-04-29 15:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12889文章數 142639關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

教育
親子
游戲
藝術
數碼

教育要聞

剛剛,南京市教育局重磅發布!

親子要聞

5月2日普陀醫院將開展免費骨齡篩查義診活動

夢幻西游2026年520錦衣祥瑞正式亮相 沙子哥炸出暢玩服第一項鏈

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

數碼要聞

榮耀手表6 Plus開啟預約:1000mAh青海湖大電池,35天續航

無障礙瀏覽 進入關懷版