網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

無需訓練，如何提升黑箱VLM？CARPRT用「類別感知」給出答案

2026-04-29 12:42:24　來源: 機器之心Pro

河北舉報

0

分享至

近年來，視覺-語言模型（Vision-Language Models, VLMs）如 CLIP 的出現，徹底改變了圖像理解的范式。其中，零樣本分類作為 VLM 的核心優勢之一，無需額外標注數據即可完成陌生類別的識別，極大降低了圖像分類的成本與門檻，成為工業界與學術界關注的焦點。

然而，當前 VLM 零樣本分類上仍存在一個亟待解決的問題：其分類性能對 Prompt 極其敏感，僅僅改變描述方式，例如：“a photo of a dog”，“a blurry image of a dog”，模型輸出可能顯著變化。為緩解這一問題，現有提示詞（prompt）集成方案普遍采用全局共享權重設計，無視提示詞與類別之間的語義適配差異，導致分類精度難以突破瓶頸，尤其在黑箱模型場景下。

近期，來自墨爾本大學可信賴機器學習與推理（TMLR）研究小組提出了類別感知提示詞重加權 (Class-Aware Prompt Reweighting, CARPRT) 這一解決方案，該方案以 “無訓練、黑箱適配、類別專屬權重” 為核心，精準解決了當前 VLM 零樣本分類中提示詞語義適配不足的問題，并在多個細分類數據集上獲得了分類性能的突破。目前該論文已被 ICLR 2026（國際學習表征會議）接收。

論文標題：CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Black-Box Vision-Language Models
Paper: https://openreview.net/pdf?id=AScQDQqVXY
GitHub: https://github.com/tmlr-group/CARPRT

一、VLM 零樣本分類的提示詞的難解

VLMs 的零樣本分類能力，本質上依賴于提示詞（prompt）、圖像之間的語義對齊關系。通常，通過構造一組提示詞模板（如 “a photo of {}”），并將類別嵌入自然語言描述中，從而引導模型在共享嵌入空間中匹配圖像與文本特征，實現分類預測。

然而，提示詞的選擇對模型性能具有顯著影響。不同提示詞在語義上對不同類別的適配程度存在明顯差異。現有主流方法，如 MPE（Mean Prompt Ensembling）和 WPE（Weighted Prompt Ensembling），通常采用類別無關（class-agnostic）的權重設計，即所有類別共享同一組提示詞權重，隱式假設提示詞對不同類別具有一致的重要性。然而，這一假設在實際中往往并不成立。正如圖 1 所示，不同類別對應的最優提示詞權重分布存在顯著差異，同時，當從類別無關的權重轉為按類別分別計算權重時，多個類別的分類準確率均得到提升，這些現象表明提示詞的有效性本質上具有類別依賴性。

類別無關的權重設計帶來了兩方面局限：其一，從建模角度看，它隱含地假設所有提示詞對不同類別具有一致的重要性，忽略了提示詞與類別之間的語義差異，從而容易引入系統性的匹配偏差；其二，在實際應用中，提示詞往往依賴人工構造或篩選，不僅成本較高，而且泛化能力有限，在跨數據集或新場景下容易失效。

與此同時，在黑箱 VLM 設置下（如閉源模型），由于無法訪問模型參數或利用標注數據進行訓練，研究者難以通過學習機制對提示詞權重進行進一步優化，這也使得上述建模問題更加難以被修正，從而限制了零樣本性能的進一步提升。為解決這一問題，研究團隊提出了一種針對黑箱 VLMs 的，無需訓練、純推理階段優化的提示詞加權方案 ——CARPRT。

二、類別感知創新思路

從設計理念來看，CARPRT 的核心邏輯源于對 “提示詞語義適配性” 的深刻洞察：研究團隊發現，在零樣本分類任務中，提示詞與類別的語義關聯強度并非固定不變，而是存在顯著的類別差異性 —— 有些提示詞對某些類別具有極強的語義指向性，而對其他類別則幾乎無關聯。例如，“a photo of {}, a type of pet.” 更適合描述 cat，而 “a photo of {}, a type of fruit.” 則更適用于 apple。若采用全局權重，往往會引入語義錯配，降低分類精度。而 CARPRT 通過為每個類別定制專屬提示詞權重，可最大化發揮高適配提示詞的作用，抑制低適配提示詞的干擾，從而實現分類精度的提升。

直覺之外，CARPRT 進一步從概率建模角度解釋了其合理性。研究團隊將 VLM 零樣本分類任務形式化為條件概率估計問題，構建了完整的概率框架：

該公式將標簽預測概率分解為權重空間上的積分，清晰揭示了提示詞重加權對分類過程的核心影響�；谪惾~斯定理，團隊進一步推導了權重的后驗分布：

并通過偽標簽策略解決了無標注場景下的類別先驗估計問題，證明了隨著數據量增長，偽標簽統計分布將以指數級速度收斂到真實分布：

在此基礎上，團隊引入能量基模型（EBM）建模類條件似然，推導得出關鍵結論：類別專屬權重會直接影響不同類別的似然性，全局共享權重會人為限制模型的表達能力。

最終，研究團隊從數學層面證實：類別無關的權重設計（如 WPE）是類別感知的權重的嚴格子集，其表達能力存在天然短板，而 CARPRT 的類別專屬權重設計，能夠捕捉更豐富的圖文關聯，從根本上提升零樣本分類性能。

與現有方案相比，CARPRT 的優勢十分突出：首先，它無需任何訓練過程，也無需更新模型參數，完全在推理階段完成權重優化；其次，它僅依賴黑箱 VLM 輸出的相似度分數即可完成權重估計，無需訪問模型內部結構；最后，它具備極強的通用性，如 Fig. X 所示，可作為即插即用模塊，無縫提升多種 VLM 適配方法的性能。

三、無訓練的兩步工作流程

盡管 CARPRT 在建模層面引入了 “類別感知” 的新視角，但其實現過程卻非常簡潔。整體方法可以概括為兩個核心階段。

階段一：相關性分數計算（Score Calculation）

首先，使用目標 VLM，對所有圖像、提示詞與類別組合進行前向計算，得到三者之間的相似度分數：

圖像 × Prompt × 類別 → similarity score

這一步的核心在于構建一個完整的語義關聯空間，為后續權重估計提供基礎。整個過程僅依賴模型的推理接口，無需訪問參數或進行任何修改。提示詞集合也可直接采用通用模板（如 “a photo of a [class]”），無需額外設計。

階段二：類別感知權重估計（Weight Calculation）

在獲得相似度分數后，CARPRT 從類別視角重新建模提示詞的作用。具體而言，方法首先利用相似度分數為無標注圖像生成偽標簽，即為每個（圖像，提示詞）組合選擇得分最高的類別作為預測結果。在此基礎上，對所有偽標簽進行聚合，針對每一個類別統計不同提示詞下的平均相似度，并進行歸一化，從而得到該類別對應的提示詞權重分布。這一過程可以理解為：通過數據統計，自動識別 “哪些提示詞更適合描述某一類別”，從而實現對提示詞作用的類別感知建模。整個過程完全無監督，無需人工干預。

在推理階段，CARPRT 將上述類別專屬權重引入標準零樣本分類流程，對不同提示詞的預測結果進行加權融合，并根據融合后的分數確定最終類別。由于僅增加了一個權重計算與融合步驟，不會帶來額外計算開銷，也不會影響整體推理效率。

從整體流程可以看出，CARPRT 的核心優勢在于 “極簡” 與 “通用”：無需訓練、無需參數更新、無需額外數據，僅依賴 VLM 輸出的相似度分數，即可完成權重優化。這種 “即插即用” 的設計，使其能夠同時適配開源與閉源視覺語言模型。

四、性能全面領先同類方案

在提出類別感知提示詞重加權（CARPRT）之后，一個自然的問題是：在完全不訓練的前提下，這種方法是否真的有效？

為此，研究團隊在多個標準零樣本分類基準上進行了系統評估，涵蓋從通用識別到細粒度分類的多種任務，并在不同視覺語言模型架構上進行了驗證。

實驗結果表明，CARPRT 在幾乎所有數據集上均優于現有主流方法，包括：MPE（Mean Prompt Ensembling），多數投票 (Majority Vote), WPE（加權提示詞方法）。無論是在 CLIP（ViT-B/16、ResNet50）還是 DeCLIP 等不同模型架構下，CARPRT 都能夠帶來穩定且一致的性能提升。這說明：其收益并非依賴特定模型，而是來自更合理的建模方式。

為了進一步驗證方法的關鍵因素，研究團隊設計了一個重要對照實驗：將 CARPRT 得到的類別專屬權重進行平均，轉化為 “全局權重”（CARPRT-Uniform）作為 Prompt 權重。實驗結果顯示：相比于類別專屬權重，全局權重的性能顯著下降。這說明：真正帶來提升的，并不是 “更好的權重估計”，而是 “類別感知”本身。

綜合所有實驗，可以得到一個結論：在零樣本 VLM 中，CARPRT 帶來的性能提升并不一定來自更復雜的模型，而可能來自更合理的建模方式。CARPRT 并未引入新的網絡結構，也未使用額外數據或訓練過程，但僅通過重新建模提示詞與類別的關系，就實現了穩定提升。

除了在零樣本分類任務中的顯著優勢，CARPRT 的 “即插即用” 特性還使其具備極強的泛化能力。由于其僅依賴視覺語言模型輸出的相似度分數，而不涉及模型結構修改或參數更新，CARPRT 可以作為一個獨立模塊，無縫嵌入到多種 VLM 應用流程中。

具體而言，無論是在基于提示詞集成的零樣本分類、測試時自適應（test-time adaptation），還是與提示詞學習（prompt tuning）或數據增強方法結合的場景中，CARPRT 都可以作為一個前置或后處理步驟，對提示詞進行類別感知的權重調整，從而進一步提升整體性能。這種模塊化設計，使其不僅能夠獨立使用，也可以與現有方法形成互補，而非替代關系。

五、當模型無法改變時，

我們還能做什么？

在視覺語言模型不斷走向規�；c黑箱化的今天，越來越多的應用場景面臨一個現實約束：模型本身難以修改，但任務需求卻在不斷變化。 CARPRT 給出的答案并不復雜：與其嘗試通過訓練改變模型，不如重新審視模型已有的輸出方式，并在此基礎上進行更合理的建模。

本文的核心發現是，提示詞的作用并非全局一致，而是與類別語義緊密相關。通過引入類別感知的建模方式，即使在完全無訓練、僅依賴推理結果的條件下，也能夠穩定提升零樣本分類性能。從這個角度來看，CARPRT 所體現的，并不僅是一個具體方法，而是一種更一般的思路：在黑箱條件下，通過結構化地重組模型已有信息，實現對模型行為的有效調控。

這一思路或許提示我們，在大模型時代，性能提升并不總是依賴更大的模型或更多的數據，有時也來自對問題本身更精細的建模。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

原生理解生成統一:商湯SenseNova U1,用統一架構終結縫合怪多模態

機器之心Pro 2026-04-28 21:41:55
0 跟貼 0
不卷參數卷架構，這個開源模型把圖像理解和生成統一了

量子位 2026-04-29 12:24:59
0 跟貼 0

LCA：DeepSeek 長文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

機器之心Pro 2026-04-29 10:56:51
0 跟貼 0

微信朋友圈悄悄更新了，你發現了嗎？

都市快報橙柿互動 2026-04-29 00:20:47
113 跟貼 113
火速吃瓜：Kimi K2.6設計能力超越Claude Design

量子位 2026-04-29 14:53:55
0 跟貼 0

OpenClaw大更新，AI智能體不再是黑箱！官方口號：少點神秘

新智元 2026-04-28 10:48:08
8 跟貼 8

一個以知識沉淀為核心的產品，在Agent時代真的有不可替代的價值嗎？

鈦媒體APP 2026-04-29 12:17:07
0 跟貼 0
伊朗戰術精妙：帥化民解讀伊朗軍事策略

一寸時光a 2026-04-27 03:26:01
2 跟貼 2

蘋果Numbers憑什么挑戰Excel？

時光慢郵啊 2026-04-29 00:58:08
0 跟貼 0
VEGA-3D：釋放視頻生成模型中的隱式3D知識，重塑3D場景

機器之心Pro 2026-04-29 14:57:53
0 跟貼 0
麻將之道：單行道牌型，我的獨特策略

山晚望晴r 2026-04-29 06:18:35
3 跟貼 3
狂奔的具身賽道里，瑞為技術的機器人已經在機場搬行李

36氪 2026-04-29 14:11:25
0 跟貼 0
ThinkPad×奧比利：穿透工業“黑箱”，與思考者同行

鈦媒體APP 2025-11-21 18:55:07
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
羅納爾多的接球邏輯，獨屬于外星人的無解調整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1
外貿英語APP測評：哪款最實用？

九州新聞 2026-04-29 12:27:43
0 跟貼 0
空警600vsE-2D預警機：核心參數與性能對比全解析

因果 2026-04-25 10:02:10
0 跟貼 0
我大使駁斥美官員：照照鏡子

極目新聞 2026-04-29 09:31:58
8500 跟貼 8500
邏輯鬼才劉能裝傻充愣第一名

秦嶺扒娛 2026-04-27 18:20:16
1 跟貼 1
31省份去年常住人口數據公布

第一財經資訊 2026-04-28 18:58:16
1318 跟貼 1318
解方程，基礎公式不熟練，這題很難解出來

智慧的小老虎 2026-04-28 23:43:11
0 跟貼 0
蘋果首款折疊屏iPhone Fold參數出爐，薄至4.7mm

快科技 2026-04-28 16:17:05
0 跟貼 0
超越VLA與世界模型,銀河通用發布LDA,全譜系數據跑通Scaling Law

機器之心Pro 2026-04-29 10:08:15
0 跟貼 0
廣州一公園被指“價格刺客”

中國新聞周刊 2026-04-29 08:20:12
0 跟貼 0
重大進展！我國新發現13個億噸級油田

看看新聞Knews 2026-04-29 12:28:10
9 跟貼 9
銀河通用LDA定義全域數據利用范式，跨本體世界動作大模型

量子位 2026-04-29 10:26:01
0 跟貼 0
10萬引普林斯頓劉壯最新訪談：架構沒那么重要，數據才是王道

量子位 2026-04-29 12:17:01
0 跟貼 0
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2131 跟貼 2131
撒貝寧獲全國五一勞動獎章

閃電新聞 2026-04-28 16:25:55
563 跟貼 563
96歲奶奶街頭擺攤10年還清2077萬元債務，本人最新回應：這輩子沒做過什么大事，只是守住了做人的底線

極目新聞 2026-04-28 21:45:41
829 跟貼 829
金屬件中空外壁的內部結構，金屬模型加工，中空外壁內層設計

小明不講理 2026-04-26 10:27:03
1 跟貼 1
解鎖雞腿鮮嫩多汁的吃法，就是用這個鹽水萬用公式，太嫩太香了

愛做飯的多多媽 2026-04-28 16:56:08
0 跟貼 0
伊朗突然動手清場！美以支持網絡被連根拔起？

陸棄 2026-04-27 09:46:37
1 跟貼 1
人社部：為未就業高校畢業生提供3次崗位推薦等實名服務

中國青年報 2026-04-28 21:20:06
388 跟貼 388
東方樞紐上海東站2027年7月1日將建成投運

看看新聞Knews 2026-04-29 14:24:19
1 跟貼 1
特斯拉中國再推促銷方案：5月31日前，購買Model 3、Model Y、Model Y L車型5年0息

魯中晨報 2026-04-29 10:48:05
0 跟貼 0
人社部：一季度全國城鎮新增就業299萬人

看看新聞Knews 2026-04-28 16:44:16
142 跟貼 142
給AI發100美元去二手市場撿漏，結果它給自己買了19個乒乓球

DeepTech深科技 2026-04-29 14:22:57
0 跟貼 0
第三代元PLUS亮相：尺寸提升，標配第二代刀片電池及閃充

觀察者網 2026-04-29 14:04:38
0 跟貼 0
別聊參數了，帶你第一視角看看全新阿爾法S5，這誰能頂得住

嘻哈車 2026-04-27 12:15:42
53 跟貼 53

77歲的吳敬中收到余則成的遺物，才徹底明白當年峨眉峰的真相

77歲的吳敬中收到余則成的遺物，才徹底明白當年峨眉峰的真相

卡西莫多的故事

2026-04-24 11:52:30

開拓者3將身價暴跌！格蘭特低能，阿夫迪亞單一，克林根攻守被虐

開拓者3將身價暴跌！格蘭特低能，阿夫迪亞單一，克林根攻守被虐

籃球資訊達人

2026-04-29 13:09:55

4月28日，人社部召開新聞發布會，公布社保、養老金消息，挺重要

4月28日，人社部召開新聞發布會，公布社保、養老金消息，挺重要

小彬說事

2026-04-29 11:04:51

廣東老漢囚禁50名女子于魚塘，6年后才被發現，結局如何

廣東老漢囚禁50名女子于魚塘，6年后才被發現，結局如何

莫地方

2026-04-28 01:40:03

80后家長發明“防早戀”發型，女兒面如死灰，網友都看不下去了

80后家長發明“防早戀”發型，女兒面如死灰，網友都看不下去了

妍妍教育日記

2026-04-27 09:20:13

爭議！球迷喊“干死他”為趙心童加油墨菲5連鞭后怒視+握拳回擊

爭議！球迷喊“干死他”為趙心童加油墨菲5連鞭后怒視+握拳回擊

我愛英超

2026-04-28 21:40:18

感謝菲律賓給機會？中方14艦圍困美日菲7國艦隊，還發射了導彈

感謝菲律賓給機會？中方14艦圍困美日菲7國艦隊，還發射了導彈

破鏡難圓

2026-04-29 10:54:05

多名醫生提醒：只要做過腫瘤切除手術，術后患者必須警惕這幾點!

多名醫生提醒：只要做過腫瘤切除手術，術后患者必須警惕這幾點!

岐黃傳人孫大夫

2026-04-29 12:15:03

新能源車凌晨車庫起火連燒六車損失數百萬，起火車主“裸險”難賠

新能源車凌晨車庫起火連燒六車損失數百萬，起火車主“裸險”難賠

聽心堂

2026-04-28 14:21:59

阿聯酋突然退出歐佩克：此前直指海灣盟友“軟弱”，或開啟“歐佩克的終結”

阿聯酋突然退出歐佩克：此前直指海灣盟友“軟弱”，或開啟“歐佩克的終結”

紅星新聞

2026-04-28 23:18:18

山東男籃潰敗源于內訌：管理層施壓放棄于德豪，邱彪至此開始擺爛

山東男籃潰敗源于內訌：管理層施壓放棄于德豪，邱彪至此開始擺爛

姜大叔侃球

2026-04-29 11:14:52

許家印和娛樂圈的那點事

新浪財經

2026-04-28 18:32:04

慘遭橫掃后，杰倫·格林發狠誓：休賽期我要泡在訓練室！

慘遭橫掃后，杰倫·格林發狠誓：休賽期我要泡在訓練室！

體育妞世界

2026-04-29 11:09:09

歐冠半決賽：一場沒人敢押注的電視轉播

歐冠半決賽：一場沒人敢押注的電視轉播

競技風云錄

2026-04-29 14:16:51

李嘉欣美貌不再，和許晉亨一同看演唱會，近照疑醫美過度缺點盡顯

李嘉欣美貌不再，和許晉亨一同看演唱會，近照疑醫美過度缺點盡顯

娛樂團長

2026-04-27 20:27:36

巴黎5-4掀翻拜仁！金球獎頭號熱門誕生：46場54球，創歐冠3大紀錄

巴黎5-4掀翻拜仁！金球獎頭號熱門誕生：46場54球，創歐冠3大紀錄

球場沒跑道

2026-04-29 07:43:57

砍2+1+1！火箭改用小個陣容，32歲前鋒從1防到5，5300萬沒浪費

砍2+1+1！火箭改用小個陣容，32歲前鋒從1防到5，5300萬沒浪費

熊哥愛籃球

2026-04-29 14:56:09

巴黎5-4拜仁！金球先生2射1傳 9000萬飛翼雙響單場9球創歐冠紀錄

巴黎5-4拜仁！金球先生2射1傳 9000萬飛翼雙響單場9球創歐冠紀錄

我愛英超

2026-04-29 04:59:25

特斯拉中國發布大版本固件更新，新增舒適剎車等功能！

特斯拉中國發布大版本固件更新，新增舒適剎車等功能！

XCiOS俱樂部

2026-04-29 13:17:28

必須警惕！境外組織資助反華媒體炮制躺平洗腦論，侵蝕青年思想

必須警惕！境外組織資助反華媒體炮制躺平洗腦論，侵蝕青年思想

米果說識

2026-04-28 16:46:38

機器之心Pro

專業的人工智能媒體

12889文章數 142639關注度

往期回顧全部

科技要聞

夭折的造富神話，逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽或獲美伊默許

體育要聞

一場九球狂歡，各路神仙批量下凡

娛樂要聞

馬頔一句話，孫楊媽媽怒罵節目組2小時

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏新款別克世紀CENTURY上市53.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

游戲

藝術

數碼

教育要聞

剛剛，南京市教育局重磅發布！

親子要聞

5月2日普陀醫院將開展免費骨齡篩查義診活動

夢幻西游2026年520錦衣祥瑞正式亮相沙子哥炸出暢玩服第一項鏈

藝術要聞

這些女神，竟然都是攝影師切爾尼亞季耶夫的復古作品！

數碼要聞

榮耀手表6 Plus開啟預約：1000mAh青海湖大電池，35天續航

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版