亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓多模態(tài)檢索超越SOTA!ReCALL框架化解生成式與判別式的范式?jīng)_突

0
分享至

ReCALL團隊 投稿量子位 | 公眾號 QbitAI

生成式模型當(dāng)檢索器大材小用效果還不好?

當(dāng)多模態(tài)大模型(MLLM)憑借強大的圖文理解與邏輯推理能力成為AI領(lǐng)域的核心抓手,將其應(yīng)用于圖像檢索尤其是組合圖像檢索(CIR)任務(wù),本應(yīng)是降維打擊的最優(yōu)解。

然而現(xiàn)實卻相悖:把生成式大模型強行改造為判別式檢索器后,模型會出現(xiàn)嚴(yán)重的能力退化,連原本100%能精準(zhǔn)解決的問題都頻頻出錯,生成式與判別式的范式?jīng)_突,成為大模型向檢索領(lǐng)域落地的核心壁壘。



如今,這一行業(yè)難題被AI國家隊紫東太初團隊聯(lián)合新加坡國立大學(xué)成功攻克。其最新研究成果ReCALL框架,憑借獨創(chuàng)的“診斷-生成-校準(zhǔn)”閉環(huán)體系,從根本上解決了大模型從生成式到判別式的范式?jīng)_突問題,讓大模型在保留原生細(xì)粒度推理能力的同時,完美變身高效檢索器

該成果已被計算機視覺頂會CVPR 2026正式錄用,在CIRR、FashionIQ等主流基準(zhǔn)測試中全面刷新SOTA性能,更開辟了大模型下游任務(wù)能力無損適配的全新路徑,為多模態(tài)大模型的垂直領(lǐng)域落地奠定核心基礎(chǔ)。

行業(yè)痛點:范式?jīng)_突致大模型檢索“智能倒退”

為什么聰明的MLLM一做檢索就容易翻車?作者團隊一針見血地指出了問題的核心:范式?jīng)_突(Paradigm Conflict)

原生的大模型習(xí)慣于生成式范式,它通過一步步的鏈?zhǔn)剿伎?em>(Step-wise reasoning)來理解細(xì)粒度的視覺關(guān)系。但是,現(xiàn)有的檢索適配方法往往采用判別式范式,強行把大模型的高維思考壓縮成一個單一的向量,去計算相似度。

這種暴力的轉(zhuǎn)變直接導(dǎo)致了一個致命后果——能力退化(Capability Degradation)



如上圖左側(cè)所示,面對“地板上的兩只同品種狗”這樣需要細(xì)粒度推理的查詢時,原生的大模型(F)通過VQA問答可以輕松鎖定目標(biāo)。然而,經(jīng)過傳統(tǒng)微調(diào)后的檢索器版本(Rbase)卻完全喪失了這種細(xì)粒度grounding能力,找出的全是錯誤的圖。

定量數(shù)據(jù)更令人震驚:在原生大模型原本能夠100%找對的子集上,微調(diào)后的檢索器在CIRR數(shù)據(jù)集上R@1暴跌至62.33%,在FashionIQ上暴跌至55.80%。模型不僅沒有學(xué)到新東西,反而把原本自帶的推理天賦給弄丟了!

破局之道:ReCALL四階段校準(zhǔn)框架

既然能力退化是因為初期的檢索微調(diào)把大模型“帶偏了”,那怎么把它拉回正軌?

作者提出了一個通用的框架ReCALL。它的核心思想非常巧妙:用大模型原生的推理信號,來糾正檢索空間中的盲區(qū)。實際上,整個閉環(huán)被嚴(yán)密地劃分為四個階段,其中第一階段完成了基礎(chǔ)的檢索器初始化并暴露出退化問題,后三個階段則是極其優(yōu)雅的“診斷-生成-打磨”校準(zhǔn)管線:

Stage 1:基礎(chǔ)檢索適配(Baseline Adaptation)。為了讓生成式大模型具備基本的圖文檢索功能,研究人員首先用標(biāo)準(zhǔn)的InfoNCE損失函數(shù),將原生大模型(F)微調(diào)成一個基礎(chǔ)檢索器(Rbase)。這一步雖然賦予了模型基礎(chǔ)的判別與檢索能力,但也正是這種暴力的單向量壓縮,誘發(fā)了前文提到的“能力退化”癥狀。

Stage 2:自我診斷(Diagnose)。俗話說“錯題本是最好的老師”。有了基礎(chǔ)檢索器后,讓它在訓(xùn)練集上跑一遍,專門挑出那些它“找錯”的樣本(Informative Instances)。這些能高分騙過檢索器的負(fù)樣本,往往和正確答案有著極細(xì)微的視覺差別,它們正是模型能力退化、認(rèn)知最模糊的“盲區(qū)”。

Stage 3:生成校正(Generate)。拿著這些挑出來的錯題,作者團隊并沒有簡單粗暴地讓原生大模型(F)重新“看圖說話”,而是精心設(shè)計了一套包含嚴(yán)密邏輯的鏈?zhǔn)剿伎?em>(CoT)誘導(dǎo)機制。具體而言,這個“講題”過程被巧妙地拆解為兩個核心步驟:

① 意圖分解與驗證(Intent Decomposition & Verification):大模型首先會將原始的修改指令拆解成一個個“原子意圖”,并挨個對照參考圖和找錯的圖進(jìn)行核查,精準(zhǔn)定位出到底哪一個細(xì)粒度意圖在錯圖中被違背了。

② 最小編輯合成(Minimal Edit Synthesis):在抓住了矛盾點后,大模型會保留那些依然成立的意圖,僅僅重寫被違背的部分,從而“打補丁”式地合成出一條全新的修改指令。

通過這種極其精巧的設(shè)計,框架自動生成了從“參考圖”指向“錯圖”的全新糾錯三元組。這種從原文本到新文本的“極小幅文字編輯”,在視覺上直接鏡像了真實目標(biāo)圖與強干擾錯圖之間極其微妙的差異,從而為檢索模型提供了極其顯式、高密度的細(xì)粒度圖文對齊監(jiān)督信號。

更重要的是,這種嚴(yán)格遵循“最小編輯原則”的生成方式,絕非無拘無束的文本發(fā)散,它最大程度地保證了新構(gòu)建的訓(xùn)練三元組與原始數(shù)據(jù)集在數(shù)據(jù)分布上的高度一致性。最后,再輔以VQA(視覺問答)級別的語義一致性過濾,剔除掉幻覺和噪音,確保送入模型微調(diào)的“糾錯信號”不僅直擊痛點,而且絕對高保真。

Stage 4:針對性打磨(Refine)。有了精確的糾錯指令,最后一步就是通過分組對比學(xué)習(xí)(Grouped Contrastive Refinement)來完成進(jìn)化。框架會把原查詢和對應(yīng)的糾錯查詢打包放在同一個批次里“對沖”,配合雙重優(yōu)化目標(biāo),逼迫檢索器去明確區(qū)分那些極其細(xì)微的視覺-語義邊界,最終將原生大模型的細(xì)粒度推理能力完美內(nèi)化。



通過這套組合拳,檢索器不僅重新找回了丟失的細(xì)粒度推理能力,還將其完美內(nèi)化到了自己的向量空間中。

實測成績:全場景刷新SOTA,細(xì)粒度檢索能力拉滿

ReCALL的有效性在各大主流基準(zhǔn)測試中得到了驗證。



  • CIRR開放域復(fù)雜數(shù)據(jù)集上,ReCALL創(chuàng)造了55.52%的R@1新SOTA,相較于基線模型實現(xiàn)了8.38%的相對提升!在專門考察細(xì)粒度區(qū)分能力的子集上(R_{subset}@1),更是達(dá)到了恐怖的81.49%。
  • FashionIQ細(xì)粒度時尚數(shù)據(jù)集上,即便面對極度相似的服裝干擾項,ReCALL依然取得了最好的表現(xiàn),平均R@10達(dá)到57.04%



看看上面的實際檢索案例,基線模型遇到“正視鏡頭”、“半袖”這種細(xì)粒度條件直接懵圈;而經(jīng)過ReCALL校準(zhǔn)后的模型,眼光毒辣,精準(zhǔn)鎖定目標(biāo)!

結(jié)語

ReCALL的成功不僅在于刷新了組合圖像檢索的性能上限,更在于它揭示并修復(fù)了多模態(tài)大模型在向下游任務(wù)遷移時的一道隱形裂痕。

大模型做檢索,不應(yīng)只是粗暴地將高維的“生成式智慧”壓縮降維成單一的“判別式向量”。從“盲目對齊”到“診斷—生成—內(nèi)化”的邏輯閉環(huán),大模型的檢索適配正在進(jìn)入一個強調(diào)保留與激發(fā)原生推理能力的新階段。

當(dāng)我們不再一味追求用海量外部數(shù)據(jù)去“喂”出一個檢索器,而是教會模型用自己的思維鏈去剖析錯題、縫合認(rèn)知盲區(qū)時,它不僅找回了丟失的細(xì)粒度感知,更展示了生成與判別兩大范式走向和解的可能。

這或許是大模型在諸多垂直領(lǐng)域真正實現(xiàn)“能力無損適配”的重要一步。

論?鏈接:
https://arxiv.org/abs/2602.01639
項?代碼:
https://github.com/RemRico/Recall

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
今日三月初一,牢記1不洗,2不出,3不起,4要吃,安康吉祥日子旺

今日三月初一,牢記1不洗,2不出,3不起,4要吃,安康吉祥日子旺

小茉莉美食記
2026-04-17 00:35:03
身體這處毛發(fā)變白,暗示活得不長?看看你白了沒有

身體這處毛發(fā)變白,暗示活得不長?看看你白了沒有

白話電影院
2026-04-05 22:42:04
正式通知!5月1日起嚴(yán)查嚴(yán)處,別踩法律紅線

正式通知!5月1日起嚴(yán)查嚴(yán)處,別踩法律紅線

金哥說新能源車
2026-04-15 19:16:44
交警提醒:新交規(guī)落地,高速143km/h不扣分,龜速行車直接扣3分!

交警提醒:新交規(guī)落地,高速143km/h不扣分,龜速行車直接扣3分!

復(fù)轉(zhuǎn)這些年
2026-04-14 12:14:50
“這次穿得算保守了”,女老師短裙配蕾絲襪,學(xué)生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學(xué)生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
毛焦?fàn)栃鹿偕先危谝话鸦鹣葻街袊瑢θA稱呼改變,目的太明顯

毛焦?fàn)栃鹿偕先危谝话鸦鹣葻街袊瑢θA稱呼改變,目的太明顯

娛樂圈的筆娛君
2026-04-16 16:25:43
北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

八卦先生
2026-04-16 23:19:54
丁俊暉近年世錦賽成績盤點:去年結(jié)束連續(xù)4年一輪游,今年有望再戰(zhàn)趙心童

丁俊暉近年世錦賽成績盤點:去年結(jié)束連續(xù)4年一輪游,今年有望再戰(zhàn)趙心童

林子說事
2026-04-16 19:28:26
章子怡結(jié)束八年婚姻后落淚坦言:若百億富豪當(dāng)年沒掏出那張紙,絕不嫁三婚的汪峰!

章子怡結(jié)束八年婚姻后落淚坦言:若百億富豪當(dāng)年沒掏出那張紙,絕不嫁三婚的汪峰!

史海孤雁
2026-04-14 20:59:20
網(wǎng)壇名將正式退役!最高排名世界第1位,曾7奪大滿貫冠軍

網(wǎng)壇名將正式退役!最高排名世界第1位,曾7奪大滿貫冠軍

全景體育V
2026-04-16 07:56:45
臺灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對,鄭麗文成眾望所歸

臺灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對,鄭麗文成眾望所歸

共工之錨
2026-04-16 13:35:35
女主播直播吃“蛇肉”猝死,吐出紅黑物質(zhì),醫(yī)生表示:吃的不是蛇

女主播直播吃“蛇肉”猝死,吐出紅黑物質(zhì),醫(yī)生表示:吃的不是蛇

草莓解說體育
2026-04-16 13:24:49
產(chǎn)能排到2028!光模塊海外加速擴產(chǎn)  8大唯一性設(shè)備龍頭量價齊升

產(chǎn)能排到2028!光模塊海外加速擴產(chǎn) 8大唯一性設(shè)備龍頭量價齊升

元芳說投資
2026-04-16 06:30:16
心梗是喝茶喝出來的?醫(yī)生:即使是鐵打的心臟,這幾種茶也要少喝

心梗是喝茶喝出來的?醫(yī)生:即使是鐵打的心臟,這幾種茶也要少喝

醫(yī)學(xué)原創(chuàng)故事會
2026-04-16 23:44:09
印度套中國技術(shù)落空,幾億買的設(shè)備吃灰,美媒:印度雄心被重創(chuàng)

印度套中國技術(shù)落空,幾億買的設(shè)備吃灰,美媒:印度雄心被重創(chuàng)

王新喜
2026-04-16 17:15:12
決然赴死!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機

決然赴死!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機

愛吃醋的貓咪
2026-04-14 22:01:04
縣委書記被雙規(guī)后,45歲副縣長約書記19歲女兒爬山,說有要事相談

縣委書記被雙規(guī)后,45歲副縣長約書記19歲女兒爬山,說有要事相談

秋風(fēng)專欄
2025-04-15 17:16:42
韓媒:180°反轉(zhuǎn),樊振東“最后時刻”回歸幫助中國男乒衛(wèi)冕?

韓媒:180°反轉(zhuǎn),樊振東“最后時刻”回歸幫助中國男乒衛(wèi)冕?

順靜自然
2026-04-16 18:51:41
歐洲媒體緊張:加45%關(guān)稅也擋不住,中國電動車橫掃歐洲

歐洲媒體緊張:加45%關(guān)稅也擋不住,中國電動車橫掃歐洲

趣味萌寵的日常
2026-04-16 00:54:50
這是迄今為止,我見過身材最美的女人之一,不接受反駁

這是迄今為止,我見過身材最美的女人之一,不接受反駁

小椰的奶奶
2026-04-11 12:33:07
2026-04-17 03:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12483文章數(shù) 176452關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

親子
教育
時尚
房產(chǎn)
手機

親子要聞

孩子被傷害,不要去責(zé)備媽媽!

教育要聞

網(wǎng)傳建鄴區(qū)即將迎來大動作?多校學(xué)區(qū)要變?

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會,擠爆了!

手機要聞

蘋果雙線出擊!iOS 26.4降級封死+Siri團隊AI特訓(xùn),WWDC放大招!

無障礙瀏覽 進(jìn)入關(guān)懷版