亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 | 從視覺Token內(nèi)在變化量出發(fā),實現(xiàn)VLM無損加速1.87倍

0
分享至



作者介紹:第一作者陳駿杰(四川大學碩士二年級)與共同一作劉旭洋(四川大學碩士三年級)深耕高效視覺語言模型。



  • 論文題目:Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
  • 論文鏈接:https://arxiv.org/abs/2509.01552
  • 代碼鏈接:https://github.com/xuyang-liu16/V2Drop

背景與動機

隨著高分辨率圖像理解與長視頻處理需求的爆發(fā)式增長,大型視覺語言模型(LVLMs)所需處理的視覺 Token 數(shù)量急劇膨脹,推理效率成為落地部署的核心瓶頸。Token 壓縮是縮短序列、提升吞吐的直接手段,但現(xiàn)有方法普遍依賴注意力權重來判斷 Token 重要性,這一路線暗藏兩個致命缺陷:

一是位置偏差問題(如圖 1 所示),該方法傾向于機械地保留序列末尾的 Token,無論圖像內(nèi)容如何,注意力得分普遍在序列末尾(對應圖像底部區(qū)域)形成峰值(紅色箭頭),導致關鍵的前期 Token 被丟棄,進而加劇多模態(tài)幻覺。

二是與高效算子存在根本性的不兼容,計算注意力權重與 FlashAttention 等高效機制之間存在本質(zhì)沖突。相比之下,右側三列(綠色邊框)展示了基于 L2 Norm 變化量評估方法的顯著優(yōu)勢 —— 其得分分布均勻、能夠精準聚焦于含有關鍵信息的圖像區(qū)域(如綠色框標注的球衣號碼區(qū)域),且無需顯式注意力計算,與高效算子天然兼容。



圖 1:注意力引導 vs. 變化量感知的 Token 評估對比

核心發(fā)現(xiàn)


發(fā)現(xiàn) 1:注意力方法存在系統(tǒng)性末端偏置

研究團隊在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上,對比了 SparseVLM、FastV 與 L2 Norm 變化量評估在相同輸入下的 Token 保留行為。注意力方法的保留概率曲線均呈單調(diào)遞增階梯形狀 —— 末端 Token 保留率高達 80%~100%,前端僅 10%~30%,與內(nèi)容重要性毫無關聯(lián)。L2 Norm 則呈近似均勻分布,天然規(guī)避位置偏差。



圖 2:兩大模型上視覺 Token 保留位置分布分析 ——L2 Norm 呈現(xiàn)均勻分布,注意力方法呈嚴重末端偏置

發(fā)現(xiàn) 2:變化量高的 Token 天然對應語義關鍵區(qū)域

針對兩個典型樣本(百事可樂瓶識別、球衣號碼識別),L1 Norm、L2 Norm 和余弦相似度三種指標均在答案相關區(qū)域出現(xiàn)顯著峰值,且無論關鍵區(qū)域位于序列中段還是后段均能精準捕捉,表明變化量是衡量視覺 Token 重要性的魯棒內(nèi)在屬性,L2 Norm 綜合性能最優(yōu),被 V2Drop 選為默認度量。



圖 3:三種變化量度量指標均精準定位答案相關區(qū)域(紅框),驗證變化量與語義重要性的強相關性

解決方案:V2Drop

V2Drop 在 LLM 推理階段采用多階段漸進式剪枝策略,三步實現(xiàn)高效無偏 Token 壓縮:

① 變化量計算(Variation Computation)

在每個預定義剪枝層,計算每個視覺 Token 與上一層表示的 L2 距離作為重要性得分。額外開銷僅為單層注意力計算量的 0.022%,可忽略不計。

② Token 排序與選擇(Token Ranking & Selection)

按變化量得分從高到低排序,保留 Top-K 個 Token,自然過濾惰性 Token,無需引入任何位置偏置。

③ 漸進式壓縮(Progressive Dropping)

在淺層、中層、深層三階段依次執(zhí)行剪枝,形成 M → Ka → Kb → Kc 漸進壓縮路徑。消融實驗證明,漸進式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。



圖 4:V2Drop 整體框架

理論保證

通過一階 Taylor 展開證明,Token 的變化量幅度與其對模型輸出的影響正相關,從理論上驗證了丟棄低變化量 Token 能最小化輸出擾動的核心假設。架構的三大屬性(殘差連接、Layer Norm、平滑激活函數(shù))共同保證了理論假設的合理性。

實驗結果


1、圖像理解(LLaVA-1.5-7B & Qwen2-VL-7B)

在圖像場景的核心表現(xiàn)上,本方法在 LLaVA-1.5-7B 上:壓縮 66.7% Token(保留 192 個)時,綜合性能達 97.6%,超越次優(yōu)方法 PDrop(96.0%。此外,在 Qwen2-VL-7B 高分辨率場景中,66.7% 和 77.8% 兩檔壓縮率下均全面超越 FastV 和 DART,尤其在 POPE 幻覺抑制指標上表現(xiàn)突出,充分驗證了本方法對原生可變分辨率輸入的強泛化能力。



表 1:基于 LLaVA-1.5-7B 的多圖像理解基準測試對比



表 2:基于 Qwen2-VL-7B 的多圖像理解基準測試對比

2、視頻理解(LLaVA-OV-7B & Qwen2-VL-7B)

在視頻場景中,本方法同樣表現(xiàn)卓越:僅保留 25% 的 Token 時,綜合性能即達 98.6%,超越保留 30% Token 的 DyCoke(97.7%),以更少 Token 實現(xiàn)更優(yōu)性能;在長視頻任務(VideoMME-Long)上持續(xù)領跑,有效緩解了 VideoLLM 普遍存在的末幀偏置問題;在 Qwen2-VL-7B 場景下,僅保留 20% Token 時綜合性能達 93.3%,其中 MVBench 以 62.1 分大幅領先 DART(58.9)和 FastV(50.9),優(yōu)勢尤為突出。



表 3:基于 Qwen2-VL-7B 的多視頻理解基準測試性能對比



表 4:基于 LLaVA-OV-7B 的多視頻理解基準測試性能對比

3、效率分析(與高效算子完全兼容)

在效率層面,本方法同樣帶來顯著收益:圖文理解任務(LLaVA-1.5-7B)中,LLM 生成延遲降低 31.5%,吞吐量提升至 9.01 items/s(↑1.26×),峰值顯存同步下降 3.3%;視頻理解任務(LLaVA-OV-7B)中,LLM 生成延遲大幅削減 74.2%,吞吐量提升 1.38×,峰值顯存降低 7.8%。與之形成鮮明對比的是,SparseVLM、FastV、PDrop 在視頻場景下峰值顯存分別暴增 54.8%、39.2% 和 37.8%,而本方法無需計算注意力矩陣,真正實現(xiàn)了加速與節(jié)存的雙重收益。



表 5:圖像 / 視頻理解任務的效率對比

結論


V2Drop 為視覺語言模型的推理加速開辟了一條全新路徑。研究發(fā)現(xiàn),視覺 Token 在 LLM 各層間的變化量與其任務相關性高度吻合,且這一規(guī)律與具體任務無關(task-agnostic)?;谶@一洞察,V2Drop 以變化量為核心評估信號,構建了一套輕量、漸進、與高效算子完全兼容的 Token 壓縮框架 —— 無需修改模型權重,無需訪問注意力矩陣,即插即用。在圖像與視頻理解兩條賽道上均實現(xiàn)當前最優(yōu)性能 - 效率權衡。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
整天為印第安人叫屈,不如去黑龍江看看!海蘭泡先民更值得共情

整天為印第安人叫屈,不如去黑龍江看看!海蘭泡先民更值得共情

談史論天地
2026-04-11 14:10:03
馬蹄露公開信直擊保安局,怒懟張敬軒復出!

馬蹄露公開信直擊保安局,怒懟張敬軒復出!

廣州筍嘢益街坊
2026-04-15 21:46:37
天后麥當娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

天后麥當娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

七阿姨愛八卦
2026-04-09 09:32:37
附加賽中表現(xiàn)慘淡!開拓者內(nèi)線大閘到了季后賽能否強勢反彈呢?

附加賽中表現(xiàn)慘淡!開拓者內(nèi)線大閘到了季后賽能否強勢反彈呢?

稻谷與小麥
2026-04-16 01:00:16
印度人憤怒:中國人有那么多化肥,為什么不給我們用?

印度人憤怒:中國人有那么多化肥,為什么不給我們用?

步論天下事
2026-04-15 09:32:45
臺灣網(wǎng)友怕上海福建人在臺打黑工,網(wǎng)友回懟:令人發(fā)笑!

臺灣網(wǎng)友怕上海福建人在臺打黑工,網(wǎng)友回懟:令人發(fā)笑!

虔青
2026-04-14 21:03:30
受賄、行賄、洗錢,樊新中一審獲刑17年

受賄、行賄、洗錢,樊新中一審獲刑17年

新京報
2026-04-15 18:16:02
5月1日起,3萬元成“高壓線”!普通打工人、小老板、新規(guī)來了

5月1日起,3萬元成“高壓線”!普通打工人、小老板、新規(guī)來了

混沌錄
2026-04-14 20:16:08
廣州至廣州南環(huán)線列車,今天開通!全程6-7小時,票價488.5元起

廣州至廣州南環(huán)線列車,今天開通!全程6-7小時,票價488.5元起

南方都市報
2026-04-15 18:11:39
A股:剛剛,中央兩部門發(fā)布,釋放一信號,周四將迎來倒車行情

A股:剛剛,中央兩部門發(fā)布,釋放一信號,周四將迎來倒車行情

另子維愛讀史
2026-04-15 20:27:37
震驚!大同懸空寺在公路旁砌墻“不讓免費看”,當?shù)鼐W(wǎng)友發(fā)帖反駁

震驚!大同懸空寺在公路旁砌墻“不讓免費看”,當?shù)鼐W(wǎng)友發(fā)帖反駁

火山詩話
2026-04-14 06:27:39
世界最強大核動力航母:“肯尼迪”完成首輪試航,服役期可達50年

世界最強大核動力航母:“肯尼迪”完成首輪試航,服役期可達50年

說宇宙
2026-04-15 16:00:50
特朗普快要崩潰了!內(nèi)塔尼亞胡手握核彈:以色列叫囂重啟對伊打擊

特朗普快要崩潰了!內(nèi)塔尼亞胡手握核彈:以色列叫囂重啟對伊打擊

普覽
2026-04-15 21:30:56
最差局面出現(xiàn),伊朗最想要的中國給了?不到24小時,美國喊話中國

最差局面出現(xiàn),伊朗最想要的中國給了?不到24小時,美國喊話中國

流史歲月
2026-04-13 15:00:08
女人等你泡她,會露出這6個行為,尤其有老公的女人 越明顯越真實

女人等你泡她,會露出這6個行為,尤其有老公的女人 越明顯越真實

荷蘭豆愛健康
2026-04-16 00:40:45
馬奎爾在2026斯諾克世錦賽資格賽期間情緒失控,因沮喪而猛捶球桌

馬奎爾在2026斯諾克世錦賽資格賽期間情緒失控,因沮喪而猛捶球桌

林子說事
2026-04-15 10:29:34
歷史上五次神奇的巧合,讓人們不禁懷疑,世界可能真是一個輪回

歷史上五次神奇的巧合,讓人們不禁懷疑,世界可能真是一個輪回

銘記歷史呀
2026-04-15 18:27:39
油價要跌破天了!4月15日油價迎來大幅暴跌,調(diào)價后全國油價價格

油價要跌破天了!4月15日油價迎來大幅暴跌,調(diào)價后全國油價價格

劉哥談體育
2026-04-15 04:05:53
斯波直言三球該被驅(qū)逐!鮑爾準絕殺戴大金鏈:轟30+10自我救贖

斯波直言三球該被驅(qū)逐!鮑爾準絕殺戴大金鏈:轟30+10自我救贖

顏小白的籃球夢
2026-04-15 11:00:09
田馥甄回應拒絕浪姐邀約后續(xù)!網(wǎng)友怒斥:但凡敢來,投訴到底

田馥甄回應拒絕浪姐邀約后續(xù)!網(wǎng)友怒斥:但凡敢來,投訴到底

談史論天地
2026-04-15 11:32:58
2026-04-16 01:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142629關注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國全票通過 “將不義之財歸還中國”

頭條要聞

法國全票通過 “將不義之財歸還中國”

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

本地
游戲
時尚
房產(chǎn)
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

萍萍、浩浩媽新作眾籌超原目標2500%!想沖的人太多

赫本愛穿的傘裙,好優(yōu)雅!

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學用地!寶龍城這把穩(wěn)了?

軍事要聞

萬斯:對當前美伊局勢進展“感到樂觀”

無障礙瀏覽 進入關懷版