无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ICML 2026|首個視覺語言模型并行思考框架,一文解析內在機制

0
分享至



當前,測試時擴展范式普遍致力于增加推理長度。然而,已有研究表明,隨著推理長度的持續增長,以垂直擴展為核心的計算范式容易陷入探索僵化等問題。因此,從另一維度拓展推理的寬度顯得尤為重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理寬度方面開展了有益的探索。

但另一方面,在視覺任務中,深度推理仍面臨嚴峻挑戰:隨著推理序列的拉長,模型對視覺特征的注意力被不斷稀釋,導致 “注意力漂移”,進而引發嚴重的視覺幻覺。

為此,我們提出了 Visual Para-Thinker:這一針對大規模視覺語言模型的首個并行思考框架,并分析了該并行思考框架在視覺任務中發揮作用的內在機制。我們將 Pa-Attention(并行注意力機制)和 LPRoPE (分段學習位置編碼)機制融入到我們的方法中,從而實現了不同推理路徑隔離性、無偏性和可區分性。



  • 論文標題:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
  • 論文鏈接: https://arxiv.org/abs/2602.13310
  • 主頁鏈接: https://github.com/xuhaoran1/Visual-Para-Thinker

并行推理路徑:以視覺為中心劃分

過往研究提出的并行思考范式,其核心在于通過拓展推理寬度以提升模型性能,基本原則是 “保持推理路徑的多樣性”。我們的 Visual Para-Thinker 同樣遵循這一原則。然而,針對視覺語言模型的特性,我們進一步提出了一種以視覺為中心的路徑劃分方式,并認為其本質在于對視覺 token 注意力的重新分配。由此提出了兩種視覺劃分的分配模式:塊劃分和掃描劃分



塊劃分:這種策略是根據特定的區域子圖來劃分推理路徑的。在這個配置方面,每條路徑都會吸引獨特的視覺注意力分布,這種分布集中在指定的子區域,例如左上角、右上角、左下角或右下角等象限,如圖 (a) 所示。

掃描劃分:這種方法通過采用不同的視覺掃描軌跡來區分推理路徑。具體而言,每條路徑代表一種獨特的視覺注意力分配,這種分配對應于一個預定義的掃描順序,例如從左到右、從上到下、從右到左以及從下到上,如圖 (b) 所示。

這兩種視覺劃分方式各有優劣:塊劃分雖然能夠生成不同的子區域,但可能導致不同路徑之間的計算冗余;而掃描劃分雖結構簡潔,卻容易削弱路徑之間的多樣性。為此,我們采用混合訓練策略,將兩種劃分方式生成的數據共同用于模型訓練,以實現優勢互補。



塊劃分方式下不同路徑的對視覺令牌注意力分配模式可視化

視覺并行思考框架

基于以上兩種視覺路徑的劃分方式,我們提出了視覺并行思考框架。該框架分為并行思考階段和總結階段,并維護了不同并行推理路徑的隔離性、無偏性和可區分性

  • 并行思考階段:基于共同的上下文,通過視覺劃分這一理念,分配不同推理路徑的思考方向
  • 總結階段:將不同并行推理路徑的背景信息進行整合,并綜合考慮這些信息以得出最終結論。



隔離性

為了保證推理路徑的隔離性,我們提出了Path-aware Attention (路徑感知注意力),不同于因果注意力,路徑感知注意力通過不同 < think i > 的特殊 token 實現不同路徑的上下文隔離范式。



無偏性

為了保證推理路徑的可區分性,過往的做法將不同路徑的 position id 賦予不同的區間實現路徑的之間的可區分性。然而,由于大語言模型的固有偏差,此時不同區間的 position id 存在先后順序,會出現 loss in the middle 等現象,不同路徑的思考權重會存在天生的位置偏差,我們認為這種方法因為不能將不同推理路徑等同看待,本質上依然是串行思考。基于以上見解,我們將不同路徑的 position id 賦予相同的區間,具體來說,在并行推理階段,不同路徑的起始 token 的 position id 相同



而在總結階段,總結 token 的起始 token 則取最長的推理路徑的結束 token 的 position id + 1



這使得不同推理路徑在 Visual Para-Thinker 模型看來不存在固有的位置偏差,因而保證了無偏性。

可區分性

然而,上述將不同路徑的位置編碼映射為同一區間的做法僅僅保證了其無偏性,但損傷了不同路徑的可區分性。如果直接使用這種位置編碼,會導致 Visual Para-Thinker 混淆不同的推理路徑,導致最后的結果錯誤。因而我們提出了Learnable Parallel Rotary Position Embedding (LPRoPE),具體來說,我們在不同 token 進行旋轉位置編碼之前,加入該 token 屬于的推理路徑的可學習位置編碼,將旋轉位置編碼和可學習的絕對位置編碼相結合,最終實現路徑的可區分性。



數據與實驗

訓練配方

我們構建了一個包含 163,000 個問題 - 答案對的并行推理數據集,數據來源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。

在我們的數據構建框架中,Qwen3-VL-235B-A22BInstruct 充當教師模型。我們通過在溫度為 0.1 的條件下實施一種融合了基于塊的分區和掃描順序分區的混合視覺分區策略,為每個樣本生成四條以視覺為中心的推理路徑。此外,我們還利用高溫的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 來生成更多樣化的數據和檢查樣本。



圖一

實驗結果

我們的實驗主要在在以視覺為中心的視覺感知類任務中進行,包括計數任務 (Pixmo,CountBench)、視覺搜索 (V*)、幻覺任務 (MMVP、HallusionBench) 及視覺定位 (RefCOCO) 等多種視覺感知任務,通過開展大量實驗驗證了所提方法的有效性。如圖一所示,我們的方法在 V * 任務上分別在 3B 和 7B 上獲得了 12.6 和 6.3 的提升,另一方面,在幻覺任務上 HallusionBench 上,我們的方法在 3B 和 7B 上獲得了 6.1 和 5.0 的提升。這充分驗證了多模態并行推理在視覺感知類任務上的提升。另一方面,在 Grounding 任務中,相比于原始的 Qwen2.5-VL,我們的方法也獲得了一定程度上的提升,這些實驗從各個方面驗證了我們的方法的有效性。



圖二

此外,我們還探討了不同視覺任務對劃分模式的偏好。以計數任務為例,其視覺注意力通常分散于圖像各處。若采用塊劃分,各路徑的計算結果可能因區域重疊而產生累積偏差,進而引發幻覺。因此,在此類任務中,我們傾向于使用掃描劃分。

從本質上看,塊劃分方式通過將不同圖像區域分配給不同路徑,實現了顯式的注意力分配;而掃描劃分方式則通過改變模型對視覺 token 的注意順序與方式,形成一種隱式的注意力分配機制,最終同樣映射為多樣化的推理路徑。前者體現了從全局到局部的設計思路,后者則仍保留全局視角。



塊劃分方式可能導致不同推理重復計算

Visual Para-Thinker 是將并行思考框架應用于視覺語言領域的拋磚引玉之作,之后我們會將并行思考 RL,多輪思考,Agentic RL 等方法陸續應用在 Visual Para-Thinker 中,將 Visual Para-Thinker 實現更快更好的擴展。隨著 K2.5,Step3-VL 和 LongCat-Flash-Thinking 等基座模型關注到并行思考這一范式,我們相信這一范式日后會爆發出巨大潛力。

作者簡介

許浩然,浙江大學碩士。研究方向為 Multi-Agent、Multi-Modal、RL等。以第一/共一作者身份在 ICML、ACL、CVPR、AAAI、ICLR等國際頂級會議發表多篇論文。通訊單位為小米MiLMPlus團隊。通訊作者為李佳澤,現任小米高級算法工程師,研究方向為Multi-Agent, Agentic RL。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
少婦人妻身材的天花板:這才是成熟女人該有的“背影殺”

少婦人妻身材的天花板:這才是成熟女人該有的“背影殺”

只要高興就好
2026-05-25 13:17:25
2026年5月1日起從嚴整治,體制內人員務必嚴守九條紅線

2026年5月1日起從嚴整治,體制內人員務必嚴守九條紅線

職場資深秘書
2026-05-22 21:01:25
留神峪爆炸瞬間監控公布 礦難傷員回憶爆炸驚魂時刻

留神峪爆炸瞬間監控公布 礦難傷員回憶爆炸驚魂時刻

閃電新聞
2026-05-25 12:23:50
俄方帶19國記者看被炸學院,盧宇光:太恐怖了

俄方帶19國記者看被炸學院,盧宇光:太恐怖了

桂系007
2026-05-24 23:42:48
杜倫成功入選三陣!可簽5年2.87億美元超級頂薪

杜倫成功入選三陣!可簽5年2.87億美元超級頂薪

體壇周報
2026-05-25 07:53:11
洪濤回應歌手淘汰庾澄慶:難以理喻,但不驚訝

洪濤回應歌手淘汰庾澄慶:難以理喻,但不驚訝

韓小娛
2026-05-25 09:10:38
33歲戰神淚流滿面!6萬人高唱你永不獨行 自宣下一站:遙遠的地方

33歲戰神淚流滿面!6萬人高唱你永不獨行 自宣下一站:遙遠的地方

風過鄉
2026-05-25 07:38:15
搶單了!中俄天然氣談崩

搶單了!中俄天然氣談崩

安安說
2026-05-24 15:18:06
汪峰和4個孩子合體音樂會!醒醒彈琴落落大方,3個女兒3個母親

汪峰和4個孩子合體音樂會!醒醒彈琴落落大方,3個女兒3個母親

林大師熱點
2026-05-24 22:59:33
昨夜計劃降落武漢的暴雨何以幸運落空?今天還有暴雨嗎?最新預報來了

昨夜計劃降落武漢的暴雨何以幸運落空?今天還有暴雨嗎?最新預報來了

極目新聞
2026-05-25 11:43:06
大結局:隨著格列茲曼助攻+馬競1-5,西甲終極積分榜出爐

大結局:隨著格列茲曼助攻+馬競1-5,西甲終極積分榜出爐

側身凌空斬
2026-05-25 07:48:49
“基輔所有地區均遭破壞”,英法等五國否決加大對烏援助方案

“基輔所有地區均遭破壞”,英法等五國否決加大對烏援助方案

近距離
2026-05-25 12:08:12
重慶市永川區人大常委會黨組成員、副主任王寒峰被查

重慶市永川區人大常委會黨組成員、副主任王寒峰被查

新京報
2026-05-24 21:56:13
中國反制落地,日本客機免費通行,日航損失慘重,高市已付出代價

中國反制落地,日本客機免費通行,日航損失慘重,高市已付出代價

破鏡難圓
2026-05-24 09:44:59
謝霆鋒沒說謊!張柏芝三胎生父曝光,謝賢前女友再爆內幕

謝霆鋒沒說謊!張柏芝三胎生父曝光,謝賢前女友再爆內幕

星星沒有你亮
2026-05-24 23:32:54
還好有一個美國人!最佳一陣出爐,SGA約基奇文班077都是國際球員

還好有一個美國人!最佳一陣出爐,SGA約基奇文班077都是國際球員

無術不學
2026-05-25 08:57:19
楊梅協會會長出面求放過?看看水產協會當年是怎么把三文魚搞臭的

楊梅協會會長出面求放過?看看水產協會當年是怎么把三文魚搞臭的

北歐模式
2026-05-25 11:55:10
張海迪是個謎!她1955年出生,雖然曾患有多種疾病,但面色紅潤

張海迪是個謎!她1955年出生,雖然曾患有多種疾病,但面色紅潤

歲月有情1314
2026-05-23 01:19:55
上面有解放軍,下有公安特警,為什么我國還死抓著武警不放?

上面有解放軍,下有公安特警,為什么我國還死抓著武警不放?

阿芒娛樂說
2026-05-25 08:28:21
純中國血統芬蘭國手薩拉新賽季12秒86開局 比中國賽季最佳快0.20秒

純中國血統芬蘭國手薩拉新賽季12秒86開局 比中國賽季最佳快0.20秒

勁爆體壇
2026-05-24 19:07:01
2026-05-25 14:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13074文章數 142652關注度
往期回顧 全部

科技要聞

華為發表半導體演進新定律

頭條要聞

媒體:對于日本訂購的400枚"戰斧"導彈 美國發出警告

頭條要聞

媒體:對于日本訂購的400枚"戰斧"導彈 美國發出警告

體育要聞

如果不好好守門,他可能早就繼承家業了

娛樂要聞

洪濤回應歌手淘汰庾澄慶:難以理喻

財經要聞

退市!33年“A股不死鳥”落幕

汽車要聞

國民家轎再上新 帝豪向上系列限時5.59萬起

態度原創

教育
旅游
親子
房產
公開課

教育要聞

中高考系列講座(22)去接近自然吧

旅游要聞

棗莊冠世榴園榴花灼灼紅染初夏

親子要聞

孩子提高免疫力吃什么牌子維生素?小金維他vs湯臣倍健vs康恩貝

房產要聞

瘋狂周末,海口樓市突然爆了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版