![]()
當前,測試時擴展范式普遍致力于增加推理長度。然而,已有研究表明,隨著推理長度的持續增長,以垂直擴展為核心的計算范式容易陷入探索僵化等問題。因此,從另一維度拓展推理的寬度顯得尤為重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理寬度方面開展了有益的探索。
但另一方面,在視覺任務中,深度推理仍面臨嚴峻挑戰:隨著推理序列的拉長,模型對視覺特征的注意力被不斷稀釋,導致 “注意力漂移”,進而引發嚴重的視覺幻覺。
為此,我們提出了 Visual Para-Thinker:這一針對大規模視覺語言模型的首個并行思考框架,并分析了該并行思考框架在視覺任務中發揮作用的內在機制。我們將 Pa-Attention(并行注意力機制)和 LPRoPE (分段學習位置編碼)機制融入到我們的方法中,從而實現了不同推理路徑隔離性、無偏性和可區分性。
![]()
- 論文標題:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
- 論文鏈接: https://arxiv.org/abs/2602.13310
- 主頁鏈接: https://github.com/xuhaoran1/Visual-Para-Thinker
并行推理路徑:以視覺為中心劃分
過往研究提出的并行思考范式,其核心在于通過拓展推理寬度以提升模型性能,基本原則是 “保持推理路徑的多樣性”。我們的 Visual Para-Thinker 同樣遵循這一原則。然而,針對視覺語言模型的特性,我們進一步提出了一種以視覺為中心的路徑劃分方式,并認為其本質在于對視覺 token 注意力的重新分配。由此提出了兩種視覺劃分的分配模式:塊劃分和掃描劃分
![]()
塊劃分:這種策略是根據特定的區域子圖來劃分推理路徑的。在這個配置方面,每條路徑都會吸引獨特的視覺注意力分布,這種分布集中在指定的子區域,例如左上角、右上角、左下角或右下角等象限,如圖 (a) 所示。
掃描劃分:這種方法通過采用不同的視覺掃描軌跡來區分推理路徑。具體而言,每條路徑代表一種獨特的視覺注意力分配,這種分配對應于一個預定義的掃描順序,例如從左到右、從上到下、從右到左以及從下到上,如圖 (b) 所示。
這兩種視覺劃分方式各有優劣:塊劃分雖然能夠生成不同的子區域,但可能導致不同路徑之間的計算冗余;而掃描劃分雖結構簡潔,卻容易削弱路徑之間的多樣性。為此,我們采用混合訓練策略,將兩種劃分方式生成的數據共同用于模型訓練,以實現優勢互補。
![]()
塊劃分方式下不同路徑的對視覺令牌注意力分配模式可視化
視覺并行思考框架
基于以上兩種視覺路徑的劃分方式,我們提出了視覺并行思考框架。該框架分為并行思考階段和總結階段,并維護了不同并行推理路徑的隔離性、無偏性和可區分性
- 并行思考階段:基于共同的上下文,通過視覺劃分這一理念,分配不同推理路徑的思考方向
- 總結階段:將不同并行推理路徑的背景信息進行整合,并綜合考慮這些信息以得出最終結論。
![]()
隔離性
為了保證推理路徑的隔離性,我們提出了Path-aware Attention (路徑感知注意力),不同于因果注意力,路徑感知注意力通過不同 < think i > 的特殊 token 實現不同路徑的上下文隔離范式。
![]()
無偏性
為了保證推理路徑的可區分性,過往的做法將不同路徑的 position id 賦予不同的區間實現路徑的之間的可區分性。然而,由于大語言模型的固有偏差,此時不同區間的 position id 存在先后順序,會出現 loss in the middle 等現象,不同路徑的思考權重會存在天生的位置偏差,我們認為這種方法因為不能將不同推理路徑等同看待,本質上依然是串行思考。基于以上見解,我們將不同路徑的 position id 賦予相同的區間,具體來說,在并行推理階段,不同路徑的起始 token 的 position id 相同
![]()
而在總結階段,總結 token 的起始 token 則取最長的推理路徑的結束 token 的 position id + 1
![]()
這使得不同推理路徑在 Visual Para-Thinker 模型看來不存在固有的位置偏差,因而保證了無偏性。
可區分性
然而,上述將不同路徑的位置編碼映射為同一區間的做法僅僅保證了其無偏性,但損傷了不同路徑的可區分性。如果直接使用這種位置編碼,會導致 Visual Para-Thinker 混淆不同的推理路徑,導致最后的結果錯誤。因而我們提出了Learnable Parallel Rotary Position Embedding (LPRoPE),具體來說,我們在不同 token 進行旋轉位置編碼之前,加入該 token 屬于的推理路徑的可學習位置編碼,將旋轉位置編碼和可學習的絕對位置編碼相結合,最終實現路徑的可區分性。
![]()
數據與實驗
訓練配方
我們構建了一個包含 163,000 個問題 - 答案對的并行推理數據集,數據來源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。
在我們的數據構建框架中,Qwen3-VL-235B-A22BInstruct 充當教師模型。我們通過在溫度為 0.1 的條件下實施一種融合了基于塊的分區和掃描順序分區的混合視覺分區策略,為每個樣本生成四條以視覺為中心的推理路徑。此外,我們還利用高溫的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 來生成更多樣化的數據和檢查樣本。
![]()
圖一
實驗結果
我們的實驗主要在在以視覺為中心的視覺感知類任務中進行,包括計數任務 (Pixmo,CountBench)、視覺搜索 (V*)、幻覺任務 (MMVP、HallusionBench) 及視覺定位 (RefCOCO) 等多種視覺感知任務,通過開展大量實驗驗證了所提方法的有效性。如圖一所示,我們的方法在 V * 任務上分別在 3B 和 7B 上獲得了 12.6 和 6.3 的提升,另一方面,在幻覺任務上 HallusionBench 上,我們的方法在 3B 和 7B 上獲得了 6.1 和 5.0 的提升。這充分驗證了多模態并行推理在視覺感知類任務上的提升。另一方面,在 Grounding 任務中,相比于原始的 Qwen2.5-VL,我們的方法也獲得了一定程度上的提升,這些實驗從各個方面驗證了我們的方法的有效性。
![]()
圖二
此外,我們還探討了不同視覺任務對劃分模式的偏好。以計數任務為例,其視覺注意力通常分散于圖像各處。若采用塊劃分,各路徑的計算結果可能因區域重疊而產生累積偏差,進而引發幻覺。因此,在此類任務中,我們傾向于使用掃描劃分。
從本質上看,塊劃分方式通過將不同圖像區域分配給不同路徑,實現了顯式的注意力分配;而掃描劃分方式則通過改變模型對視覺 token 的注意順序與方式,形成一種隱式的注意力分配機制,最終同樣映射為多樣化的推理路徑。前者體現了從全局到局部的設計思路,后者則仍保留全局視角。
![]()
塊劃分方式可能導致不同推理重復計算
Visual Para-Thinker 是將并行思考框架應用于視覺語言領域的拋磚引玉之作,之后我們會將并行思考 RL,多輪思考,Agentic RL 等方法陸續應用在 Visual Para-Thinker 中,將 Visual Para-Thinker 實現更快更好的擴展。隨著 K2.5,Step3-VL 和 LongCat-Flash-Thinking 等基座模型關注到并行思考這一范式,我們相信這一范式日后會爆發出巨大潛力。
作者簡介
許浩然,浙江大學碩士。研究方向為 Multi-Agent、Multi-Modal、RL等。以第一/共一作者身份在 ICML、ACL、CVPR、AAAI、ICLR等國際頂級會議發表多篇論文。通訊單位為小米MiLMPlus團隊。通訊作者為李佳澤,現任小米高級算法工程師,研究方向為Multi-Agent, Agentic RL。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.