无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ICML 2026|首個視覺語言模型并行思考框架,一文解析內在機制

0
分享至



當前,測試時擴展范式普遍致力于增加推理長度。然而,已有研究表明,隨著推理長度的持續增長,以垂直擴展為核心的計算范式容易陷入探索僵化等問題。因此,從另一維度拓展推理的寬度顯得尤為重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理寬度方面開展了有益的探索。

但另一方面,在視覺任務中,深度推理仍面臨嚴峻挑戰:隨著推理序列的拉長,模型對視覺特征的注意力被不斷稀釋,導致 “注意力漂移”,進而引發嚴重的視覺幻覺。

為此,我們提出了 Visual Para-Thinker:這一針對大規模視覺語言模型的首個并行思考框架,并分析了該并行思考框架在視覺任務中發揮作用的內在機制。我們將 Pa-Attention(并行注意力機制)和 LPRoPE (分段學習位置編碼)機制融入到我們的方法中,從而實現了不同推理路徑隔離性、無偏性和可區分性。



  • 論文標題:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
  • 論文鏈接: https://arxiv.org/abs/2602.13310
  • 主頁鏈接: https://github.com/xuhaoran1/Visual-Para-Thinker

并行推理路徑:以視覺為中心劃分

過往研究提出的并行思考范式,其核心在于通過拓展推理寬度以提升模型性能,基本原則是 “保持推理路徑的多樣性”。我們的 Visual Para-Thinker 同樣遵循這一原則。然而,針對視覺語言模型的特性,我們進一步提出了一種以視覺為中心的路徑劃分方式,并認為其本質在于對視覺 token 注意力的重新分配。由此提出了兩種視覺劃分的分配模式:塊劃分和掃描劃分



塊劃分:這種策略是根據特定的區域子圖來劃分推理路徑的。在這個配置方面,每條路徑都會吸引獨特的視覺注意力分布,這種分布集中在指定的子區域,例如左上角、右上角、左下角或右下角等象限,如圖 (a) 所示。

掃描劃分:這種方法通過采用不同的視覺掃描軌跡來區分推理路徑。具體而言,每條路徑代表一種獨特的視覺注意力分配,這種分配對應于一個預定義的掃描順序,例如從左到右、從上到下、從右到左以及從下到上,如圖 (b) 所示。

這兩種視覺劃分方式各有優劣:塊劃分雖然能夠生成不同的子區域,但可能導致不同路徑之間的計算冗余;而掃描劃分雖結構簡潔,卻容易削弱路徑之間的多樣性。為此,我們采用混合訓練策略,將兩種劃分方式生成的數據共同用于模型訓練,以實現優勢互補。



塊劃分方式下不同路徑的對視覺令牌注意力分配模式可視化

視覺并行思考框架

基于以上兩種視覺路徑的劃分方式,我們提出了視覺并行思考框架。該框架分為并行思考階段和總結階段,并維護了不同并行推理路徑的隔離性、無偏性和可區分性

  • 并行思考階段:基于共同的上下文,通過視覺劃分這一理念,分配不同推理路徑的思考方向
  • 總結階段:將不同并行推理路徑的背景信息進行整合,并綜合考慮這些信息以得出最終結論。



隔離性

為了保證推理路徑的隔離性,我們提出了Path-aware Attention (路徑感知注意力),不同于因果注意力,路徑感知注意力通過不同 < think i > 的特殊 token 實現不同路徑的上下文隔離范式。



無偏性

為了保證推理路徑的可區分性,過往的做法將不同路徑的 position id 賦予不同的區間實現路徑的之間的可區分性。然而,由于大語言模型的固有偏差,此時不同區間的 position id 存在先后順序,會出現 loss in the middle 等現象,不同路徑的思考權重會存在天生的位置偏差,我們認為這種方法因為不能將不同推理路徑等同看待,本質上依然是串行思考。基于以上見解,我們將不同路徑的 position id 賦予相同的區間,具體來說,在并行推理階段,不同路徑的起始 token 的 position id 相同



而在總結階段,總結 token 的起始 token 則取最長的推理路徑的結束 token 的 position id + 1



這使得不同推理路徑在 Visual Para-Thinker 模型看來不存在固有的位置偏差,因而保證了無偏性。

可區分性

然而,上述將不同路徑的位置編碼映射為同一區間的做法僅僅保證了其無偏性,但損傷了不同路徑的可區分性。如果直接使用這種位置編碼,會導致 Visual Para-Thinker 混淆不同的推理路徑,導致最后的結果錯誤。因而我們提出了Learnable Parallel Rotary Position Embedding (LPRoPE),具體來說,我們在不同 token 進行旋轉位置編碼之前,加入該 token 屬于的推理路徑的可學習位置編碼,將旋轉位置編碼和可學習的絕對位置編碼相結合,最終實現路徑的可區分性。



數據與實驗

訓練配方

我們構建了一個包含 163,000 個問題 - 答案對的并行推理數據集,數據來源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。

在我們的數據構建框架中,Qwen3-VL-235B-A22BInstruct 充當教師模型。我們通過在溫度為 0.1 的條件下實施一種融合了基于塊的分區和掃描順序分區的混合視覺分區策略,為每個樣本生成四條以視覺為中心的推理路徑。此外,我們還利用高溫的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 來生成更多樣化的數據和檢查樣本。



圖一

實驗結果

我們的實驗主要在在以視覺為中心的視覺感知類任務中進行,包括計數任務 (Pixmo,CountBench)、視覺搜索 (V*)、幻覺任務 (MMVP、HallusionBench) 及視覺定位 (RefCOCO) 等多種視覺感知任務,通過開展大量實驗驗證了所提方法的有效性。如圖一所示,我們的方法在 V * 任務上分別在 3B 和 7B 上獲得了 12.6 和 6.3 的提升,另一方面,在幻覺任務上 HallusionBench 上,我們的方法在 3B 和 7B 上獲得了 6.1 和 5.0 的提升。這充分驗證了多模態并行推理在視覺感知類任務上的提升。另一方面,在 Grounding 任務中,相比于原始的 Qwen2.5-VL,我們的方法也獲得了一定程度上的提升,這些實驗從各個方面驗證了我們的方法的有效性。



圖二

此外,我們還探討了不同視覺任務對劃分模式的偏好。以計數任務為例,其視覺注意力通常分散于圖像各處。若采用塊劃分,各路徑的計算結果可能因區域重疊而產生累積偏差,進而引發幻覺。因此,在此類任務中,我們傾向于使用掃描劃分。

從本質上看,塊劃分方式通過將不同圖像區域分配給不同路徑,實現了顯式的注意力分配;而掃描劃分方式則通過改變模型對視覺 token 的注意順序與方式,形成一種隱式的注意力分配機制,最終同樣映射為多樣化的推理路徑。前者體現了從全局到局部的設計思路,后者則仍保留全局視角。



塊劃分方式可能導致不同推理重復計算

Visual Para-Thinker 是將并行思考框架應用于視覺語言領域的拋磚引玉之作,之后我們會將并行思考 RL,多輪思考,Agentic RL 等方法陸續應用在 Visual Para-Thinker 中,將 Visual Para-Thinker 實現更快更好的擴展。隨著 K2.5,Step3-VL 和 LongCat-Flash-Thinking 等基座模型關注到并行思考這一范式,我們相信這一范式日后會爆發出巨大潛力。

作者簡介

許浩然,浙江大學碩士。研究方向為 Multi-Agent、Multi-Modal、RL等。以第一/共一作者身份在 ICML、ACL、CVPR、AAAI、ICLR等國際頂級會議發表多篇論文。通訊單位為小米MiLMPlus團隊。通訊作者為李佳澤,現任小米高級算法工程師,研究方向為Multi-Agent, Agentic RL。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

健康
藝術
時尚
數碼
軍事航空

嘗試干細胞療法如何避免踩坑?

藝術要聞

339米!珠海第一高樓,形似“蛟龍出?!?/h3>

美回巔峰的她們,帶火的這些爆款真的好用嗎

數碼要聞

消息稱微軟下周發布英偉達處理器Windows PC,戴爾也會跟進

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版