網易首頁 > 網易號 > 正文 申請入駐

Monet:賦予多模態大模型如人類一般的抽象視覺思考能力

0
分享至



“Think with images”范式,即通過工具調用或代碼生成等方法來在思考過程的中間步引入輔助圖像(如裁剪、標定、作輔助線等),已經成為增強多模態大語言模型(MLLMs)視覺推理能力的重要范式。這類方案雖然取得了不錯的效果,但其對外部工具的依賴性也導致了幾個局限性:

  • 訓練和推理復雜度高:訓練時模型需要額外地學習各種工具和函數接口的使用方式,引入了額外的訓練難度;同時,多輪的交互式推理增加了推理延遲。
  • 操作類型受限:模型的能力受限于工具類型,難以泛化到簡單工具無法應對的復雜任務上。
  • 難以擴展為通用能力:每增加一類工具,就要重新標注數據、設計接口,模型更像“工具調度中心”,而不是在真正“理解和想象”。

Monet實現了一種訓練MLLM直接在連續的隱空間思考的 Think with image 方法,不再依賴外部工具或代碼,而是通過生成連續的“隱式視覺嵌入”(latent visual embeddings),像人一樣在腦海中“打草稿、畫草圖、做空間想象”,再給出答案,從而將視覺思考能力真正內化。團隊核心成員包括北京大學博士生王啟迅、史陽以及來自Amazon AGI SF Lab的王一飛。指導老師包括來自快手可靈團隊的張遠行和北京大學的英向華、王奕森。該工作已被 CVPR 2026 錄用。



  • 論文標題:Monet: Reasoning in Latent Visual Space Beyond Images and Language
  • 論文鏈接:https://arxiv.org/abs/2511.21395
  • 代碼鏈接:https://github.com/NOVAglow646/Monet
  • 模型鏈接:https://huggingface.co/NOVAglow646/Monet-7B
  • 數據集鏈接:https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K

訓練多模態模型進行隱式視覺推理的挑戰

多模態模型的隱式推理的訓練存在兩大難點:

一、隱式嵌入(latent embedding)的監督信號難以獲取。一種直觀的思路是直接對齊模型生成的隱式嵌入(即模型最后一層的表示)和中間步輔助圖像的表示,來讓隱式嵌入編碼輔助圖像信息(如近期的幾項工作[1-2])。然而,輔助圖像的token數量往往成百上千,直接對齊會引入高昂的計算和存儲開銷,因此現有工作選擇壓縮圖像token為10個左右,或只取關鍵區域的少數token進行對齊。這進一步導致了細粒度視覺信息丟失、只能編碼裁剪區域的視覺信息而無法編碼全圖操作的信息。

二、隱式嵌入難以被真正優化。監督微調(SFT)過程中,常規的“預測下一個詞”(next-token-prediction)的目標很容易通過“記住”訓練數據實現,從而繞過對隱式嵌入的優化;此外,強化學習(RL)過程中,常規的GRPO只能在文本token上計算損失,導致了獎勵信號難以直接施加到隱式嵌入上。

方法概覽:

監督微調 + 強化學習激發隱式視覺推理能力

為了讓模型學會在隱空間進行視覺思考,作者提出了一個監督微調(SFT)+強化學習(RL)的訓練框架,以Qwen2.5-VL-7B為基模型進行訓練。訓練后的模型Monet-7B能在推理過程中自主決定何時啟動隱式思考,并生成一個特殊標記(如“

”),此后輸出的若干向量,不再對應可讀文字,而是被視作一段隱式的視覺嵌入插入思維鏈中。當隱式嵌入達到預設的長度后,將回到語言推理模式。上述過程可在一次推理中交替進行。



圖1左圖:Monet的推理過程示意。右圖:Monet的三階段SFT和RL(VLPO為作者提出的全新強化學習算法)過程示意。

SFT數據集構建:Monet-SFT-125K

雖然目前已有不少公開的圖文交錯的思維鏈數據集[3-6],但它們存在如下的局限性:

1.某些輔助圖像缺乏必要性:問題簡單,不用輔助圖像就能做對;

2.某些輔助圖像不準確:比如裁剪區域與答案無關;

3.缺少對于真正有價值的token的標注:比如與答案最相關的少數關鍵token等。

為了解決上述缺陷,作者提出了一個多階段的數據集校正流程。如下圖所示,從現有的圖文交錯CoT第一階段選出在只給出問題和輸入圖像時Qwen2.5-VL-7B回答錯誤的樣本以保證使用輔助圖像的必要性;

第二階段在第一輪得到的樣本中,篩選出僅給出問題和輔助圖像(沒有問題圖像)時較強模型(Qwen2.5-VL-72B)能回答對的樣本,以確保輔助圖像的準確性;

第三階段,使用了閉源模型將對應于輔助圖像中的關鍵視覺信息的文本token標注出來,以作為后續訓練的監督信號。

最終得到的Monet-SFT-125K包含多種類型的視覺操作(裁剪、標定、做輔助線、生成新的視覺狀態)和任務(以真實世界、圖表、OCR任務為主)。



圖2Monet-SFT-125K數據集的構建流程

監督微調:

讓模型自主將輔助圖像中的有價值信息編碼進隱式嵌入

SFT分成三個階段。

SFT第一階段:預熱。先在構建的Monet-SFT-125K上進行預熱(warm-up)微調,這一步是為了讓模型適應圖文交錯的推理模式。若沒有這一過程,模型將容易忽略思維鏈中間的輔助圖像,如圖3所示。該步獲取的模型權重將用于后續階段。



圖3 預熱微調過程中模型對于訓練數據中對應于關鍵觀察的token的預測準確性。藍色:給出輔助圖像。灰色虛線:移除輔助圖像。綠色:二者準確率差值。隨著預熱的進行,使用輔助圖像相比不使用時準確率的提升越來越大,說明模型逐步學會利用中間步圖像。

SFT第二階段:獲取高質量的隱式嵌入。這一階段是為了獲取產生高質量的隱式嵌入來作為第三階段的對齊目標。為了避免直接對齊隱式嵌入和輔助圖像嵌入所帶來的高額開銷,作者提出了使用兩種監督信號來指導隱式嵌入的生成。首先,為了使隱式嵌入能發揮與輔助圖像相似的效果,作者提出對齊給定輔助圖像和給定隱式嵌入時后續關鍵token的模型中間層表示(分別對應于圖4中的“Teacher CoT”和“Student CoT”),即,采用如下的對齊損失:





另外,為了使對齊損失確確實實是通過調整隱式嵌入而不是被“走捷徑”優化的,作者提出讓對齊損失的梯度僅能通過隱式嵌入流向模型參數。實現細節可見原文。





圖4 SFT第二階段示意。包含對齊損失和next-token-prediction損失兩部分。其中Teacher CoT為包含輔助圖像的圖文交錯CoT;Student CoT中輔助圖像后為生成的隱式嵌入,且輔助圖像能且僅能被隱式嵌入可見。

SFT第三階段:讓模型學會“從零開始”隱式思考。由于上一階段隱式嵌入的產生是在隱式嵌入直接可見輔助圖像的情況下的,這與實際應用時存在差異。

為此,在第三階段中,作者將第二階段訓練后模型產生的高質量隱式嵌入作為目標,讓模型在不可見輔助圖像情況時產生的隱式嵌入與之對齊,如圖5所示。

同時這一階段仍包含next-token-prediction損失,以讓隱式嵌入幫助后續推理。



圖5 SFT第三階段示意。這一階段的目標為對齊無輔助圖像時產生的隱式嵌入和來自第二階段的高質量目標隱式嵌入。VLPO:專為隱式思考設計的強化學習



為此,作者提出了VLPO(Visual-latent policy optimization),通過估計隱式嵌入的生成概率來將其納入損失函數的計算之中。







Monet帶來了分布內和分布外視覺推理能力的提升



圖6 分布內的感知和推理任務上的性能(真實世界、圖表、OCR任務)



圖7 分布外視覺推理任務上的性能(抽象視覺推理任務)

主要結果:作者在分布內任務(真實世界、圖表、OCR)和分布外任務(抽象視覺推理)上測試了Monet-7B。

結果如圖6和圖7所示,Monet超過了SFT、SFT+GRPO以及現有的think with images和隱式視覺推理的基線。相比基模型,在分布內和分布外任務分別取得了3%~9.75%和2.31%的提升。



圖8 消融實驗。“Latent-only” BP為SFT階段二中讓對齊損失的梯度僅流向隱式嵌入的設計;“auxiliary img”為SFT階段二中在student COT中引入輔助圖像的操作。

消融實驗:作者通過全面的消融實驗驗證了SFT階段各組件的必要性,以及提出的VLPO在SFT模型(Monet-SFT)基礎上帶來的進一步提升。

值得注意的是,在Monet-SFT基礎上進一步進行GRPO并不能帶來穩定的提升,印證了GRPO的局限性。

探究隱式嵌入數量對性能的影響



圖9 橫軸:測試時隱式嵌入數量。縱軸:測試準確率。三條綠色線為Monet-SFT模型,訓練時隱式嵌入數量分別為8、10、12;藍色為SFT(K=8)+VLPO(K=10);粉色為SFT(K=8)+GRPO.

作者探究了不同的訓練時和測試時隱式嵌入數量K對性能的影響。核心觀察總結如下:

  • 對于分布內任務,使用隱式思考確實相比純文本思考能帶來提升;對于分布外任務,只有經過VLPO訓練的模型的隱式思考能相比純文本帶來額外提升。
  • 對于分布內任務,Monet-SFT模型展現出了測試時的縮放定律(test-time scaling law):測試時隨著隱式嵌入數量(甚至遠超訓練時所見到的長度)增加性能上升;對于分布外任務,只有VLPO展現出了這一趨勢;
  • GRPO主要提升非隱式思考的性能(測試時latent size=0),而對于隱式思考(測試時latent size>0)提升不明顯。

更多細節請參考原文。

參考文獻:

[1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.

[2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.

[3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024

[4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.

[5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025

[6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
68歲萬梓良現狀,多種病纏身,拼命賺錢養家,兒子繼承帥氣外貌

68歲萬梓良現狀,多種病纏身,拼命賺錢養家,兒子繼承帥氣外貌

看盡落塵花q
2026-04-25 17:59:55
全球旗艦增程SUV,續航超1600km,僅售29萬多,實力不輸理想L9

全球旗艦增程SUV,續航超1600km,僅售29萬多,實力不輸理想L9

隔壁說車老王
2026-04-26 07:53:19
往返400公里,京冀跨省通勤者的生活賬本

往返400公里,京冀跨省通勤者的生活賬本

新京報
2026-04-23 07:52:18
全球男女壽命越拉越大!Nature:雄激素是關鍵,抑制可多活20%

全球男女壽命越拉越大!Nature:雄激素是關鍵,抑制可多活20%

思思夜話
2026-04-25 11:05:11
羽毛球“21分制”將成歷史!使用近20年,世界羽聯宣布新規

羽毛球“21分制”將成歷史!使用近20年,世界羽聯宣布新規

都市快報橙柿互動
2026-04-26 08:10:36
發電量不多,偷電量極大!印度老百姓:電是神賜予的,所以免費

發電量不多,偷電量極大!印度老百姓:電是神賜予的,所以免費

小嵩
2026-04-23 11:26:38
又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國犬種爭了口氣

又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國犬種爭了口氣

童叔不飆車
2026-04-25 21:05:32
與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

鋒芒點兵
2026-04-19 11:50:21
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
你以為麻豆傳媒是賣片的,其實它是賣人的

你以為麻豆傳媒是賣片的,其實它是賣人的

創始人筆記
2026-04-23 21:44:50
剛剛!東莞全城沸騰!

剛剛!東莞全城沸騰!

東莞好生活
2026-04-25 22:48:44
約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

小影的娛樂
2026-04-11 16:46:06
恩愛14年夫妻憑《八千里路云和月》再度走紅

恩愛14年夫妻憑《八千里路云和月》再度走紅

荒野老五
2026-04-26 02:05:18
朱耷:對世界翻白眼的大明遺老,以極簡致美的風格,成為一代畫圣

朱耷:對世界翻白眼的大明遺老,以極簡致美的風格,成為一代畫圣

青林知青
2026-04-09 14:39:41
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
破冰宴還是鴻門宴?特朗普首赴記者晚宴前,被數百人聯名“硬剛”

破冰宴還是鴻門宴?特朗普首赴記者晚宴前,被數百人聯名“硬剛”

上觀新聞
2026-04-24 18:21:14
巴黎世家上新解放鞋,復古混搭70后,80后,90后,00后都喜歡

巴黎世家上新解放鞋,復古混搭70后,80后,90后,00后都喜歡

魔都姐姐雜談
2026-04-25 16:03:15
穆杰塔巴近況被曝,好慘!普京或冒險飛去伊朗見他,美國緊盯中國

穆杰塔巴近況被曝,好慘!普京或冒險飛去伊朗見他,美國緊盯中國

國際阿嘗
2026-04-26 08:24:55
日本皇室獨苗悠仁找媳婦,四個要求令人咋舌!

日本皇室獨苗悠仁找媳婦,四個要求令人咋舌!

鑒史錄
2026-04-26 05:54:21
泰山戰海牛時間變韓鵬也變,兩個千萬要牢記,或迎歷史級進球記錄

泰山戰海牛時間變韓鵬也變,兩個千萬要牢記,或迎歷史級進球記錄

安海客
2026-04-26 09:14:15
2026-04-26 11:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

藝術
數碼
教育
本地
公開課

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

數碼要聞

華為MatePad Mini迭代版:OLED四等邊、5G、NFC全來了,沒短板了

教育要聞

壓軸出場的題目,很多小朋友都失分了

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版