機器之心發布
近日,Meta AI 與香港中文大學顛覆性提出了一種全新的視覺推理范式 ATLAS,不用外部工具,不顯式生成中間圖像,沒有視覺監督信號,只用一個離散 word,首次顛覆性地代替 Agentic 和 Latent Visual Reasoning
![]()
- Paper Link: https://arxiv.org/pdf/2605.15198
- Project Page: https://atlas-oneword.github.io
- Code: https://github.com/ZiyuGuo99/ATLAS
第一作者是香港中文大學的博士生,本科畢業于北京大學計算機系,曾在 Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能實驗室等機構實習,研究多模態大模型和生成理解統一,一作代表作有 Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP 等,主頁 https://ziyuguo99.github.io/。
![]()
TL;DR:
- 面對復雜的視覺推理任務,Unified Models、Agentic Visual Reasoning 和 Latent Visual Reasoning 往往被視為幾條不同路線:Unified Models 依賴顯式生成中間視覺狀態,直觀但開銷高,訓練復雜;Agentic 方法依賴外部工具或執行器,可解釋但流程重,且需要額外的中間監督;Latent 方法依賴模型內部表示,形式輕量,但往往需要額外結構設計或特殊訓練機制,可擴展性和泛化性差,還需要額外的過程監督。ATLAS 試圖打破這些范式,一個簡單的離散 Token (Functional Token)可以同時承擔幾種核心角色:作為 Agentic Operation,它高效地告訴我們模型正在執行什么視覺操作;作為 Latent Visual Reasoning Unit,它又能在模型內部高效參與推理,不需要中間圖像生成,且可擴展性和泛化性強,可以很輕易的擴展到大規模訓練和泛化到眾多領域任務。One Word is Enough for Both 的真正含義是一個 word,既是操作,也是思考。
- Agentic 和 Latent Visual Reasoning 并不矛盾,一個離散 Token 既可以代表完整且可解釋的視覺動作語義,也可以是模型內部的 Latent Visual Reasoning Unit。
- 稀疏的 Functional Token 需要專門優化。Funtional Token 雖少,但往往是視覺推理中的關鍵節點。LA-GRPO 通過 Token-level Anchor,讓模型更高效地學習這些關鍵視覺操作。
01 高效統一 Agentic 和 Latent Visual Reasoning
當大模型面對一道復雜的視覺推理題時,它到底應該怎么想?
一種直觀做法是讓模型顯式生成中間圖像或視覺狀態(Unified Models),再基于這些中間結果繼續推理。這種方式過程清楚,但往往需要反復解碼和再編碼視覺內容,帶來較高的計算開銷,也讓訓練和架構設計變得更加復雜,需要額外的視覺監督,且通用性較差。還有一類方法(Agentic Visual Reasoning)則把視覺推理做得更加外顯:模型通過代碼、工具調用或外部執行器來完成畫線、標注、裁剪、放大等視覺操作。
這類 Agentic Visual Reasoning 具有較好的可解釋性,但引入了額外的工具執行延遲,常常需要冗長的操作調用描述,且同樣需要額外的執行過程監督。
而 Latent Visual Reasoning 試圖把中間推理壓縮到模型內部表示中,避免顯式生成圖像或調用外部工具。它更加輕量,也能表達更高維的信息,但中間過程往往不夠可控,同樣需要對 Latent 做額外的視覺監督,且可擴展性、可解釋性與泛化性也較差,難以大規模訓練和泛化。
是否有一種方法,既能像 Agent 一樣擁有明確的視覺操作,在保證和 Latent Visual Reasoning 一樣輕量、高效的基礎上,又可擴展到大規模訓練和泛化到眾多領域任務,同時避免顯式生成中間視覺狀態帶來的高成本?
Meta AI 與香港中文大學提出了一種全新的視覺推理范式ATLAS,核心想法非常直觀:只用一個 word,首次將 Agentic 和 Latent Visual Reasoning 統一起來。
![]()
主流視覺推理范式對比
02 為什么一個 Token 就夠了
Unified Models 像是邊想邊重新畫一張圖,Agentic 方法像是拿出一套工具箱,Latent 方法像是閉著眼在腦中想,ATLAS 更像是給模型學會了一組視覺動作暗號。模型只需要生成離散的 Funtional Token,就可以在內部表示中觸發相應的視覺操作。
這些 Token 看起來只是普通詞表中的一個 Token,但它們承擔的角色并不普通:它們既是 Agentic Operation,又是 Latent Visual Reasoning。
![]()
ATLAS 用一個 Token 同時連接了兩件事:一方面,它像 Agentic Reasoning 一樣明確表示模型想執行某種視覺操作;另一方面,它又完全存在于模型內部,不依賴外部工具或顯式圖像生成,因此保持了 Latent Visual Reasoning 的高效性。
這些 Token 不需要額外的視覺監督,也不需要改變模型架構,就像普通詞一樣,通過 Next-Token Prediction 被模型生成;但一旦出現在推理鏈中,它們就不只是文本,還是模型內部的視覺操作錨點。
![]()
ATLAS:把視覺操作表示為標準自回歸序列中的 Funtional Tokens
03 如何讓模型真正學會使用 Funtional Tokens
視覺推理中的很多中間步驟,并不一定真的需要生成一張完整圖片。
做幾何題時,人類腦中可能只是補一條線;做區域判斷時,可能只是看一下左上角;做計數題時,可能只是給每個物體打個標記。這些動作很重要,但它們本身并不需要用大量 Token 或完整圖像來表示。
ATLAS 的關鍵洞察是:很多視覺推理操作可以被壓縮成一個高層語義動作,而這個動作可以由一個離散 Token 表達。因此,ATLAS 不再讓模型輸出冗長代碼、調用外部工具,或者生成昂貴的中間視覺結果,而是讓模型在文本推理過程中自然插入 Funtional Token。這種設計讓視覺推理過程變得更加緊湊,也更接近人類在腦中進行視覺操作的方式。
為了讓模型真正學會使用這些 Funtional Tokens,研究團隊采用了 SFT + RL 兩階段訓練流程:
第一階段:SFT 讓模型學會什么時候該用視覺動作
研究團隊構建了 ATLAS-178K 數據集,覆蓋 40 多種視覺推理任務,并將復雜視覺操作映射為統一的 Funtional Token 表達。
在監督微調階段,模型學習的不只是最終答案,而是包含 Funtional Tokens 的推理軌跡。這一步類似于示范教學:遇到畫線,可能需要 <|Line|>;遇到空間區域操作,可能需要 <|Shape|>;遇到方向關系,可能需要 <|Arrow|>;遇到標注,可能需要 <|Text|>。
第二階段:RL 讓模型學會用得對,而不是亂用
僅僅讓模型學會生成 Funtional Token 還不夠。因為如果獎勵設計不當,模型很容易走向另一個極端:為了拿獎勵而瘋狂堆 Token。比如本來只需要一條輔助線,它卻連續輸出十幾個視覺動作 Token,看起來很努力,但實際并沒有幫助解題。
為了解決這個問題,ATLAS 在強化學習階段設計了專門的 Reward:既獎勵答對問題,也獎勵合理使用 Funtional Token;同時懲罰過長輸出和 Token Spam,避免模型為了刷獎勵而濫用視覺動作。這使得模型不再是簡單地多用 Token,而是學會在真正需要視覺操作時使用 Token。
04 LA-GRPO:解決 Gradient Dilution 問題
ATLAS 中還有一個關鍵技術點:Latent-Anchored GRPO,簡稱 LA-GRPO。問題來自 Funtional Token 的稀疏性。在一整段視覺推理輸出中,絕大多數 Token 仍然是普通文本,Funtional Token 只占很小比例。
普通 GRPO 使用 Sequence-level Reward,雖然能整體優化模型,但對于這些極少數關鍵 Token 來說,梯度信號很容易被大量普通文本 Token 稀釋,這就是論文中提到的 Gradient Dilution 問題。
ATLAS 的解決方式是:在 GRPO 的基礎上,額外對 Funtional Token 位置進行 Token-level Anchor。如果某條推理軌跡最終答對了,并且其中某個 Funtional Token 起到了關鍵作用,那么 LA-GRPO 會更直接地強化這個 Token 的生成概率。這就像在訓練中告訴模型:不是所有詞都一樣重要。真正觸發視覺操作的那個 word,需要被更精準地學習。
![]()
LA-GRPO:針對稀疏 Funtional Tokens 增強梯度更新,緩解 Gradient Dilution
05 一個 word 帶來高效強視覺推理能力
定量和定性實驗分析
研究團隊在多個視覺推理基準上驗證了 ATLAS 的效果。實驗結果顯示,ATLAS 在多個具有挑戰性的視覺推理任務上取得了有競爭力的表現。尤其是在復雜幾何推理、空間關系、多視角理解、計數和細粒度視覺判斷等任務中,Funtional Token 能幫助模型更有效地組織視覺推理過程,同時非常高效。
![]()
ATLAS 基準測試結果
更重要的是,ATLAS 的提升并不是通過更復雜的外部系統換來的。它不需要額外工具執行,不需要顯式生成中間圖像,也不需要破壞標準自回歸訓練流程。Funtional Token 仍然只是詞表中的普通 Token,可以自然兼容現有的 SFT 和 RL 訓練框架,可高效擴展至大規模訓練。
![]()
ATLAS 效率分析
![]()
ATLAS 定性樣例:Funtional Tokens 幫助模型定位、過濾和標注視覺證據
模型真的在看這些 Token 嗎?
一個自然的問題是:這些 Funtional Token 只是特殊符號,還是模型真的學會了對應的視覺操作?
為此,研究團隊進一步分析了模型在生成 Funtional Token 時的注意力模式。結果顯示,當模型生成 <|Shape|> 時,注意力往往會聚焦到需要標記的目標區域;當模型生成 <|Line|> 時,注意力會集中在幾何結構或需要連接的關鍵點附近;當模型生成 <|Text|> 時,模型更傾向于關注需要編號、標注或區分的對象。
這說明 Funtional Token 不只是簡單的 Token 標記,而是讓這種視覺操作在模型內部表示的推理過程中真正發揮作用。
![]()
![]()
Funtional Token 的 Attention Analysis:不同 Token 關注不同操作的相關區域
ATLAS 的意義更在于它提出了一種新的視覺推理范式。從更長遠的角度看,ATLAS 為多模態模型提供了一種新的能力接口:并非讓模型不斷調用外部工具,也不是讓模型完全黑盒地在隱空間中思考,無需每一步都生成昂貴的中間圖像,而是讓它學會一套簡潔的視覺動作語言。
當模型能夠用一個 word 完成視覺操作,在保證可擴展性、泛化性、可解釋性的同時,避免冗長的推理過程和額外的中間監督,實現最簡潔高效的推理預測。
One word is enough for both.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.