无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Meta華人發布ATLAS,一個詞搞定可泛化的視覺推理!

0
分享至


機器之心發布

近日,Meta AI 與香港中文大學顛覆性提出了一種全新的視覺推理范式 ATLAS,不用外部工具,不顯式生成中間圖像,沒有視覺監督信號,只用一個離散 word,首次顛覆性地代替 Agentic 和 Latent Visual Reasoning



  • Paper Link: https://arxiv.org/pdf/2605.15198
  • Project Page: https://atlas-oneword.github.io
  • Code: https://github.com/ZiyuGuo99/ATLAS

第一作者是香港中文大學的博士生,本科畢業于北京大學計算機系,曾在 Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能實驗室等機構實習,研究多模態大模型和生成理解統一,一作代表作有 Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP 等,主頁 https://ziyuguo99.github.io/。



TL;DR:

  • 面對復雜的視覺推理任務,Unified Models、Agentic Visual Reasoning 和 Latent Visual Reasoning 往往被視為幾條不同路線:Unified Models 依賴顯式生成中間視覺狀態,直觀但開銷高,訓練復雜;Agentic 方法依賴外部工具或執行器,可解釋但流程重,且需要額外的中間監督;Latent 方法依賴模型內部表示,形式輕量,但往往需要額外結構設計或特殊訓練機制,可擴展性和泛化性差,還需要額外的過程監督。ATLAS 試圖打破這些范式,一個簡單的離散 Token (Functional Token)可以同時承擔幾種核心角色:作為 Agentic Operation,它高效地告訴我們模型正在執行什么視覺操作;作為 Latent Visual Reasoning Unit,它又能在模型內部高效參與推理,不需要中間圖像生成,且可擴展性和泛化性強,可以很輕易的擴展到大規模訓練和泛化到眾多領域任務。One Word is Enough for Both 的真正含義是一個 word,既是操作,也是思考。
  • Agentic 和 Latent Visual Reasoning 并不矛盾,一個離散 Token 既可以代表完整且可解釋的視覺動作語義,也可以是模型內部的 Latent Visual Reasoning Unit。
  • 稀疏的 Functional Token 需要專門優化。Funtional Token 雖少,但往往是視覺推理中的關鍵節點。LA-GRPO 通過 Token-level Anchor,讓模型更高效地學習這些關鍵視覺操作。

01 高效統一 Agentic 和 Latent Visual Reasoning

當大模型面對一道復雜的視覺推理題時,它到底應該怎么想?

一種直觀做法是讓模型顯式生成中間圖像或視覺狀態(Unified Models),再基于這些中間結果繼續推理。這種方式過程清楚,但往往需要反復解碼和再編碼視覺內容,帶來較高的計算開銷,也讓訓練和架構設計變得更加復雜,需要額外的視覺監督,且通用性較差。還有一類方法(Agentic Visual Reasoning)則把視覺推理做得更加外顯:模型通過代碼、工具調用或外部執行器來完成畫線、標注、裁剪、放大等視覺操作。

這類 Agentic Visual Reasoning 具有較好的可解釋性,但引入了額外的工具執行延遲,常常需要冗長的操作調用描述,且同樣需要額外的執行過程監督。

而 Latent Visual Reasoning 試圖把中間推理壓縮到模型內部表示中,避免顯式生成圖像或調用外部工具。它更加輕量,也能表達更高維的信息,但中間過程往往不夠可控,同樣需要對 Latent 做額外的視覺監督,且可擴展性、可解釋性與泛化性也較差,難以大規模訓練和泛化。

是否有一種方法,既能像 Agent 一樣擁有明確的視覺操作,在保證和 Latent Visual Reasoning 一樣輕量、高效的基礎上,又可擴展到大規模訓練和泛化到眾多領域任務,同時避免顯式生成中間視覺狀態帶來的高成本?

Meta AI 與香港中文大學提出了一種全新的視覺推理范式ATLAS,核心想法非常直觀:只用一個 word,首次將 Agentic 和 Latent Visual Reasoning 統一起來。



主流視覺推理范式對比

02 為什么一個 Token 就夠了

Unified Models 像是邊想邊重新畫一張圖,Agentic 方法像是拿出一套工具箱,Latent 方法像是閉著眼在腦中想,ATLAS 更像是給模型學會了一組視覺動作暗號。模型只需要生成離散的 Funtional Token,就可以在內部表示中觸發相應的視覺操作。

這些 Token 看起來只是普通詞表中的一個 Token,但它們承擔的角色并不普通:它們既是 Agentic Operation,又是 Latent Visual Reasoning。



ATLAS 用一個 Token 同時連接了兩件事:一方面,它像 Agentic Reasoning 一樣明確表示模型想執行某種視覺操作;另一方面,它又完全存在于模型內部,不依賴外部工具或顯式圖像生成,因此保持了 Latent Visual Reasoning 的高效性。

這些 Token 不需要額外的視覺監督,也不需要改變模型架構,就像普通詞一樣,通過 Next-Token Prediction 被模型生成;但一旦出現在推理鏈中,它們就不只是文本,還是模型內部的視覺操作錨點。



ATLAS:把視覺操作表示為標準自回歸序列中的 Funtional Tokens

03 如何讓模型真正學會使用 Funtional Tokens

視覺推理中的很多中間步驟,并不一定真的需要生成一張完整圖片。

做幾何題時,人類腦中可能只是補一條線;做區域判斷時,可能只是看一下左上角;做計數題時,可能只是給每個物體打個標記。這些動作很重要,但它們本身并不需要用大量 Token 或完整圖像來表示。

ATLAS 的關鍵洞察是:很多視覺推理操作可以被壓縮成一個高層語義動作,而這個動作可以由一個離散 Token 表達。因此,ATLAS 不再讓模型輸出冗長代碼、調用外部工具,或者生成昂貴的中間視覺結果,而是讓模型在文本推理過程中自然插入 Funtional Token。這種設計讓視覺推理過程變得更加緊湊,也更接近人類在腦中進行視覺操作的方式。

為了讓模型真正學會使用這些 Funtional Tokens,研究團隊采用了 SFT + RL 兩階段訓練流程:

第一階段:SFT 讓模型學會什么時候該用視覺動作

研究團隊構建了 ATLAS-178K 數據集,覆蓋 40 多種視覺推理任務,并將復雜視覺操作映射為統一的 Funtional Token 表達。

在監督微調階段,模型學習的不只是最終答案,而是包含 Funtional Tokens 的推理軌跡。這一步類似于示范教學:遇到畫線,可能需要 <|Line|>;遇到空間區域操作,可能需要 <|Shape|>;遇到方向關系,可能需要 <|Arrow|>;遇到標注,可能需要 <|Text|>。

第二階段:RL 讓模型學會用得對,而不是亂用

僅僅讓模型學會生成 Funtional Token 還不夠。因為如果獎勵設計不當,模型很容易走向另一個極端:為了拿獎勵而瘋狂堆 Token。比如本來只需要一條輔助線,它卻連續輸出十幾個視覺動作 Token,看起來很努力,但實際并沒有幫助解題。

為了解決這個問題,ATLAS 在強化學習階段設計了專門的 Reward:既獎勵答對問題,也獎勵合理使用 Funtional Token;同時懲罰過長輸出和 Token Spam,避免模型為了刷獎勵而濫用視覺動作。這使得模型不再是簡單地多用 Token,而是學會在真正需要視覺操作時使用 Token。

04 LA-GRPO:解決 Gradient Dilution 問題

ATLAS 中還有一個關鍵技術點:Latent-Anchored GRPO,簡稱 LA-GRPO。問題來自 Funtional Token 的稀疏性。在一整段視覺推理輸出中,絕大多數 Token 仍然是普通文本,Funtional Token 只占很小比例。

普通 GRPO 使用 Sequence-level Reward,雖然能整體優化模型,但對于這些極少數關鍵 Token 來說,梯度信號很容易被大量普通文本 Token 稀釋,這就是論文中提到的 Gradient Dilution 問題。

ATLAS 的解決方式是:在 GRPO 的基礎上,額外對 Funtional Token 位置進行 Token-level Anchor。如果某條推理軌跡最終答對了,并且其中某個 Funtional Token 起到了關鍵作用,那么 LA-GRPO 會更直接地強化這個 Token 的生成概率。這就像在訓練中告訴模型:不是所有詞都一樣重要。真正觸發視覺操作的那個 word,需要被更精準地學習。



LA-GRPO:針對稀疏 Funtional Tokens 增強梯度更新,緩解 Gradient Dilution

05 一個 word 帶來高效強視覺推理能力

定量和定性實驗分析

研究團隊在多個視覺推理基準上驗證了 ATLAS 的效果。實驗結果顯示,ATLAS 在多個具有挑戰性的視覺推理任務上取得了有競爭力的表現。尤其是在復雜幾何推理、空間關系、多視角理解、計數和細粒度視覺判斷等任務中,Funtional Token 能幫助模型更有效地組織視覺推理過程,同時非常高效。



ATLAS 基準測試結果

更重要的是,ATLAS 的提升并不是通過更復雜的外部系統換來的。它不需要額外工具執行,不需要顯式生成中間圖像,也不需要破壞標準自回歸訓練流程。Funtional Token 仍然只是詞表中的普通 Token,可以自然兼容現有的 SFT 和 RL 訓練框架,可高效擴展至大規模訓練。



ATLAS 效率分析



ATLAS 定性樣例:Funtional Tokens 幫助模型定位、過濾和標注視覺證據

模型真的在看這些 Token 嗎?

一個自然的問題是:這些 Funtional Token 只是特殊符號,還是模型真的學會了對應的視覺操作?

為此,研究團隊進一步分析了模型在生成 Funtional Token 時的注意力模式。結果顯示,當模型生成 <|Shape|> 時,注意力往往會聚焦到需要標記的目標區域;當模型生成 <|Line|> 時,注意力會集中在幾何結構或需要連接的關鍵點附近;當模型生成 <|Text|> 時,模型更傾向于關注需要編號、標注或區分的對象。

這說明 Funtional Token 不只是簡單的 Token 標記,而是讓這種視覺操作在模型內部表示的推理過程中真正發揮作用。





Funtional Token 的 Attention Analysis:不同 Token 關注不同操作的相關區域

ATLAS 的意義更在于它提出了一種新的視覺推理范式。從更長遠的角度看,ATLAS 為多模態模型提供了一種新的能力接口:并非讓模型不斷調用外部工具,也不是讓模型完全黑盒地在隱空間中思考,無需每一步都生成昂貴的中間圖像,而是讓它學會一套簡潔的視覺動作語言。

當模型能夠用一個 word 完成視覺操作,在保證可擴展性、泛化性、可解釋性的同時,避免冗長的推理過程和額外的中間監督,實現最簡潔高效的推理預測。

One word is enough for both.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最低調普京女婿被億萬富豪當街暴打:拒絕10億賠償,只提一個要求

最低調普京女婿被億萬富豪當街暴打:拒絕10億賠償,只提一個要求

刀刃故事
2024-11-11 10:40:21
笑麻了,那些外行人看來很蠢的設計,實際上卻精妙無比!

笑麻了,那些外行人看來很蠢的設計,實際上卻精妙無比!

另子維愛讀史
2026-05-16 10:36:47
越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

花顏蘊韻
2026-05-22 03:21:22
上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

漢史趣聞
2026-05-19 14:34:42
“荔枝泡水”視頻瘋傳引擔憂!廠方與業內緊急澄清:正常操作!廣東網友現身說法

“荔枝泡水”視頻瘋傳引擔憂!廠方與業內緊急澄清:正常操作!廣東網友現身說法

新民晚報
2026-05-21 17:33:07
穆里尼奧下死令!皇馬砸 8000 萬強挖切爾西非賣品,巴薩徹底慌了

穆里尼奧下死令!皇馬砸 8000 萬強挖切爾西非賣品,巴薩徹底慌了

奶蓋熊本熊
2026-05-22 03:29:12
上海殺殺哥后續!大四重修生,長期服藥,室友崩潰發聲,內幕曝光

上海殺殺哥后續!大四重修生,長期服藥,室友崩潰發聲,內幕曝光

千言娛樂記
2026-05-21 12:21:37
交了智商稅才明白:這4種家電一定要買貴的,沒錢干脆先不買

交了智商稅才明白:這4種家電一定要買貴的,沒錢干脆先不買

裝修秀
2026-05-21 21:07:00
3年8700萬美金!聯盟第1!NBA新惡人把話挑明,文班亞馬沒有退路

3年8700萬美金!聯盟第1!NBA新惡人把話挑明,文班亞馬沒有退路

世界體育圈
2026-05-21 21:58:43
埃澤笑談水瓶哥梗圖:可能我今年的頭像都是這張圖了

埃澤笑談水瓶哥梗圖:可能我今年的頭像都是這張圖了

懂球帝
2026-05-22 06:03:07
小米YU7低價上市,雷軍認錯:取消標準版是失誤,大定量太驚人

小米YU7低價上市,雷軍認錯:取消標準版是失誤,大定量太驚人

侃故事的阿慶
2026-05-22 03:17:34
*ST聞泰科技竟然漲停了!

*ST聞泰科技竟然漲停了!

一些見聞
2026-05-22 01:44:36
馬家人永遠感念過去的幕僚,蕭旭岑回應了

馬家人永遠感念過去的幕僚,蕭旭岑回應了

新時光點滴
2026-05-22 00:52:46
與戴軍牽手散步3個月,李靜高調官宣喜訊,這下晚年依靠有著落了

與戴軍牽手散步3個月,李靜高調官宣喜訊,這下晚年依靠有著落了

喜歡歷史的阿繁
2026-05-22 06:00:27
詹姆斯:被雷霆淘汰并非不努力和技戰術,而是輸給他們的天賦

詹姆斯:被雷霆淘汰并非不努力和技戰術,而是輸給他們的天賦

懂球帝
2026-05-21 22:25:07
重返東京,發覺經濟已不再是中日關系的“壓艙石”

重返東京,發覺經濟已不再是中日關系的“壓艙石”

觀察者網
2026-05-22 07:51:06
知名網紅韓景楓官宣全家搬離北京!剛購千萬別墅,已賣掉多輛豪車

知名網紅韓景楓官宣全家搬離北京!剛購千萬別墅,已賣掉多輛豪車

裕豐娛間說
2026-05-21 08:43:39
“職業閉店人”陶某陽,騙取會員75萬余元!上海法院判了:有期徒刑五年

“職業閉店人”陶某陽,騙取會員75萬余元!上海法院判了:有期徒刑五年

環球網資訊
2026-05-22 10:22:15
特斯拉Model 3性能三連降:4.2秒變6.2秒

特斯拉Model 3性能三連降:4.2秒變6.2秒

算力游俠
2026-05-21 01:21:02
炸鍋!特斯拉監督版 FSD 正式入華!7 年等待終落地,帶你了解監督版

炸鍋!特斯拉監督版 FSD 正式入華!7 年等待終落地,帶你了解監督版

數碼八叔
2026-05-21 18:31:08
2026-05-22 11:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13057文章數 142651關注度
往期回顧 全部

科技要聞

雷軍:輸給特斯拉不丟人

頭條要聞

24歲女子和跳傘教練雙雙遇難 留給家人最后一句話公開

頭條要聞

24歲女子和跳傘教練雙雙遇難 留給家人最后一句話公開

體育要聞

最糟糕裁判?他想要退役當市長

娛樂要聞

此沙、陳麗君方否認戀情傳聞

財經要聞

又一存儲芯片類產品,價格暴漲300%

汽車要聞

配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

態度原創

家居
時尚
親子
旅游
手機

家居要聞

風格碰撞 個性與藝術

簡簡單單,是真時髦

親子要聞

人生最好的狀態是小滿!育兒亦是如此:留有余地,方能從容生長

旅游要聞

“廣西之夜”旅游推介會在重慶舉辦

手機要聞

蘋果iPhone 17 Pro將撐起整場MLS直播,靈活機位傳遞更多視角

無障礙瀏覽 進入關懷版