无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Meta華人發布ATLAS,一個詞搞定可泛化的視覺推理!

0
分享至


機器之心發布

近日,Meta AI 與香港中文大學顛覆性提出了一種全新的視覺推理范式 ATLAS,不用外部工具,不顯式生成中間圖像,沒有視覺監督信號,只用一個離散 word,首次顛覆性地代替 Agentic 和 Latent Visual Reasoning



  • Paper Link: https://arxiv.org/pdf/2605.15198
  • Project Page: https://atlas-oneword.github.io
  • Code: https://github.com/ZiyuGuo99/ATLAS

第一作者是香港中文大學的博士生,本科畢業于北京大學計算機系,曾在 Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能實驗室等機構實習,研究多模態大模型和生成理解統一,一作代表作有 Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP 等,主頁 https://ziyuguo99.github.io/。



TL;DR:

  • 面對復雜的視覺推理任務,Unified Models、Agentic Visual Reasoning 和 Latent Visual Reasoning 往往被視為幾條不同路線:Unified Models 依賴顯式生成中間視覺狀態,直觀但開銷高,訓練復雜;Agentic 方法依賴外部工具或執行器,可解釋但流程重,且需要額外的中間監督;Latent 方法依賴模型內部表示,形式輕量,但往往需要額外結構設計或特殊訓練機制,可擴展性和泛化性差,還需要額外的過程監督。ATLAS 試圖打破這些范式,一個簡單的離散 Token (Functional Token)可以同時承擔幾種核心角色:作為 Agentic Operation,它高效地告訴我們模型正在執行什么視覺操作;作為 Latent Visual Reasoning Unit,它又能在模型內部高效參與推理,不需要中間圖像生成,且可擴展性和泛化性強,可以很輕易的擴展到大規模訓練和泛化到眾多領域任務。One Word is Enough for Both 的真正含義是一個 word,既是操作,也是思考。
  • Agentic 和 Latent Visual Reasoning 并不矛盾,一個離散 Token 既可以代表完整且可解釋的視覺動作語義,也可以是模型內部的 Latent Visual Reasoning Unit。
  • 稀疏的 Functional Token 需要專門優化。Funtional Token 雖少,但往往是視覺推理中的關鍵節點。LA-GRPO 通過 Token-level Anchor,讓模型更高效地學習這些關鍵視覺操作。

01 高效統一 Agentic 和 Latent Visual Reasoning

當大模型面對一道復雜的視覺推理題時,它到底應該怎么想?

一種直觀做法是讓模型顯式生成中間圖像或視覺狀態(Unified Models),再基于這些中間結果繼續推理。這種方式過程清楚,但往往需要反復解碼和再編碼視覺內容,帶來較高的計算開銷,也讓訓練和架構設計變得更加復雜,需要額外的視覺監督,且通用性較差。還有一類方法(Agentic Visual Reasoning)則把視覺推理做得更加外顯:模型通過代碼、工具調用或外部執行器來完成畫線、標注、裁剪、放大等視覺操作。

這類 Agentic Visual Reasoning 具有較好的可解釋性,但引入了額外的工具執行延遲,常常需要冗長的操作調用描述,且同樣需要額外的執行過程監督。

而 Latent Visual Reasoning 試圖把中間推理壓縮到模型內部表示中,避免顯式生成圖像或調用外部工具。它更加輕量,也能表達更高維的信息,但中間過程往往不夠可控,同樣需要對 Latent 做額外的視覺監督,且可擴展性、可解釋性與泛化性也較差,難以大規模訓練和泛化。

是否有一種方法,既能像 Agent 一樣擁有明確的視覺操作,在保證和 Latent Visual Reasoning 一樣輕量、高效的基礎上,又可擴展到大規模訓練和泛化到眾多領域任務,同時避免顯式生成中間視覺狀態帶來的高成本?

Meta AI 與香港中文大學提出了一種全新的視覺推理范式ATLAS,核心想法非常直觀:只用一個 word,首次將 Agentic 和 Latent Visual Reasoning 統一起來。



主流視覺推理范式對比

02 為什么一個 Token 就夠了

Unified Models 像是邊想邊重新畫一張圖,Agentic 方法像是拿出一套工具箱,Latent 方法像是閉著眼在腦中想,ATLAS 更像是給模型學會了一組視覺動作暗號。模型只需要生成離散的 Funtional Token,就可以在內部表示中觸發相應的視覺操作。

這些 Token 看起來只是普通詞表中的一個 Token,但它們承擔的角色并不普通:它們既是 Agentic Operation,又是 Latent Visual Reasoning。



ATLAS 用一個 Token 同時連接了兩件事:一方面,它像 Agentic Reasoning 一樣明確表示模型想執行某種視覺操作;另一方面,它又完全存在于模型內部,不依賴外部工具或顯式圖像生成,因此保持了 Latent Visual Reasoning 的高效性。

這些 Token 不需要額外的視覺監督,也不需要改變模型架構,就像普通詞一樣,通過 Next-Token Prediction 被模型生成;但一旦出現在推理鏈中,它們就不只是文本,還是模型內部的視覺操作錨點。



ATLAS:把視覺操作表示為標準自回歸序列中的 Funtional Tokens

03 如何讓模型真正學會使用 Funtional Tokens

視覺推理中的很多中間步驟,并不一定真的需要生成一張完整圖片。

做幾何題時,人類腦中可能只是補一條線;做區域判斷時,可能只是看一下左上角;做計數題時,可能只是給每個物體打個標記。這些動作很重要,但它們本身并不需要用大量 Token 或完整圖像來表示。

ATLAS 的關鍵洞察是:很多視覺推理操作可以被壓縮成一個高層語義動作,而這個動作可以由一個離散 Token 表達。因此,ATLAS 不再讓模型輸出冗長代碼、調用外部工具,或者生成昂貴的中間視覺結果,而是讓模型在文本推理過程中自然插入 Funtional Token。這種設計讓視覺推理過程變得更加緊湊,也更接近人類在腦中進行視覺操作的方式。

為了讓模型真正學會使用這些 Funtional Tokens,研究團隊采用了 SFT + RL 兩階段訓練流程:

第一階段:SFT 讓模型學會什么時候該用視覺動作

研究團隊構建了 ATLAS-178K 數據集,覆蓋 40 多種視覺推理任務,并將復雜視覺操作映射為統一的 Funtional Token 表達。

在監督微調階段,模型學習的不只是最終答案,而是包含 Funtional Tokens 的推理軌跡。這一步類似于示范教學:遇到畫線,可能需要 <|Line|>;遇到空間區域操作,可能需要 <|Shape|>;遇到方向關系,可能需要 <|Arrow|>;遇到標注,可能需要 <|Text|>。

第二階段:RL 讓模型學會用得對,而不是亂用

僅僅讓模型學會生成 Funtional Token 還不夠。因為如果獎勵設計不當,模型很容易走向另一個極端:為了拿獎勵而瘋狂堆 Token。比如本來只需要一條輔助線,它卻連續輸出十幾個視覺動作 Token,看起來很努力,但實際并沒有幫助解題。

為了解決這個問題,ATLAS 在強化學習階段設計了專門的 Reward:既獎勵答對問題,也獎勵合理使用 Funtional Token;同時懲罰過長輸出和 Token Spam,避免模型為了刷獎勵而濫用視覺動作。這使得模型不再是簡單地多用 Token,而是學會在真正需要視覺操作時使用 Token。

04 LA-GRPO:解決 Gradient Dilution 問題

ATLAS 中還有一個關鍵技術點:Latent-Anchored GRPO,簡稱 LA-GRPO。問題來自 Funtional Token 的稀疏性。在一整段視覺推理輸出中,絕大多數 Token 仍然是普通文本,Funtional Token 只占很小比例。

普通 GRPO 使用 Sequence-level Reward,雖然能整體優化模型,但對于這些極少數關鍵 Token 來說,梯度信號很容易被大量普通文本 Token 稀釋,這就是論文中提到的 Gradient Dilution 問題。

ATLAS 的解決方式是:在 GRPO 的基礎上,額外對 Funtional Token 位置進行 Token-level Anchor。如果某條推理軌跡最終答對了,并且其中某個 Funtional Token 起到了關鍵作用,那么 LA-GRPO 會更直接地強化這個 Token 的生成概率。這就像在訓練中告訴模型:不是所有詞都一樣重要。真正觸發視覺操作的那個 word,需要被更精準地學習。



LA-GRPO:針對稀疏 Funtional Tokens 增強梯度更新,緩解 Gradient Dilution

05 一個 word 帶來高效強視覺推理能力

定量和定性實驗分析

研究團隊在多個視覺推理基準上驗證了 ATLAS 的效果。實驗結果顯示,ATLAS 在多個具有挑戰性的視覺推理任務上取得了有競爭力的表現。尤其是在復雜幾何推理、空間關系、多視角理解、計數和細粒度視覺判斷等任務中,Funtional Token 能幫助模型更有效地組織視覺推理過程,同時非常高效。



ATLAS 基準測試結果

更重要的是,ATLAS 的提升并不是通過更復雜的外部系統換來的。它不需要額外工具執行,不需要顯式生成中間圖像,也不需要破壞標準自回歸訓練流程。Funtional Token 仍然只是詞表中的普通 Token,可以自然兼容現有的 SFT 和 RL 訓練框架,可高效擴展至大規模訓練。



ATLAS 效率分析



ATLAS 定性樣例:Funtional Tokens 幫助模型定位、過濾和標注視覺證據

模型真的在看這些 Token 嗎?

一個自然的問題是:這些 Funtional Token 只是特殊符號,還是模型真的學會了對應的視覺操作?

為此,研究團隊進一步分析了模型在生成 Funtional Token 時的注意力模式。結果顯示,當模型生成 <|Shape|> 時,注意力往往會聚焦到需要標記的目標區域;當模型生成 <|Line|> 時,注意力會集中在幾何結構或需要連接的關鍵點附近;當模型生成 <|Text|> 時,模型更傾向于關注需要編號、標注或區分的對象。

這說明 Funtional Token 不只是簡單的 Token 標記,而是讓這種視覺操作在模型內部表示的推理過程中真正發揮作用。





Funtional Token 的 Attention Analysis:不同 Token 關注不同操作的相關區域

ATLAS 的意義更在于它提出了一種新的視覺推理范式。從更長遠的角度看,ATLAS 為多模態模型提供了一種新的能力接口:并非讓模型不斷調用外部工具,也不是讓模型完全黑盒地在隱空間中思考,無需每一步都生成昂貴的中間圖像,而是讓它學會一套簡潔的視覺動作語言。

當模型能夠用一個 word 完成視覺操作,在保證可擴展性、泛化性、可解釋性的同時,避免冗長的推理過程和額外的中間監督,實現最簡潔高效的推理預測。

One word is enough for both.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

房產
本地
藝術
家居
公開課

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

本地新聞

用剪紙的方式,打開江蘇揚州

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

家居要聞

云棲 舒展如流云

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版