无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Meta蔡志鵬新作VLM3:全面揭示三維視覺的Bitter Lesson

0
分享至



蔡志鵬博士(https://zhipengcai.github.io/)是美國 Meta 公司的高級研究員,博士畢業于澳大利亞阿德萊德大學。他的研究主要集中在 Physical Intelligence,包括三維視覺、多模態大模型等。他的工作已在領域頂級會議雜志上發表超過 20 篇。其中 10 篇文章被選為頂級會議口頭或特邀報告,對魯棒估計計算復雜度的理論證明工作被選為 ECCV18 12 篇最佳論文之一。

Meta 發布了一項令人震撼的研究工作 VLM3,首次揭示了三維視覺學習的 Bitter Lesson:標準的視覺語言模型 + scale 數據就是最簡單有效的范式,針對特定任務的架構、損失函數以及數據增強的設計,甚至是 regression 的 formulation,均不是三維視覺學習的必要條件。



當前的視覺語言 AI 模型(Vision Language Models, VLMs)通過統一的模型架構能夠靈活處理各類不同的視覺任務。然而,盡管在語義理解、視覺問答、圖像指令等任務上表現優異,它們在三維視覺方面仍然表現不佳。相比之下,專家視覺模型(expert vision models)在絕對深度估計(metric depth estimation)等三維理解任務上,憑借專門設計的網絡結構、損失函數及數據增強,已經達到了超越人類的精度。

這就帶來了一個核心問題:「視覺語言模型是否在三維視覺學習方面無法替代專家模型?」VLM3 首次證明了該問題的答案是否定的!

VLM3 通過極簡的設計,在極為多樣的三維視覺任務中媲美或超越專家視覺模型,并大幅超越最先進的視覺語言模型:1)在單目深度估計上 match UnidepthV2 及 MoGe2;2)在目標級三維理解任務上超越 SpatialRGPT;3)在像素匹配任務上超越 DKM 和 RoMa;4)在相機姿態估計上 match DA3,超越 VGGT。



  • 論文地址:https://arxiv.org/pdf/2605.30561
  • 代碼地址:https://github.com/facebookresearch/VLM3

二、亮點

在此之前,即便是最先進的 VLM 在標準的三維視覺任務中均遠遠落后于專家視覺模型。

VLM3 通過詳盡的實驗發現,標準的 VLM 僅需要 1)相機焦距歸一化;2)像素空間歸一化,就能夠以令人驚嘆的簡潔方式有效學會各類三維視覺模型,在 1)單目深度估計中 match UniDepthV2 及 MoGe2;2)在目標級別三維理解超越 SpatialRGPT;3)在像素匹配任務上超越 DKM 和 RoMa;4)在相機姿態估計上 match DA3 并超越 VGGT。



和之前的三維視覺 VLM 不同,VLM3 既不需要改變 VLM 的架構,也不需要在圖片上渲染 marker。相比于專家視覺模型需要大量的架構、損失函數及數據增強方面的復雜設計,VLM3 僅需要標準的 VLM 架構(如 Qwen3-vl-4B)和訓練(基于文字的 SFT)就能夠在極為多樣的三維任務上達到 SOTA。

這種簡潔的訓練推翻了之前三維視覺的學習范式,并揭示了三維視覺的 Bitter Lesson:我們其實完全不需要針對特定三維視覺任務人為設計復雜的架構、損失函數及數據增強。通過簡單的視覺語言建模 + scale 數據就能夠達到同樣的效果,并且于其他非三維視覺任務在統一的語言模型訓練框架下完全兼容。這使得三維視覺不再需要與視覺語言模型的大規模預訓練分離,同時我們能夠使用同樣的方式來實現三維視覺的 scaling law。

同時 VLM3 的成功也意味著三維視覺的學習遠比我們想象中的要容易:除開不需要特殊架構、損失函數等,我們甚至可以不依賴回歸(regression)來學會 fine-grained 3D understanding,這在之前的工作中是難以想象的,因為在連續的輸出空間進行回歸是絕大多數三維視覺模型的核心設計。

三、主要結果 / 性能對比

在四大三維視覺任務上性能顯著優于最先進的 VLM

在單目深度估計上將 DepthLM 的準確率從 84 提升至 90,并且訓練及推理更加簡單高效,無需渲染 marker。

在目標級別三維理解上用同樣的訓練數據超越 SpatialRGPT,并且無需額外的 encoder,模型參數少一半(4B vs 8B)。

在多視角幾何任務上如像素匹配及相機姿態估計上遠超 Qwen3-vl-32B。



同時在與先進的專家視覺模型(如 MoGe2、DA3、RoMa 等)的對比中,VLM3 也毫不遜色,并且完全不需要復雜的架構、損失函數及數據增強。





四、意義 / 應用前景

VLM3 重新定義了三維視覺的最佳學習范式:最簡單的 generalist 架構如 VLM 及 scaling 就是最通用的三維視覺范式!過去三維視覺領域普遍采用的人為的 task-specific 的設計并非必須。

這將極大程度地簡化三維基礎模型的構建。通過將三維視覺任務融入視覺語言模型的預訓練,我們也能有效地兼容三維視覺與其它視覺任務,并將 VLM 的優勢,及靈活性與泛化性從語義及二維視覺任務有效拓展至三維視覺,極大程度提升模型的能力上限。

結語

VLM3 的出現,首次打通了視覺語言模型與三維視覺之間的壁壘,使得統一的架構就能夠簡潔地學會各類視覺任務,并達到專家模型的性能。這既是科研層面的里程碑,也為未來在實際系統中統一多模態推理能力提供了可能。我們期待 VLM3 后續在機器人、自動駕駛、增強現實等場景中的落地應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴托梅烏:梅西離隊是高層最糟糕的決定之一;說我是最差主席有些好笑

巴托梅烏:梅西離隊是高層最糟糕的決定之一;說我是最差主席有些好笑

懂球帝
2026-06-09 19:53:26
代表國民黨的鄭麗文,最近又在島內上演“語不驚人死不休”的戲碼

代表國民黨的鄭麗文,最近又在島內上演“語不驚人死不休”的戲碼

果媽聊娛樂
2026-06-10 07:30:40
美國專家預言:誰將取代美國?不是中國,答案出人意料

美國專家預言:誰將取代美國?不是中國,答案出人意料

近史談
2026-06-09 16:42:38
廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

芹姐說生活
2026-06-09 19:08:06
挪威殺瘋了!帶300公斤魚征戰世界杯,英國隊又拿不出手?

挪威殺瘋了!帶300公斤魚征戰世界杯,英國隊又拿不出手?

新歐洲
2026-06-09 19:08:40
閃迪股價漲近8%

閃迪股價漲近8%

每日經濟新聞
2026-06-09 22:08:07
黑龍江挪車糾紛后續:持刀闖倉庫將人捅死,超市老板曝隱情

黑龍江挪車糾紛后續:持刀闖倉庫將人捅死,超市老板曝隱情

奇思妙想草葉君
2026-06-08 18:01:24
虎撲網友曬“骨感美”照,這身材管理太絕了

虎撲網友曬“骨感美”照,這身材管理太絕了

淺遇時光
2026-06-09 06:32:38
五星體育獲得2026美加墨世界杯直播版權

五星體育獲得2026美加墨世界杯直播版權

懂球帝
2026-06-09 17:24:07
重磅!蘇州以舊換新細則出爐!不限套數、區域、比例!還保留原學區…

重磅!蘇州以舊換新細則出爐!不限套數、區域、比例!還保留原學區…

居者
2026-06-09 16:57:23
網傳王健林暗中幫助黃一鳴母女,助力孫女閃閃參與高端走秀并簽約

網傳王健林暗中幫助黃一鳴母女,助力孫女閃閃參與高端走秀并簽約

露珠聊影視
2026-06-10 00:45:10
閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

芒果都市
2026-06-09 17:59:37
看完釋小龍新片我連聲哀嘆:再這樣下去,連謝苗尾燈都看不到了

看完釋小龍新片我連聲哀嘆:再這樣下去,連謝苗尾燈都看不到了

娛樂圈筆娛君
2026-06-08 18:01:59
以色列發動大規模空襲!戰況激烈,聯合國:3天內記錄到超2100起交火

以色列發動大規模空襲!戰況激烈,聯合國:3天內記錄到超2100起交火

每日經濟新聞
2026-06-09 13:46:21
中方訪朝迎來最佳時機,一旦解鎖關鍵通道,東北從此不靠借港出海

中方訪朝迎來最佳時機,一旦解鎖關鍵通道,東北從此不靠借港出海

南宗歷史
2026-06-08 22:36:47
中國男籃又添勁敵啊!湖人球員加盟!

中國男籃又添勁敵啊!湖人球員加盟!

籃球大圖
2026-06-09 22:57:00
國足0-0悶平泰國!楊希閃耀全場,5人不及格,大概率被邵佳一棄用

國足0-0悶平泰國!楊希閃耀全場,5人不及格,大概率被邵佳一棄用

小火箭愛體育
2026-06-09 23:04:29
保姆珍姐在何家待了整整二十八年,被何猷君視作親奶奶,如今還幫奚夢瑤照看孩子

保姆珍姐在何家待了整整二十八年,被何猷君視作親奶奶,如今還幫奚夢瑤照看孩子

阿廢冷眼觀察所
2026-06-10 00:53:56
辦世界杯竟成燙手山芋,2030年僅兩個申辦國,為啥沒人搶?

辦世界杯竟成燙手山芋,2030年僅兩個申辦國,為啥沒人搶?

嘆為觀止易
2026-06-08 14:22:53
生育率的“回旋鏢”還是呼啦啦來了

生育率的“回旋鏢”還是呼啦啦來了

新浪財經
2026-05-18 07:42:35
2026-06-10 09:11:03
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13213文章數 142664關注度
往期回顧 全部

科技要聞

一文看懂蘋果WWDC26:庫克告別,Siri重生

頭條要聞

國際宇航科學院16年來首次更新文件:不要回復外星人

頭條要聞

國際宇航科學院16年來首次更新文件:不要回復外星人

體育要聞

誰會花400萬,去看一場尼克斯的比賽?

娛樂要聞

吳文忻因癌癥惡化離世,女兒哭泣不舍

財經要聞

大盤股IPO終結行情盛宴?背后真相來了

汽車要聞

賽豆科技AIVA品牌發布 全系產品覆蓋20萬級市場/量產車年內亮相

態度原創

藝術
旅游
游戲
數碼
公開課

藝術要聞

MVRDV新作:法國“秘密花園”,70戶共享一座小山谷

旅游要聞

馬來西亞旅行家:我在中國探尋旅行的真諦

《咒術回戰》新作官宣!高人氣角色悉數登場

數碼要聞

初探蘋果macOS 27液態玻璃調整:透明度滑塊、強化文字可讀性等

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版