无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

騰訊混元&浙大:VLM 不只會聊天對話,還能原生輸出像素級深度圖

0
分享至


僅附加一個輕量級深度預測頭,就可以讓標準 VLM 成為同時輸出稠密深度圖與自然語言響應的統一多模態基礎模型。

作者丨DepthVLM團隊

一句話概括:我們提出DepthVLM,首次讓 VLM 以 (1) 的推理成本原生輸出像素級稠密深度圖,并在室內外深度估計上取得平均 δ?=0.876 的成績,全面超越 GPT-5.5、DepthLM、Youtu-VL 等現有 VLM,甚至力壓純視覺頂流 DepthAnythingV3。


論文標題:Unlocking Dense Metric Depth Estimation in VLMs

作者團隊:Zhejiang University, Tencent Hunyuan LLM, HKUST, SLAI

論文鏈接:https://arxiv.org/abs/2605.15876

主頁鏈接:https://depthvlm.github.io/

代碼鏈接:https://github.com/hanxunyu/DepthVLM


你是否想過,一個已經能識別萬物、回答問題,甚至完成復雜圖文推理的多模態大模型,為什么在看一眼照片后,依然說不清眼前的桌子離相機究竟是一米還是兩米?當前的頂尖 VLM 在二維圖像理解和文本生成上已經非常強大,但一碰到三維空間中的“距離感”,往往就會變得含糊。換句話說,它們或許已經能很好地“看懂畫面”,卻未必真正“看見距離”。

這并非模型“不想”理解三維信息,而是現有訓練范式本身缺少足夠強的幾何約束。主流 VLM 通常主要接受文本監督:視覺信號被編碼進模型,卻很少作為輸出目標參與訓練;模型雖然學會了用語言描述世界,卻很少被要求恢復像素背后的度量幾何。因此,當面對距離、遮擋與空間關系等問題時,VLM 往往只能依賴語義和常識進行推測,而缺少稠密幾何提供的硬約束。。

于是,一個關鍵問題自然浮現:能否在不損失原有多模態能力的前提下,讓 VLM 原生具備三維幾何感知能力?DepthVLM 給出的答案是肯定的:我們不依賴外部深度模型,不進行知識蒸餾,也不采用逐像素查詢,而是僅附加一個輕量級深度預測頭,就可以讓標準 VLM 成為同時輸出稠密深度圖與自然語言響應的統一多模態基礎模型。


圖1:DepthVLM 將低層次稠密幾何預測與高層次多模態理解統一到同一個 VLM 中。

01


為什么 VLM 需要“深度感”?

傳統 VLM 的局限,本質上源于以文本為主導的監督范式,缺少對視覺幾何的直接約束。在標準自回歸訓練中,模型主要學習預測文本 Token,而非恢復像素背后的三維結構。因此,它們能夠識別“這是一把椅子”,卻難以真正理解物體之間的距離、遮擋與深度關系。當問題從“圖中有什么”變成“誰離相機更近、誰遮擋了誰”時,傳統 VLM 往往只能依賴語義與常識進行猜測,而缺少幾何監督帶來的硬約束。

現有方法大致分為兩類。第一類通過外部深度模型先生成深度圖或點云,再輸入 VLM 補充空間信息,但幾何能力本質上來自外部模型,誤差也會沿管線累積。第二類嘗試讓 VLM 直接預測深度,但仍存在明顯局限。例如,DepthLM 需要逐像素查詢,生成完整深度圖需要 (H×W)次前向傳播;Youtu-VL 雖然能夠一次輸出全圖深度,但仍停留在粗粒度 patch-level 表示,細節依賴后處理恢復。

DepthVLM 則選擇了一條更直接的路徑:進一步釋放 VLM 內部已有的多尺度視覺表征。標準 VLM 天然包含從淺層邊緣、紋理與局部幾何,到深層語義與跨模態上下文的層級特征,這些本身就是稠密預測所需的基礎表示。DepthVLM 通過一個輕量級 DPT-style 深度頭,將這些隱藏特征組織為可解碼的幾何表示,從而讓 VLM 原生輸出像素級稠密深度圖。


圖2:現有 VLM 與 DepthVLM 的監督范式對比。

02


方法概覽:從 VLM 隱藏特征中解碼稠密深度

DepthVLM 的設計目標很明確:盡量少改動標準 VLM 架構,同時讓模型具備原生的稠密度量深度預測能力。為此,我們保留原有視覺編碼器、LLM 骨干和文本生成路徑,只在多尺度視覺表示之上接入一個輕量級 DPT-style 深度預測頭。這樣,模型既可以像普通 VLM 一樣生成自然語言響應,也可以在同一次前向傳播中輸出像素級稠密深度圖。

具體來說,DepthVLM 從視覺編碼器中抽取三個中間層 ViT 特征,并從 LLM 最終隱藏狀態中取出圖像 Token 表示,形成四級特征。隨后,模型采用自底向上的上采樣融合結構,讓淺層特征提供更高空間分辨率,深層特征提供更強語義,再通過 RefineNet 逐級融合,兼顧邊緣細節和語義一致性。

融合后的特征經輕量級 DPT-style 深度預測頭和 Softplus 激活,輸出稠密度量深度圖;語言模型則沿原路徑生成文本響應。兩條輸出路徑共享視覺編碼器和 LLM 表征,但彼此獨立,因此 DepthVLM 不需要重寫 VLM 的生成機制,也能自然接入現有指令微調流程。


圖3:DepthVLM 整體框架。

03


兩階段訓練:先穩定“看見”,再聯合“理解”

直接給一個預訓練 VLM 接上隨機初始化的深度預測頭并端到端訓練,很容易破壞模型原本的多模態能力。為此,我們采用了兩階段訓練策略。

  • 階段一:凍結整個 VLM,只訓練深度預測頭。讓模型先學會如何從已有隱藏特征中穩定解碼深度。監督信號采用尺度不變對數損失(SILog Loss):

  • 階段二:解凍 LLM 骨干,進行端到端聯合微調。此時總損失由文本生成損失和深度損失加權組合,使幾何預測和語言理解能夠在同一個模型內進一步對齊:


消融實驗顯示,這個訓練策略非常關鍵。只做第二階段會損害通用 VQA 能力;第二階段連 ViT 一起解凍雖然能帶來一定的深度精度提升,但會明顯傷害 OCRBench、MMStar 等通用多模態基準。最終采用“凍結 ViT、聯合微調 LLM 與深度預測頭”的方案,在幾何精度和原有 VLM 能力之間取得了更好的平衡。

04


數據與訓練:少即是多

為了系統訓練和評估 VLM 的度量深度能力,我們構建了 DepthVLM-Bench,聚合 8 個室內外訓練數據源,并在 9 個未見過的數據集上評測。相比許多純視覺深度模型依賴 20 多個數據集和大量合成數據,DepthVLM 僅使用數量級更少的真實數據,就取得了卓越性能,說明 VLM 預訓練表征中蘊含著豐富的場景結構和空間關系先驗。

跨數據集訓練還會受到相機內參差異影響。DepthVLM 采用焦距歸一化,將輸入圖像統一到共享虛擬焦距下,緩解尺度歧義,使模型更容易學習穩定的像素到深度映射。

05


實驗結果:深度預測與通用能力兼得

在 DepthVLM-Bench 上,普通 VLM 很難可靠回答度量深度問題。GPT-5.5 在 9 個數據集上的平均 δ? 約為 0.407,Qwen3-VL、InternVL3.5 等通用 VLM 也存在明顯差距。相比之下,DepthVLM-4B 平均 δ? 達到 0.868,DepthVLM-8B 進一步達到 0.876,明顯超過 DepthLM-12B 的 0.730 和 Youtu-VL-4B 的 0.603。

面對 DepthAnythingV3、UniDepthV2、Metric3Dv2 等專門為深度估計設計的純視覺模型,DepthVLM-8B 在選定室內外基準上取得平均 δ?=0.890,超過 DepthAnythingV3 的 0.877。這說明稠密幾何預測并不一定只能依賴專用視覺模型完成,保留語言交互能力的 VLM 同樣可以成為強大的度量深度預測器。

DepthVLM 也沒有因為引入稠密深度預測而犧牲原有多模態理解能力。在 MMBench、MMStar、ScienceQA、OCRBench 等通用基準上,DepthVLM 基本保持原始 VLM 骨干能力,部分任務略有提升。相比之下,DepthLM 容易過擬合到“輸入一個點、輸出一個深度值”的格式,破壞常規 VQA 能力。

效率上,DepthLM 需要對每個像素單獨查詢,生成完整深度圖耗時可達小時級;Youtu-VL 需要對稀疏深度進行后處理。DepthVLM 直接輸出稠密像素級深度圖,在相同輸入尺寸下端到端耗時約 0.42 秒。


表1:DepthVLM 與現有 VLM 在室內外度量深度估計上的結果對比。


表2:DepthVLM 與純視覺模型的結果對比。


表3:通用多模態能力評測。

06


不止于深度:幾何能力反哺空間推理

從定性結果看,DepthVLM 的預測不僅數值更準,也能在復雜室內外場景中保留更精細的邊界、物體輪廓和結構關系。這對 3D 重建、具身導航、機器人操作和 AR/VR 空間理解等任務都非常重要。

當 VLM 具備原生稠密幾何預測能力后,高層 3D 空間推理也會受益。很多空間問題表面上是在問“誰在誰前面”“哪個物體更近”,本質上卻依賴深度、遮擋和三維布局。DepthVLM 內部擁有更可靠的稠密幾何表示,因此在遮擋關系、深度排序和相對距離判斷上更穩定。


圖4:與其他方法的定性對比。


圖5:復雜 3D 空間推理任務示例。

07


結語:邁向統一的多模態基礎模型

DepthVLM 的意義不只是刷新深度估計指標,更重要的是展示了一條通向統一多模態基礎模型的路徑:低層幾何感知和高層語言理解不必被拆成兩個系統。DepthVLM 表明,一個標準 VLM 骨干內部已經包含可用于稠密預測的多尺度表示;只要采用合適的輕量級結構和訓練策略,就能把這些表示自然轉化為可用的度量幾何輸出。未來,這一路線也有望擴展到表面法向估計、3D 目標檢測、姿態估計和更復雜的具身空間推理任務。

08


作者簡介

第一作者:于瀚勛,浙江大學計算機學院博士生,研究方向為多模態大模型、空間智能等,在 CVPR、ICLR、ACM MM、TPAMI等國際頂級期刊/會議發表多篇論文。

共同通訊作者:朱建科,浙江大學計算機學院教授,研究方向為計算機視覺與機器學習,在TPAMI、IJCV、CVPR、ICCV等國際頂級期刊/會議發表多篇論文;柯磊,騰訊混元大模型高級研究科學家,研究方向為多模態基礎模型,擔任 NeurIPS、ICLR 領域主席。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

草莓解說體育
2026-06-13 14:45:45
馬斯克的“造人計劃”:14個孩子和一個讓他心碎的“嫡長子”

馬斯克的“造人計劃”:14個孩子和一個讓他心碎的“嫡長子”

民間胡扯老哥
2026-06-14 07:08:34
一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習生
2026-06-12 13:36:01
一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

郭小凡財經
2026-06-14 09:13:07
15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

混沌錄
2026-06-01 21:47:13
村里請我回去投資,剛上桌就被二叔扇臉:你也配上桌,我火速撤資

村里請我回去投資,剛上桌就被二叔扇臉:你也配上桌,我火速撤資

千秋文化
2026-06-10 20:45:49
后防巨大失誤!巴西隊3人看戲:摩洛哥新星精彩破門 安帥一臉愁容

后防巨大失誤!巴西隊3人看戲:摩洛哥新星精彩破門 安帥一臉愁容

風過鄉
2026-06-14 06:36:51
特朗普出手!Claude Fable 5與Mythos 5全停了,AI專家:中國才是全人類希望

特朗普出手!Claude Fable 5與Mythos 5全停了,AI專家:中國才是全人類希望

智東西
2026-06-13 12:29:15
白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

垚垚分享健康
2026-06-13 19:20:07
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
破繭成蝶未來可期!U23國足4-0大勝展現青春風暴

破繭成蝶未來可期!U23國足4-0大勝展現青春風暴

環球體壇啄木鳥
2026-06-13 18:47:30
這組全是許晴年輕舊照!

這組全是許晴年輕舊照!

草莓解說體育
2026-06-05 14:04:24
全線轉跌,超12萬人爆倉

全線轉跌,超12萬人爆倉

每日經濟新聞
2026-06-12 00:18:19
世界杯熱度不如從前,別看國足缺席,中國反而卻成了最大贏家

世界杯熱度不如從前,別看國足缺席,中國反而卻成了最大贏家

小許論事
2026-06-13 10:42:43
洛佩特吉迎來世界杯首秀:2018年的事,我已放下

洛佩特吉迎來世界杯首秀:2018年的事,我已放下

體壇周報
2026-06-13 17:57:21
震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

火山詩話
2026-06-13 08:00:03
守不住!臺灣管控的太平島允許美軍進領海,被越南菲律賓多次欺負

守不住!臺灣管控的太平島允許美軍進領海,被越南菲律賓多次欺負

阿龍聊軍事
2026-06-13 15:19:24
痛快!女子買房被姑姑指“嫁出的女不該分家產”,回懟堪稱教科書

痛快!女子買房被姑姑指“嫁出的女不該分家產”,回懟堪稱教科書

火山詩話
2026-06-13 06:40:12
四人幫被密捕的消息是如何泄露的?北京傳來暗語:老娘心肌梗死

四人幫被密捕的消息是如何泄露的?北京傳來暗語:老娘心肌梗死

談古論今歷史有道
2026-06-03 16:30:03
為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

另子維愛讀史
2026-06-02 10:51:07
2026-06-14 10:43:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20758關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

健康
教育
本地
親子
公開課

老人、小孩、孕婦,吃粽子有啥風險

教育要聞

直播預告 | 對話知名作家聶震寧:讀書的四季,閱世的長旅

本地新聞

AK劉彰邂逅河北南大港濕地

親子要聞

兩個孩子兩種出路

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版