![]()
僅附加一個輕量級深度預測頭,就可以讓標準 VLM 成為同時輸出稠密深度圖與自然語言響應的統一多模態基礎模型。
作者丨DepthVLM團隊
一句話概括:我們提出DepthVLM,首次讓 VLM 以 (1) 的推理成本原生輸出像素級稠密深度圖,并在室內外深度估計上取得平均 δ?=0.876 的成績,全面超越 GPT-5.5、DepthLM、Youtu-VL 等現有 VLM,甚至力壓純視覺頂流 DepthAnythingV3。
![]()
論文標題:Unlocking Dense Metric Depth Estimation in VLMs
作者團隊:Zhejiang University, Tencent Hunyuan LLM, HKUST, SLAI
論文鏈接:https://arxiv.org/abs/2605.15876
主頁鏈接:https://depthvlm.github.io/
代碼鏈接:https://github.com/hanxunyu/DepthVLM
![]()
你是否想過,一個已經能識別萬物、回答問題,甚至完成復雜圖文推理的多模態大模型,為什么在看一眼照片后,依然說不清眼前的桌子離相機究竟是一米還是兩米?當前的頂尖 VLM 在二維圖像理解和文本生成上已經非常強大,但一碰到三維空間中的“距離感”,往往就會變得含糊。換句話說,它們或許已經能很好地“看懂畫面”,卻未必真正“看見距離”。
這并非模型“不想”理解三維信息,而是現有訓練范式本身缺少足夠強的幾何約束。主流 VLM 通常主要接受文本監督:視覺信號被編碼進模型,卻很少作為輸出目標參與訓練;模型雖然學會了用語言描述世界,卻很少被要求恢復像素背后的度量幾何。因此,當面對距離、遮擋與空間關系等問題時,VLM 往往只能依賴語義和常識進行推測,而缺少稠密幾何提供的硬約束。。
于是,一個關鍵問題自然浮現:能否在不損失原有多模態能力的前提下,讓 VLM 原生具備三維幾何感知能力?DepthVLM 給出的答案是肯定的:我們不依賴外部深度模型,不進行知識蒸餾,也不采用逐像素查詢,而是僅附加一個輕量級深度預測頭,就可以讓標準 VLM 成為同時輸出稠密深度圖與自然語言響應的統一多模態基礎模型。
![]()
圖1:DepthVLM 將低層次稠密幾何預測與高層次多模態理解統一到同一個 VLM 中。
01
為什么 VLM 需要“深度感”?
傳統 VLM 的局限,本質上源于以文本為主導的監督范式,缺少對視覺幾何的直接約束。在標準自回歸訓練中,模型主要學習預測文本 Token,而非恢復像素背后的三維結構。因此,它們能夠識別“這是一把椅子”,卻難以真正理解物體之間的距離、遮擋與深度關系。當問題從“圖中有什么”變成“誰離相機更近、誰遮擋了誰”時,傳統 VLM 往往只能依賴語義與常識進行猜測,而缺少幾何監督帶來的硬約束。
現有方法大致分為兩類。第一類通過外部深度模型先生成深度圖或點云,再輸入 VLM 補充空間信息,但幾何能力本質上來自外部模型,誤差也會沿管線累積。第二類嘗試讓 VLM 直接預測深度,但仍存在明顯局限。例如,DepthLM 需要逐像素查詢,生成完整深度圖需要 (H×W)次前向傳播;Youtu-VL 雖然能夠一次輸出全圖深度,但仍停留在粗粒度 patch-level 表示,細節依賴后處理恢復。
DepthVLM 則選擇了一條更直接的路徑:進一步釋放 VLM 內部已有的多尺度視覺表征。標準 VLM 天然包含從淺層邊緣、紋理與局部幾何,到深層語義與跨模態上下文的層級特征,這些本身就是稠密預測所需的基礎表示。DepthVLM 通過一個輕量級 DPT-style 深度頭,將這些隱藏特征組織為可解碼的幾何表示,從而讓 VLM 原生輸出像素級稠密深度圖。
![]()
圖2:現有 VLM 與 DepthVLM 的監督范式對比。
02
方法概覽:從 VLM 隱藏特征中解碼稠密深度
DepthVLM 的設計目標很明確:盡量少改動標準 VLM 架構,同時讓模型具備原生的稠密度量深度預測能力。為此,我們保留原有視覺編碼器、LLM 骨干和文本生成路徑,只在多尺度視覺表示之上接入一個輕量級 DPT-style 深度預測頭。這樣,模型既可以像普通 VLM 一樣生成自然語言響應,也可以在同一次前向傳播中輸出像素級稠密深度圖。
具體來說,DepthVLM 從視覺編碼器中抽取三個中間層 ViT 特征,并從 LLM 最終隱藏狀態中取出圖像 Token 表示,形成四級特征。隨后,模型采用自底向上的上采樣融合結構,讓淺層特征提供更高空間分辨率,深層特征提供更強語義,再通過 RefineNet 逐級融合,兼顧邊緣細節和語義一致性。
融合后的特征經輕量級 DPT-style 深度預測頭和 Softplus 激活,輸出稠密度量深度圖;語言模型則沿原路徑生成文本響應。兩條輸出路徑共享視覺編碼器和 LLM 表征,但彼此獨立,因此 DepthVLM 不需要重寫 VLM 的生成機制,也能自然接入現有指令微調流程。
![]()
圖3:DepthVLM 整體框架。
03
兩階段訓練:先穩定“看見”,再聯合“理解”
直接給一個預訓練 VLM 接上隨機初始化的深度預測頭并端到端訓練,很容易破壞模型原本的多模態能力。為此,我們采用了兩階段訓練策略。
階段一:凍結整個 VLM,只訓練深度預測頭。讓模型先學會如何從已有隱藏特征中穩定解碼深度。監督信號采用尺度不變對數損失(SILog Loss):
階段二:解凍 LLM 骨干,進行端到端聯合微調。此時總損失由文本生成損失和深度損失加權組合,使幾何預測和語言理解能夠在同一個模型內進一步對齊:

消融實驗顯示,這個訓練策略非常關鍵。只做第二階段會損害通用 VQA 能力;第二階段連 ViT 一起解凍雖然能帶來一定的深度精度提升,但會明顯傷害 OCRBench、MMStar 等通用多模態基準。最終采用“凍結 ViT、聯合微調 LLM 與深度預測頭”的方案,在幾何精度和原有 VLM 能力之間取得了更好的平衡。
04
數據與訓練:少即是多
為了系統訓練和評估 VLM 的度量深度能力,我們構建了 DepthVLM-Bench,聚合 8 個室內外訓練數據源,并在 9 個未見過的數據集上評測。相比許多純視覺深度模型依賴 20 多個數據集和大量合成數據,DepthVLM 僅使用數量級更少的真實數據,就取得了卓越性能,說明 VLM 預訓練表征中蘊含著豐富的場景結構和空間關系先驗。
跨數據集訓練還會受到相機內參差異影響。DepthVLM 采用焦距歸一化,將輸入圖像統一到共享虛擬焦距下,緩解尺度歧義,使模型更容易學習穩定的像素到深度映射。
05
實驗結果:深度預測與通用能力兼得
在 DepthVLM-Bench 上,普通 VLM 很難可靠回答度量深度問題。GPT-5.5 在 9 個數據集上的平均 δ? 約為 0.407,Qwen3-VL、InternVL3.5 等通用 VLM 也存在明顯差距。相比之下,DepthVLM-4B 平均 δ? 達到 0.868,DepthVLM-8B 進一步達到 0.876,明顯超過 DepthLM-12B 的 0.730 和 Youtu-VL-4B 的 0.603。
面對 DepthAnythingV3、UniDepthV2、Metric3Dv2 等專門為深度估計設計的純視覺模型,DepthVLM-8B 在選定室內外基準上取得平均 δ?=0.890,超過 DepthAnythingV3 的 0.877。這說明稠密幾何預測并不一定只能依賴專用視覺模型完成,保留語言交互能力的 VLM 同樣可以成為強大的度量深度預測器。
DepthVLM 也沒有因為引入稠密深度預測而犧牲原有多模態理解能力。在 MMBench、MMStar、ScienceQA、OCRBench 等通用基準上,DepthVLM 基本保持原始 VLM 骨干能力,部分任務略有提升。相比之下,DepthLM 容易過擬合到“輸入一個點、輸出一個深度值”的格式,破壞常規 VQA 能力。
效率上,DepthLM 需要對每個像素單獨查詢,生成完整深度圖耗時可達小時級;Youtu-VL 需要對稀疏深度進行后處理。DepthVLM 直接輸出稠密像素級深度圖,在相同輸入尺寸下端到端耗時約 0.42 秒。
![]()
表1:DepthVLM 與現有 VLM 在室內外度量深度估計上的結果對比。
![]()
表2:DepthVLM 與純視覺模型的結果對比。
![]()
表3:通用多模態能力評測。
06
不止于深度:幾何能力反哺空間推理
從定性結果看,DepthVLM 的預測不僅數值更準,也能在復雜室內外場景中保留更精細的邊界、物體輪廓和結構關系。這對 3D 重建、具身導航、機器人操作和 AR/VR 空間理解等任務都非常重要。
當 VLM 具備原生稠密幾何預測能力后,高層 3D 空間推理也會受益。很多空間問題表面上是在問“誰在誰前面”“哪個物體更近”,本質上卻依賴深度、遮擋和三維布局。DepthVLM 內部擁有更可靠的稠密幾何表示,因此在遮擋關系、深度排序和相對距離判斷上更穩定。
![]()
圖4:與其他方法的定性對比。
![]()
圖5:復雜 3D 空間推理任務示例。
07
結語:邁向統一的多模態基礎模型
DepthVLM 的意義不只是刷新深度估計指標,更重要的是展示了一條通向統一多模態基礎模型的路徑:低層幾何感知和高層語言理解不必被拆成兩個系統。DepthVLM 表明,一個標準 VLM 骨干內部已經包含可用于稠密預測的多尺度表示;只要采用合適的輕量級結構和訓練策略,就能把這些表示自然轉化為可用的度量幾何輸出。未來,這一路線也有望擴展到表面法向估計、3D 目標檢測、姿態估計和更復雜的具身空間推理任務。
08
作者簡介
第一作者:于瀚勛,浙江大學計算機學院博士生,研究方向為多模態大模型、空間智能等,在 CVPR、ICLR、ACM MM、TPAMI等國際頂級期刊/會議發表多篇論文。
共同通訊作者:朱建科,浙江大學計算機學院教授,研究方向為計算機視覺與機器學習,在TPAMI、IJCV、CVPR、ICCV等國際頂級期刊/會議發表多篇論文;柯磊,騰訊混元大模型高級研究科學家,研究方向為多模態基礎模型,擔任 NeurIPS、ICLR 領域主席。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.