網易首頁 > 網易號 > 正文申請入駐

騰訊混元&浙大：VLM 不只會聊天對話，還能原生輸出像素級深度圖

2026-06-12 18:36:02　來源: AI科技評論

廣東舉報

分享至

僅附加一個輕量級深度預測頭，就可以讓標準 VLM 成為同時輸出稠密深度圖與自然語言響應的統一多模態基礎模型。

作者丨DepthVLM團隊

一句話概括：我們提出DepthVLM，首次讓 VLM 以 (1) 的推理成本原生輸出像素級稠密深度圖，并在室內外深度估計上取得平均 δ?=0.876 的成績，全面超越 GPT-5.5、DepthLM、Youtu-VL 等現有 VLM，甚至力壓純視覺頂流 DepthAnythingV3。

論文標題：Unlocking Dense Metric Depth Estimation in VLMs

作者團隊：Zhejiang University, Tencent Hunyuan LLM, HKUST, SLAI

論文鏈接：https://arxiv.org/abs/2605.15876

主頁鏈接：https://depthvlm.github.io/

代碼鏈接：https://github.com/hanxunyu/DepthVLM

你是否想過，一個已經能識別萬物、回答問題，甚至完成復雜圖文推理的多模態大模型，為什么在看一眼照片后，依然說不清眼前的桌子離相機究竟是一米還是兩米？當前的頂尖 VLM 在二維圖像理解和文本生成上已經非常強大，但一碰到三維空間中的“距離感”，往往就會變得含糊。換句話說，它們或許已經能很好地“看懂畫面”，卻未必真正“看見距離”。

這并非模型“不想”理解三維信息，而是現有訓練范式本身缺少足夠強的幾何約束。主流 VLM 通常主要接受文本監督：視覺信號被編碼進模型，卻很少作為輸出目標參與訓練；模型雖然學會了用語言描述世界，卻很少被要求恢復像素背后的度量幾何。因此，當面對距離、遮擋與空間關系等問題時，VLM 往往只能依賴語義和常識進行推測，而缺少稠密幾何提供的硬約束。。

于是，一個關鍵問題自然浮現：能否在不損失原有多模態能力的前提下，讓 VLM 原生具備三維幾何感知能力？DepthVLM 給出的答案是肯定的：我們不依賴外部深度模型，不進行知識蒸餾，也不采用逐像素查詢，而是僅附加一個輕量級深度預測頭，就可以讓標準 VLM 成為同時輸出稠密深度圖與自然語言響應的統一多模態基礎模型。

圖1：DepthVLM 將低層次稠密幾何預測與高層次多模態理解統一到同一個 VLM 中。

為什么 VLM 需要“深度感”？

傳統 VLM 的局限，本質上源于以文本為主導的監督范式，缺少對視覺幾何的直接約束。在標準自回歸訓練中，模型主要學習預測文本 Token，而非恢復像素背后的三維結構。因此，它們能夠識別“這是一把椅子”，卻難以真正理解物體之間的距離、遮擋與深度關系。當問題從“圖中有什么”變成“誰離相機更近、誰遮擋了誰”時，傳統 VLM 往往只能依賴語義與常識進行猜測，而缺少幾何監督帶來的硬約束。

現有方法大致分為兩類。第一類通過外部深度模型先生成深度圖或點云，再輸入 VLM 補充空間信息，但幾何能力本質上來自外部模型，誤差也會沿管線累積。第二類嘗試讓 VLM 直接預測深度，但仍存在明顯局限。例如，DepthLM 需要逐像素查詢，生成完整深度圖需要 (H×W)次前向傳播；Youtu-VL 雖然能夠一次輸出全圖深度，但仍停留在粗粒度 patch-level 表示，細節依賴后處理恢復。

DepthVLM 則選擇了一條更直接的路徑：進一步釋放 VLM 內部已有的多尺度視覺表征。標準 VLM 天然包含從淺層邊緣、紋理與局部幾何，到深層語義與跨模態上下文的層級特征，這些本身就是稠密預測所需的基礎表示。DepthVLM 通過一個輕量級 DPT-style 深度頭，將這些隱藏特征組織為可解碼的幾何表示，從而讓 VLM 原生輸出像素級稠密深度圖。

圖2：現有 VLM 與 DepthVLM 的監督范式對比。

方法概覽：從 VLM 隱藏特征中解碼稠密深度

DepthVLM 的設計目標很明確：盡量少改動標準 VLM 架構，同時讓模型具備原生的稠密度量深度預測能力。為此，我們保留原有視覺編碼器、LLM 骨干和文本生成路徑，只在多尺度視覺表示之上接入一個輕量級 DPT-style 深度預測頭。這樣，模型既可以像普通 VLM 一樣生成自然語言響應，也可以在同一次前向傳播中輸出像素級稠密深度圖。

具體來說，DepthVLM 從視覺編碼器中抽取三個中間層 ViT 特征，并從 LLM 最終隱藏狀態中取出圖像 Token 表示，形成四級特征。隨后，模型采用自底向上的上采樣融合結構，讓淺層特征提供更高空間分辨率，深層特征提供更強語義，再通過 RefineNet 逐級融合，兼顧邊緣細節和語義一致性。

融合后的特征經輕量級 DPT-style 深度預測頭和 Softplus 激活，輸出稠密度量深度圖；語言模型則沿原路徑生成文本響應。兩條輸出路徑共享視覺編碼器和 LLM 表征，但彼此獨立，因此 DepthVLM 不需要重寫 VLM 的生成機制，也能自然接入現有指令微調流程。

圖3：DepthVLM 整體框架。

兩階段訓練：先穩定“看見”，再聯合“理解”

直接給一個預訓練 VLM 接上隨機初始化的深度預測頭并端到端訓練，很容易破壞模型原本的多模態能力。為此，我們采用了兩階段訓練策略。

階段一：凍結整個 VLM，只訓練深度預測頭。讓模型先學會如何從已有隱藏特征中穩定解碼深度。監督信號采用尺度不變對數損失（SILog Loss）：
階段二：解凍 LLM 骨干，進行端到端聯合微調。此時總損失由文本生成損失和深度損失加權組合，使幾何預測和語言理解能夠在同一個模型內進一步對齊：

消融實驗顯示，這個訓練策略非常關鍵。只做第二階段會損害通用 VQA 能力；第二階段連 ViT 一起解凍雖然能帶來一定的深度精度提升，但會明顯傷害 OCRBench、MMStar 等通用多模態基準。最終采用“凍結 ViT、聯合微調 LLM 與深度預測頭”的方案，在幾何精度和原有 VLM 能力之間取得了更好的平衡。

數據與訓練：少即是多

為了系統訓練和評估 VLM 的度量深度能力，我們構建了 DepthVLM-Bench，聚合 8 個室內外訓練數據源，并在 9 個未見過的數據集上評測。相比許多純視覺深度模型依賴 20 多個數據集和大量合成數據，DepthVLM 僅使用數量級更少的真實數據，就取得了卓越性能，說明 VLM 預訓練表征中蘊含著豐富的場景結構和空間關系先驗。

跨數據集訓練還會受到相機內參差異影響。DepthVLM 采用焦距歸一化，將輸入圖像統一到共享虛擬焦距下，緩解尺度歧義，使模型更容易學習穩定的像素到深度映射。

實驗結果：深度預測與通用能力兼得

在 DepthVLM-Bench 上，普通 VLM 很難可靠回答度量深度問題。GPT-5.5 在 9 個數據集上的平均 δ? 約為 0.407，Qwen3-VL、InternVL3.5 等通用 VLM 也存在明顯差距。相比之下，DepthVLM-4B 平均 δ? 達到 0.868，DepthVLM-8B 進一步達到 0.876，明顯超過 DepthLM-12B 的 0.730 和 Youtu-VL-4B 的 0.603。

面對 DepthAnythingV3、UniDepthV2、Metric3Dv2 等專門為深度估計設計的純視覺模型，DepthVLM-8B 在選定室內外基準上取得平均 δ?=0.890，超過 DepthAnythingV3 的 0.877。這說明稠密幾何預測并不一定只能依賴專用視覺模型完成，保留語言交互能力的 VLM 同樣可以成為強大的度量深度預測器。

DepthVLM 也沒有因為引入稠密深度預測而犧牲原有多模態理解能力。在 MMBench、MMStar、ScienceQA、OCRBench 等通用基準上，DepthVLM 基本保持原始 VLM 骨干能力，部分任務略有提升。相比之下，DepthLM 容易過擬合到“輸入一個點、輸出一個深度值”的格式，破壞常規 VQA 能力。

效率上，DepthLM 需要對每個像素單獨查詢，生成完整深度圖耗時可達小時級；Youtu-VL 需要對稀疏深度進行后處理。DepthVLM 直接輸出稠密像素級深度圖，在相同輸入尺寸下端到端耗時約 0.42 秒。

表1：DepthVLM 與現有 VLM 在室內外度量深度估計上的結果對比。

表2：DepthVLM 與純視覺模型的結果對比。

表3：通用多模態能力評測。

不止于深度：幾何能力反哺空間推理

從定性結果看，DepthVLM 的預測不僅數值更準，也能在復雜室內外場景中保留更精細的邊界、物體輪廓和結構關系。這對 3D 重建、具身導航、機器人操作和 AR/VR 空間理解等任務都非常重要。

當 VLM 具備原生稠密幾何預測能力后，高層 3D 空間推理也會受益。很多空間問題表面上是在問“誰在誰前面”“哪個物體更近”，本質上卻依賴深度、遮擋和三維布局。DepthVLM 內部擁有更可靠的稠密幾何表示，因此在遮擋關系、深度排序和相對距離判斷上更穩定。

圖4：與其他方法的定性對比。

圖5：復雜 3D 空間推理任務示例。

結語：邁向統一的多模態基礎模型

DepthVLM 的意義不只是刷新深度估計指標，更重要的是展示了一條通向統一多模態基礎模型的路徑：低層幾何感知和高層語言理解不必被拆成兩個系統。DepthVLM 表明，一個標準 VLM 骨干內部已經包含可用于稠密預測的多尺度表示；只要采用合適的輕量級結構和訓練策略，就能把這些表示自然轉化為可用的度量幾何輸出。未來，這一路線也有望擴展到表面法向估計、3D 目標檢測、姿態估計和更復雜的具身空間推理任務。

作者簡介

第一作者：于瀚勛，浙江大學計算機學院博士生，研究方向為多模態大模型、空間智能等，在 CVPR、ICLR、ACM MM、TPAMI等國際頂級期刊/會議發表多篇論文。

共同通訊作者：朱建科，浙江大學計算機學院教授，研究方向為計算機視覺與機器學習，在TPAMI、IJCV、CVPR、ICCV等國際頂級期刊/會議發表多篇論文；柯磊，騰訊混元大模型高級研究科學家，研究方向為多模態基礎模型，擔任 NeurIPS、ICLR 領域主席。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.