網易首頁 > 網易號 > 正文申請入駐

谷歌DeepMind重磅開源多模態TIPSv2：實現Patch-Text對齊最優表現

2026-04-27 17:23:04　來源: 機器之心Pro

河北舉報

分享至

導語：在多模態大模型飛速發展的今天，視覺 - 語言基礎模型在分類、檢索、分割和深度預測等任務上取得了巨大進步。然而，如何精準地將密集的 “圖像塊（Patch）” 表示與對應概念的 “文本嵌入” 對齊，依然是阻礙模型邁向更細粒度理解的 “Achilles' heel”。今天，谷歌 DeepMind 正式推出了 TIPSv2（Text-Image Pretraining with Spatial awareness v2），成功解決了這一核心痛點，并在 9 項任務和 20 個數據集上展現出統治級的性能。

論文標題：TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
項目主頁：https://gdm-tipsv2.github.io/
HuggingFace 在線體驗：https://huggingface.co/spaces/google/TIPSv2
作者 X (Twitter) 官宣：https://x.com/andrefaraujo/status/2044362911242502498
LinkedIn 討論：https://www.linkedin.com/posts/andrefaraujo_cvpr2026-cvpr2026-computervision-ugcPost-7449910891069890560-1Yhe?utm_source=share&utm_medium=member_desktop&rcm=ACoAAACIVW4BSMdtaSsUj-OT2zKU6jfeOCRJ-ul

該研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被計算機視覺頂級會議 CVPR 2026 接收。目前，模型權重（涵蓋從 86M 到 1.1B 參數），代碼以及在線體驗 Demo 已全面開源。

? 核心作者團隊簡介

本文由來自 Google DeepMind 的頂尖研究人員合作完成。通訊作者包括 Bingyi Cao、Koert Chen 以及 André Araujo。

核心團隊在計算機視覺及多模態 AI 領域成果斐然，在視覺 - 語言基礎模型的架構設計與表征學習方面擁有深厚學術背景與實戰經驗。該團隊長期致力于推動具有 “空間感知能力（Spatial Awareness）” 的多模態大模型前沿研究，此次 TIPSv2 的發布標志著他們在細粒度視覺理解領域樹立了全新的里程碑。

1. 發現反直覺現象：

為何 “學生” 超越了 “老師”？

TIPSv2 的誕生，源自于 DeepMind 研究團隊對 “預訓練（Pre-training）” 與 “知識蒸餾（Distillation）” 之間差異的深度深度剖析。

在視覺大模型（如 CLIP、SigLIP）的常規訓練中，模型通常擅長全局圖像 - 文本對齊（例如識別整張圖中是否有一只貓），但在 “密集任務（Dense Tasks）” 如零樣本語義分割中卻往往表現乏力。研究團隊在早期的消融實驗中發現了一個極其反直覺的現象：

通過 “塊級別（Patch-level）” 蒸餾出的小參數學生模型（Student Model），在零樣本分割等密集型圖文對齊任務上，其表現竟然大幅度反超了規模巨大的教師模型（Teacher Model）！

在其他幾乎所有評估任務中，大參數模型通常都碾壓小模型，唯獨在 “Patch-Text 密集對齊” 上出現了驚人的逆轉。團隊進一步深挖內部機制后發現：核心差異在于對 “可見圖像塊（Visible Patches）” 的監督方式。在標準的掩碼圖像建模（Masked Image Modeling, 如 iBOT 機制）中，模型只對被遮擋的 Patch 計算損失；而在蒸餾過程中，學生模型接收了來自教師模型所有 Patch（無論是否被遮擋）的豐富特征指導。正是這種對 “可見 Patch” 的顯式學習與約束，解鎖了底層網絡驚人的密集圖文對齊能力。

2. TIPSv2 的三大核心技術創新

基于上述的反直覺洞察，DeepMind 團隊直接對底層的多模態預訓練配方進行了大刀闊斧的改革，提出了構成 TIPSv2 的三個核心技術組件：

創新一：iBOT++ —— 全局視角的自監督對齊引擎

在經典的 iBOT（被 DINO 等強大視覺模型廣泛使用）目標函數中，損失僅針對 Masked Tokens（被掩碼的標記）進行計算。TIPSv2 打破了這一范式，引入了全新的 iBOT++ 目標機制。該機制將自監督的 Patch 級別損失強行擴展到了所有的 Tokens（包括未被遮擋的可見 Tokens）。

驚人效果：在不增加任何額外網絡參數的條件下，iBOT++ 強制模型在所有局部區域保持細粒度的表征一致性。僅憑這一項底層邏輯的改動，就讓模型在 ADE150 數據集上的零樣本分割 mIoU 指標實現了+14.1的巨大飛躍（從 3.5 直接飆升至 17.6），一舉成為了驅動密集圖文對齊的最強引擎。

創新二：Head-only EMA —— 突破顯存瓶頸的高效策略

傳統的自監督學習（SSL）通常高度依賴對整個模型進行指數移動平均（EMA）參數更新。然而，當訓練達到十億參數級（Billion-scale）的多模態大模型時，全模型的 EMA 會吞噬極其龐大的顯存和計算資源。

TIPSv2 團隊在實驗中發現，由于模型同時接收了強有力的 “文本監督信號”，底層視覺骨干網絡在訓練初期就已經具備了很好的穩定性。因此，他們提出了創新的Head-only EMA策略 ——僅對頂層的投影頭（Projection Layers）執行 EMA 更新，同時凍結視覺主干網絡的 EMA。這一策略在完美保持模型卓越性能的同時，大幅度降低了訓練時的顯存需求，極大提升了模型訓練和擴展的性價比。

創新三：多粒度文本描述（Multi-Granularity Captions）

為了避免模型在訓練時對粗粒度的視覺關鍵詞 “走捷徑（Shortcutting）”，從而忽略空間布局細節，TIPSv2 構建了極度豐富的數據標注配方。團隊摒棄了單一的圖文對形式，不僅使用了傳統的 Alt-text（網頁替代文本），還創造性地引入了：

1) 利用 PaliGemma 生成的密集局部字幕；

2) 利用 Gemini Flash 大模型生成的更豐富、更具全局上下文邏輯的深度描述。

在訓練過程中，模型會在這些不同粒度的描述之間進行隨機交替和博弈。這種多粒度的文本增強約束，極大地提升了模型在應對復雜密集對齊以及全局圖像 - 文本檢索任務時的魯棒性。

3. 恐怖的統治力：

9 大任務與 20 個數據集的全面超越

為了嚴格驗證 TIPSv2 的通用視覺能力，團隊在涵蓋三大維度的 9 個不同核心任務、20 個權威數據集上進行了極其詳盡的評估。實驗覆蓋了從 86M（Base）一直到 1.1B（Giant）的四種模型尺寸梯隊（B/14, L/14, SO400m/14, g/14）。

?? 維度一：密集圖像 - 文本評估（Dense Image-Text）—— 零樣本分割霸主

在最能衡量細粒度空間理解的 “零樣本分割（Zero-shot Segmentation）” 四大基準測試中，TIPSv2 實現了無可爭議的全面霸榜。

相比于上一代前沿的視覺語言大模型（如 SigLIP2），TIPSv2 不僅性能呈現斷崖式領先，更是正面擊敗了專門針對此類任務優化的 SILC 和 DINOv2 架構。值得一提的是，后兩者使用了更為繁重的 TCL 評估協議，而 TIPSv2 以更通用、簡潔的架構實現了越級超越。

?? 維度二：全局圖像 - 文本評估（Global Image-Text）+ 純圖像評估（Image-Only）—— 極致的參數利用率

在分類、圖文跨模態檢索等 7 項全局維度的評估中，TIPSv2 在 5 項中強勢斬獲第一或第二的佳績。在語義分割、深度估計、表面法線預測、圖像自檢索等 9 個純視覺骨干任務中，TIPSv2 在 7 項中穩居榜首或次席。

高光時刻：TIPSv2-g（1.1B 參數版本）在 3/5 的共享評估體系中，硬核擊敗了目前業界頂尖的PE-core G/14。要知道，PE 模型比 TIPSv2 多出了足足 56% 的參數量，并且喂給了高達47 倍的訓練圖文對數據！TIPSv2 展現出的恐怖訓練效率和參數榨取能力令人驚嘆。

?? 維度三：與 DINOv3 的巔峰對決

更引人注目的是它與近期開源的 “最強純視覺基礎大模型” DINOv3 的正面交鋒：

DeepMind 團隊在雙方共有的最大基準尺寸（ViT-L）下進行了絕對公平的對比。DINOv3 的教師模型參數量是 TIPSv2 的 6 倍之多，其使用的圖像數據總量更是 TIPSv2 的 15 倍。

最終戰績：在 6 項高度重合的共享評估任務中，TIPSv2 贏下了其中的 4 項（包括極具挑戰性的零樣本分割核心任務），證明了圖文雙模態聯合約束優于單一純視覺預訓練。

4. 深度特征可視化：比清晰更清晰

除了硬核的量化指標外，團隊還通過主成分分析（PCA）對模型的特征圖（Feature Maps）進行了直觀的視覺分析。相比于上一代 TIPS 和業界流行的 SigLIP2，TIPSv2 的特征圖展現出兩個極其顯著的碾壓級優勢：

1) 極致的表征平滑性：背景噪音被大幅度抑制，屬于同一物體的不同區域，其特征呈現高度且平滑的一致性。

2) 極強的語義聚焦能力：即便與同樣以特征平滑著稱的 DINOv3 相比，TIPSv2 對物體邊界輪廓的勾勒也要更加精準和銳利；并且在區域內部，TIPSv2 展現出了更豐富的 “顆粒度語義細節（Granular semantic details）”。這意味著 TIPSv2 不僅僅是 “看清” 了物體的輪廓邊緣，它已經能夠在沒有人工標注的情況下，深度 “理解” 物體的空間語義構成。

5. 繁榮的開源生態與工具鏈支持

秉承 Google DeepMind 推動全球開源 AI 社區發展的優良傳統，TIPSv2 本次的發布不僅技術硬核、誠意滿滿，其配套生態也極其完善。

現已向社區全面開源的資源包括：

全矩陣模型權重：全面覆蓋 B/14 (86M), L/14 (303M), SO400m/14 (412M), g/14 (1.1B) 等不同尺寸。同時提供 PyTorch 與 Jax (Scenic) 兩種原生深度學習框架的適配版本。
DPT 預測頭（DPT Heads）：為了讓工業界即插即用，團隊額外開源了基于 SO400m/14 骨干網的 DPT 網絡預測頭，直接支持高精度的深度估計（NYU Depth V2）、表面法線預測和語義分割（ADE20K）。
保姆級代碼與 Demo：GitHub 倉庫內提供了詳盡的特征可視化、監督 / 零樣本分割的 Colab Notebooks 實操代碼。

所有相關代碼、模型權重均遵循商業友好的Apache 2.0 開源協議，無論是學術機構探索前沿，還是工業界進行商業落地，都極其便利。強烈建議感興趣的開發者立即前往 HuggingFace 官方空間上傳您自己的圖片，在線零門檻體驗 TIPSv2 在零樣本分割、深度與法線預測等任務上的震撼表現。

結語

TIPSv2 的橫空出世，絕不僅僅是多模態領域又一個簡單的 “刷榜模型”。它深刻揭示了 “對比學習” 與 “自監督學習” 在微觀 Patch 層面的底層化學反應。通過 iBOT++、Head-only EMA 與多粒度文本大模型的巧妙融合，DeepMind 為下一代具有 “極強空間感知能力” 的通用人工智能（AGI）指明了一條極具潛力的預訓練破局之路。期待 TIPSv2 在海內外開發者的手中開花結果，為計算機視覺的繁榮帶來更多可能！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.