網易首頁 > 網易號 > 正文 申請入駐

谷歌DeepMind重磅開源多模態TIPSv2:實現Patch-Text對齊最優表現

0
分享至



導語:在多模態大模型飛速發展的今天,視覺 - 語言基礎模型在分類、檢索、分割和深度預測等任務上取得了巨大進步。然而,如何精準地將密集的 “圖像塊(Patch)” 表示與對應概念的 “文本嵌入” 對齊,依然是阻礙模型邁向更細粒度理解的 “Achilles' heel”。今天,谷歌 DeepMind 正式推出了 TIPSv2(Text-Image Pretraining with Spatial awareness v2),成功解決了這一核心痛點,并在 9 項任務和 20 個數據集上展現出統治級的性能。



  • 論文標題:TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
  • 項目主頁:https://gdm-tipsv2.github.io/
  • HuggingFace 在線體驗:https://huggingface.co/spaces/google/TIPSv2
  • 作者 X (Twitter) 官宣:https://x.com/andrefaraujo/status/2044362911242502498
  • LinkedIn 討論:https://www.linkedin.com/posts/andrefaraujo_cvpr2026-cvpr2026-computervision-ugcPost-7449910891069890560-1Yhe?utm_source=share&utm_medium=member_desktop&rcm=ACoAAACIVW4BSMdtaSsUj-OT2zKU6jfeOCRJ-ul

該研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被計算機視覺頂級會議 CVPR 2026 接收。目前,模型權重(涵蓋從 86M 到 1.1B 參數),代碼以及在線體驗 Demo 已全面開源。

? 核心作者團隊簡介

本文由來自 Google DeepMind 的頂尖研究人員合作完成。通訊作者包括 Bingyi Cao、Koert Chen 以及 André Araujo。

核心團隊在計算機視覺及多模態 AI 領域成果斐然,在視覺 - 語言基礎模型的架構設計與表征學習方面擁有深厚學術背景與實戰經驗。該團隊長期致力于推動具有 “空間感知能力(Spatial Awareness)” 的多模態大模型前沿研究,此次 TIPSv2 的發布標志著他們在細粒度視覺理解領域樹立了全新的里程碑。

1. 發現反直覺現象:

為何 “學生” 超越了 “老師”?

TIPSv2 的誕生,源自于 DeepMind 研究團隊對 “預訓練(Pre-training)” 與 “知識蒸餾(Distillation)” 之間差異的深度深度剖析。

在視覺大模型(如 CLIP、SigLIP)的常規訓練中,模型通常擅長全局圖像 - 文本對齊(例如識別整張圖中是否有一只貓),但在 “密集任務(Dense Tasks)” 如零樣本語義分割中卻往往表現乏力。研究團隊在早期的消融實驗中發現了一個極其反直覺的現象:



通過 “塊級別(Patch-level)” 蒸餾出的小參數學生模型(Student Model),在零樣本分割等密集型圖文對齊任務上,其表現竟然大幅度反超了規模巨大的教師模型(Teacher Model)!

在其他幾乎所有評估任務中,大參數模型通常都碾壓小模型,唯獨在 “Patch-Text 密集對齊” 上出現了驚人的逆轉。團隊進一步深挖內部機制后發現:核心差異在于對 “可見圖像塊(Visible Patches)” 的監督方式。在標準的掩碼圖像建模(Masked Image Modeling, 如 iBOT 機制)中,模型只對被遮擋的 Patch 計算損失;而在蒸餾過程中,學生模型接收了來自教師模型所有 Patch(無論是否被遮擋)的豐富特征指導。正是這種對 “可見 Patch” 的顯式學習與約束,解鎖了底層網絡驚人的密集圖文對齊能力。

2. TIPSv2 的三大核心技術創新

基于上述的反直覺洞察,DeepMind 團隊直接對底層的多模態預訓練配方進行了大刀闊斧的改革,提出了構成 TIPSv2 的三個核心技術組件:

創新一:iBOT++ —— 全局視角的自監督對齊引擎

在經典的 iBOT(被 DINO 等強大視覺模型廣泛使用)目標函數中,損失僅針對 Masked Tokens(被掩碼的標記)進行計算。TIPSv2 打破了這一范式,引入了全新的 iBOT++ 目標機制。該機制將自監督的 Patch 級別損失強行擴展到了所有的 Tokens(包括未被遮擋的可見 Tokens)。



驚人效果:在不增加任何額外網絡參數的條件下,iBOT++ 強制模型在所有局部區域保持細粒度的表征一致性。僅憑這一項底層邏輯的改動,就讓模型在 ADE150 數據集上的零樣本分割 mIoU 指標實現了+14.1的巨大飛躍(從 3.5 直接飆升至 17.6),一舉成為了驅動密集圖文對齊的最強引擎。



創新二:Head-only EMA —— 突破顯存瓶頸的高效策略

傳統的自監督學習(SSL)通常高度依賴對整個模型進行指數移動平均(EMA)參數更新。然而,當訓練達到十億參數級(Billion-scale)的多模態大模型時,全模型的 EMA 會吞噬極其龐大的顯存和計算資源。

TIPSv2 團隊在實驗中發現,由于模型同時接收了強有力的 “文本監督信號”,底層視覺骨干網絡在訓練初期就已經具備了很好的穩定性。因此,他們提出了創新的Head-only EMA策略 ——僅對頂層的投影頭(Projection Layers)執行 EMA 更新,同時凍結視覺主干網絡的 EMA。這一策略在完美保持模型卓越性能的同時,大幅度降低了訓練時的顯存需求,極大提升了模型訓練和擴展的性價比。



創新三:多粒度文本描述(Multi-Granularity Captions)

為了避免模型在訓練時對粗粒度的視覺關鍵詞 “走捷徑(Shortcutting)”,從而忽略空間布局細節,TIPSv2 構建了極度豐富的數據標注配方。團隊摒棄了單一的圖文對形式,不僅使用了傳統的 Alt-text(網頁替代文本),還創造性地引入了:



1) 利用 PaliGemma 生成的密集局部字幕;

2) 利用 Gemini Flash 大模型生成的更豐富、更具全局上下文邏輯的深度描述。

在訓練過程中,模型會在這些不同粒度的描述之間進行隨機交替和博弈。這種多粒度的文本增強約束,極大地提升了模型在應對復雜密集對齊以及全局圖像 - 文本檢索任務時的魯棒性。

3. 恐怖的統治力:

9 大任務與 20 個數據集的全面超越

為了嚴格驗證 TIPSv2 的通用視覺能力,團隊在涵蓋三大維度的 9 個不同核心任務、20 個權威數據集上進行了極其詳盡的評估。實驗覆蓋了從 86M(Base)一直到 1.1B(Giant)的四種模型尺寸梯隊(B/14, L/14, SO400m/14, g/14)。

?? 維度一:密集圖像 - 文本評估(Dense Image-Text)—— 零樣本分割霸主

在最能衡量細粒度空間理解的 “零樣本分割(Zero-shot Segmentation)” 四大基準測試中,TIPSv2 實現了無可爭議的全面霸榜。

相比于上一代前沿的視覺語言大模型(如 SigLIP2),TIPSv2 不僅性能呈現斷崖式領先,更是正面擊敗了專門針對此類任務優化的 SILC 和 DINOv2 架構。值得一提的是,后兩者使用了更為繁重的 TCL 評估協議,而 TIPSv2 以更通用、簡潔的架構實現了越級超越。



?? 維度二:全局圖像 - 文本評估(Global Image-Text)+ 純圖像評估(Image-Only)—— 極致的參數利用率

在分類、圖文跨模態檢索等 7 項全局維度的評估中,TIPSv2 在 5 項中強勢斬獲第一或第二的佳績。在語義分割、深度估計、表面法線預測、圖像自檢索等 9 個純視覺骨干任務中,TIPSv2 在 7 項中穩居榜首或次席。

高光時刻:TIPSv2-g(1.1B 參數版本)在 3/5 的共享評估體系中,硬核擊敗了目前業界頂尖的PE-core G/14。要知道,PE 模型比 TIPSv2 多出了足足 56% 的參數量,并且喂給了高達47 倍的訓練圖文對數據!TIPSv2 展現出的恐怖訓練效率和參數榨取能力令人驚嘆。



?? 維度三:與 DINOv3 的巔峰對決

更引人注目的是它與近期開源的 “最強純視覺基礎大模型” DINOv3 的正面交鋒:



DeepMind 團隊在雙方共有的最大基準尺寸(ViT-L)下進行了絕對公平的對比。DINOv3 的教師模型參數量是 TIPSv2 的 6 倍之多,其使用的圖像數據總量更是 TIPSv2 的 15 倍。

最終戰績:在 6 項高度重合的共享評估任務中,TIPSv2 贏下了其中的 4 項(包括極具挑戰性的零樣本分割核心任務),證明了圖文雙模態聯合約束優于單一純視覺預訓練。

4. 深度特征可視化:比清晰更清晰

除了硬核的量化指標外,團隊還通過主成分分析(PCA)對模型的特征圖(Feature Maps)進行了直觀的視覺分析。相比于上一代 TIPS 和業界流行的 SigLIP2,TIPSv2 的特征圖展現出兩個極其顯著的碾壓級優勢:





1) 極致的表征平滑性:背景噪音被大幅度抑制,屬于同一物體的不同區域,其特征呈現高度且平滑的一致性。

2) 極強的語義聚焦能力:即便與同樣以特征平滑著稱的 DINOv3 相比,TIPSv2 對物體邊界輪廓的勾勒也要更加精準和銳利;并且在區域內部,TIPSv2 展現出了更豐富的 “顆粒度語義細節(Granular semantic details)”。這意味著 TIPSv2 不僅僅是 “看清” 了物體的輪廓邊緣,它已經能夠在沒有人工標注的情況下,深度 “理解” 物體的空間語義構成。

5. 繁榮的開源生態與工具鏈支持

秉承 Google DeepMind 推動全球開源 AI 社區發展的優良傳統,TIPSv2 本次的發布不僅技術硬核、誠意滿滿,其配套生態也極其完善。

現已向社區全面開源的資源包括:

  • 全矩陣模型權重:全面覆蓋 B/14 (86M), L/14 (303M), SO400m/14 (412M), g/14 (1.1B) 等不同尺寸。同時提供 PyTorch 與 Jax (Scenic) 兩種原生深度學習框架的適配版本。
  • DPT 預測頭(DPT Heads):為了讓工業界即插即用,團隊額外開源了基于 SO400m/14 骨干網的 DPT 網絡預測頭,直接支持高精度的深度估計(NYU Depth V2)、表面法線預測和語義分割(ADE20K)。
  • 保姆級代碼與 Demo:GitHub 倉庫內提供了詳盡的特征可視化、監督 / 零樣本分割的 Colab Notebooks 實操代碼。

所有相關代碼、模型權重均遵循商業友好的Apache 2.0 開源協議,無論是學術機構探索前沿,還是工業界進行商業落地,都極其便利。強烈建議感興趣的開發者立即前往 HuggingFace 官方空間 上傳您自己的圖片,在線零門檻體驗 TIPSv2 在零樣本分割、深度與法線預測等任務上的震撼表現。

結語

TIPSv2 的橫空出世,絕不僅僅是多模態領域又一個簡單的 “刷榜模型”。它深刻揭示了 “對比學習” 與 “自監督學習” 在微觀 Patch 層面的底層化學反應。通過 iBOT++、Head-only EMA 與多粒度文本大模型的巧妙融合,DeepMind 為下一代具有 “極強空間感知能力” 的通用人工智能(AGI)指明了一條極具潛力的預訓練破局之路。期待 TIPSv2 在海內外開發者的手中開花結果,為計算機視覺的繁榮帶來更多可能!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今日最慘股,這只醫藥股已連續下跌三年并創新低,今又跳空跌停!

今日最慘股,這只醫藥股已連續下跌三年并創新低,今又跳空跌停!

丁丁鯉史紀
2026-04-27 16:19:12
停車場內小便被管理員制止,男子踹向管理員卻一腳踩空致骨折,索賠18萬余元,法院駁回:男子不當行為在先,傷情與被告無關

停車場內小便被管理員制止,男子踹向管理員卻一腳踩空致骨折,索賠18萬余元,法院駁回:男子不當行為在先,傷情與被告無關

揚子晚報
2026-04-27 09:54:41
裁員裁到大動脈是什么后果?網友:我高興的像自己賺了30萬一樣

裁員裁到大動脈是什么后果?網友:我高興的像自己賺了30萬一樣

夜深愛雜談
2026-04-23 07:31:00
累到癱軟也不換!雷迪克故意整勒布朗?美記暗示為延續144場上雙

累到癱軟也不換!雷迪克故意整勒布朗?美記暗示為延續144場上雙

顏小白的籃球夢
2026-04-27 14:10:25
偉大傳承!趙心童贏球后主動握手致敬丁俊暉 央媒:意義超越勝負

偉大傳承!趙心童贏球后主動握手致敬丁俊暉 央媒:意義超越勝負

念洲
2026-04-26 20:15:54
博主:亞足聯要求只有具備VAR設施的國家才能參加亞冠精英賽

博主:亞足聯要求只有具備VAR設施的國家才能參加亞冠精英賽

懂球帝
2026-04-27 16:40:53
太扎心!38歲教師腦淤血倒在講臺,次日火化,存在感只剩課程分配

太扎心!38歲教師腦淤血倒在講臺,次日火化,存在感只剩課程分配

火山詩話
2026-04-27 10:19:05
湖人故意輸球還是真打不過?雷迪克早給出“答案”,詹姆斯盡力了

湖人故意輸球還是真打不過?雷迪克早給出“答案”,詹姆斯盡力了

麥子的籃球故事
2026-04-27 15:20:19
陳奕迅女兒陳康堤承認與香港網球一哥黃澤林戀愛:是家人介紹的

陳奕迅女兒陳康堤承認與香港網球一哥黃澤林戀愛:是家人介紹的

懂球帝
2026-04-25 16:34:10
民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

阿器談史
2026-04-26 20:10:00
血虧8億!華晨宇直播崩潰大哭,云南拿地建樂園,臨門一腳被強拆

血虧8億!華晨宇直播崩潰大哭,云南拿地建樂園,臨門一腳被強拆

奇怪的鯊魚們
2026-04-26 16:32:25
男人有錢就找一個自己喜歡,漂亮的女人,有錢女人就會死心塌地

男人有錢就找一個自己喜歡,漂亮的女人,有錢女人就會死心塌地

加油丁小文
2026-04-08 07:00:08
就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

瓦倫西亞月亮
2026-04-23 23:09:51
內塔被上百國通緝,中方不再沉默,在安理會出手,公開清算以色列

內塔被上百國通緝,中方不再沉默,在安理會出手,公開清算以色列

墨印齋
2026-04-26 15:00:25
沒等到訪華邀請,高市準備報復?中方接到美媒消息,日本或掀桌

沒等到訪華邀請,高市準備報復?中方接到美媒消息,日本或掀桌

天氣觀察站
2026-04-27 08:19:25
不是不想回,而是不能回?柬埔寨國王在華手術后滯留不歸,謎底揭開

不是不想回,而是不能回?柬埔寨國王在華手術后滯留不歸,謎底揭開

普陀動物世界
2026-04-27 08:44:50
日本通脹突然“掉頭向上”!背后這把刀,正悄悄架在中國脖子上

日本通脹突然“掉頭向上”!背后這把刀,正悄悄架在中國脖子上

閆樹軍論評
2026-04-26 20:40:35
河床主帥:我們歡迎馬斯坦托諾回歸,他在皇馬面臨激烈的競爭

河床主帥:我們歡迎馬斯坦托諾回歸,他在皇馬面臨激烈的競爭

懂球帝
2026-04-27 15:06:16
33+30!再見了,布克!人家才是太陽第一核心

33+30!再見了,布克!人家才是太陽第一核心

籃球實戰寶典
2026-04-26 18:56:07
成都天投集團三任“一把手”全部被查!

成都天投集團三任“一把手”全部被查!

樓市全搜索
2026-04-27 17:39:23
2026-04-27 19:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12871文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

東方甄選多位主播離職 羅永浩連發6個問句怒懟網友

頭條要聞

東方甄選多位主播離職 羅永浩連發6個問句怒懟網友

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

時尚
藝術
手機
健康
家居

春天衣服別只穿黑色,看看下面這些彩色穿搭,亮眼還有感染力

藝術要聞

你絕對想不到,攝影能讓她成為女神!

手機要聞

最強Mate來了!華為Mate 90最快9月亮相:首發麒麟最強芯

干細胞如何讓燒燙傷皮膚"再生"?

家居要聞

江景風格 流動的秩序

無障礙瀏覽 進入關懷版