網易首頁 > 網易號 > 正文申請入駐

VFMTok: Visual Foundation Models驅動的Tokenizer時代來臨

2025-10-28 18:00:47　來源: 機器之心Pro

北京舉報

分享至

視覺 Tokenizer 的困境與破局

近年來，自回歸（Autoregressive, AR）模型在語言生成領域的成功激發了其在圖像生成領域的應用，涌現出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。這類技術高度依賴于 VQGAN 等視覺 Tokenizer，它負責將高維、冗余的像素空間映射到一個低維、緊湊的離散潛在空間，是決定生成模型上限的基石。

然而，以 VQGAN 為代表的傳統 Tokenizer 通常需要從零開始訓練，其訓練目標由像素級重建損失函數主導，導致其產生的潛在空間：

富含低層細節特征卻缺乏高層語義信息：能很好地還原圖像細節，但潛在編碼本身缺乏高層語義信息。
較高的潛在空間冗余:VAGAN 基于圖像塊 (patch) 逐一進行量化，而圖像中的物體通常是不規則的區域，基于圖像塊的量化降低了 tokens 的編碼效率。
無視結構特性的表征：潛在空間的組織較為混亂，使得生成模型不僅需要更長的訓練時間來學習其潛在空間分布，而且往往得借助 CFG（Classifier-Free Guidance, CFG）等技巧來實現高保真度的圖像生成，增加了模型推理時間。

與此同時，預訓練的視覺基礎模型（Visual Foundation Models, VFMs），如 CLIP、DINOv2、SigLIP2 等，在提取豐富語義且可泛化視覺特征方面表現出了強大的能力。這些模型通過自監督或語言監督的方式進行訓練，它們能夠有效抽象出圖像中的高層語義信息，因此這些預訓練的視覺基礎模型大多應用于圖像內容理解任務當中。直接將其應用于圖像重建和生成任務上卻鮮有人探索。

基于此，香港大學 CVMI Lab 和階躍星辰 AIGC 團隊提出一個大膽假設：原本為視覺理解任務設計的預訓練視覺基礎模型，其潛在特征是否也能直接作為圖像重建與生成的魯棒結構化表征？

為了驗證這一猜想，我們探索了一個基礎視覺模型新的應用新方向：用凍結的預訓練視覺基礎模型構造離散的視覺 Tokenizer，將其應用于圖像重建和自回歸圖像生成任務上。

我們發現，相比于傳統的視覺 Tokenizer 模型，視覺基礎模型驅動的圖像 Tokenizer 在這兩項任務上均表現出優異的性能。

論文標題: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
論文地址: https://arxiv.org/pdf/2507.08441
Huggingface: https://huggingface.co/papers/2507.08441
Github:
https://github.com/CVMI-Lab/VFMTok.git （Vanilla version）
https://github.com/CVMI-Lab/VFMTok-RAR.git （Ultra version）

探索性發現

為了驗證視覺基礎模型 (VFMs) 能否構造高質量的視覺 Tokenizer，我們首次嘗試使用不同的凍結的預訓練基礎視覺模型 (VFMs) 提取圖像特征，將其送入 VQGAN 的編碼器中進行端到端訓練。訓練階段只有量化器（quantilizer）和解碼器中的參數會進行更新，隨后用它完成自回歸圖像生成任務。

實驗表明：凍結的視覺基礎模型 (VFMs) 提取的圖像特征可以直接用于圖像重建，且訓練好的視覺 Tokenizer 在自回歸圖像生成任務上的表現優于傳統的視覺 Tokenizer 模型。

這一發現凸顯了預訓練視覺基礎模型 (VFMs) 構造高質量視覺 Tokenizer 的巨大潛力。

核心思想

基于我們的探索性發現：凍結的視覺基礎模型 (VFMs) 可以直接構造高質量的視覺 Tokenizer 并進行端到端地訓練，我們對構造的視覺 Tokenizer 的結構進行進一步的優化 —— 利用視覺基礎模型 (VFMs)提取圖像的多層特征 (Multi-level Features Extraction)，這有助于同時捕獲圖像中的低層細節特征和高層語義信息。

同時，我們注意到現有的量化機制 (quantization) 都是對圖像塊 (patch) 逐一量化，而圖像中物體一般都是形狀不規則的，因此我們設計了區域自適應的量化 (Region-Adaptive Quantization) 方案。該方案可以進一步降低潛在特征空間的冗余度，提高視覺 tokens 的利用效率。

此外，因為視覺基礎模型的參數是凍結的，因此在重建圖像內容的同時，我們也設計了語義特征重建的目標函數 (Semantic Reconstruction Objective)，來提升視覺 Tokenizer 的語義保真度。我們將基于視覺基礎模型 (VFMs) 的 Tokenizer 稱之為VFMTok。

VFMTok 架構圖

關鍵技術細節

多層圖像特征提取 (Multi-level Features Extraction)

為了同時捕獲圖像低層細節特征和高層語義信息方便圖像重建，VFMTok 采用凍結的預訓練的視覺基礎模型 (VFMs) 作為編碼器提取多層級語義特征。VFMTok 按照等間隔的方式從預訓練基礎模型 (VFMs) 中提取多層特征 (multi-level features)。

區域自適應量化 (Region-Adaptive Quantization)

為了實現區域自適應量化 (Region-Adaptive Quantization) 機制，VFMTok 通過可學習「錨點查詢」（Anchor Queries）結合可變形注意力機制（Deformable Attention）自適應地從多層級特征 (multi-level features) 中進行區域自適應的特征采樣 (Region-Adaptive Sampling)。

這種方式能聚焦于采樣圖像中模式一致的區域。隨后，VFMToks 對可學習「錨點查詢」（Anchor Queries）進行量化 (quantization)。這種方式可以有效提升 token 的利用效率 —— 用更少的 tokens（256）來表征一張圖像。

語義重建目標（Semantic Reconstruction Objective）

因為視覺基礎模型在 Tokenizer 的訓練階段參數是凍結的，因此 VFMTok 在重建圖像的同時，也會重建凍結的基礎模型（VFM）最后一層的語義特征。

為了實現這一點，VFMTok 解碼階段設計了一個共享的輕量級 Vision Transformer（ViT）。這個 ViT 接收區域自適應量化后的 tokens，結合一個可學習的 mask token 以及一組可學習的位置編碼（Positional Embedding）作為輸入，分別產生用于圖像重建和語義重建的特征。共享 ViT 的設計既減少了參數量又保證了語義保真度。其雙重目標函數是：

訓練完成后，VFMTok 可以被應用于圖像自適應回歸任務上，基于 next-token prediction 的方式生成高質量的圖像內容。

實驗亮點與分析

1.卓越的重建生成質量與效率

大量實驗表明，基于視覺基礎模型 (VFMs) 構造的視覺 Tokenizer——VFMTok，具備高質量、高效率的圖像重建和自回歸圖像生成能力。

更好的圖像重建質量：相較于傳統的視覺 Tokenizer，VFMTok 可以用更少的 token 數量（僅用 256 個）實現更優的重建質量（0.89 rFID， 215.4 rIS）和更高的碼本利用率 (100%)，超越了之前大部分傳統的離散 Tokenizers。

更快的生成訓練收斂速度：相比于經典的 VQGAN 這類 Tokenizer，VFMTok 能夠顯著提升自回歸模型訓練階段的收斂速度 ——訓練收斂速度提升了 3 倍。

更好的生成性能：在 ImageNet 256x256 的 class-to-image 生成任務上，VFMTok-1.4B 模型在參數量更少、訓練迭代次數更少的情況下，自回歸生成性能超越了同類 LlamaGen-3B。此外，在接入更好的自回歸圖像生成框架 RAR 后，實現了SOTA 的圖像生成性能（gFID: 1.36）。

CFG-free 優越性：值得注意的是，VFMTok 在有無 CFG 的情況下性能幾乎一致（gFID: 2.07 vs 2.04），而 LlamaGen 則會從 2.19 急劇惡化至 9.38。這證明了其潛在空間具有極強的語義一致性，無需 CFG 即可實現高保真度的 class-to-image 圖像生成，可以進一步減少圖像生成時間。
更快的推理速度：由于 tokens 數量減半（256 vs. 576），自回歸模型的生成過程長度減半，推理速度因此獲得了約 4 倍的提升。

2.消融實驗的有力證明

僅使用凍結的 VFM 作為編碼器，線性探針準確率（linear probing）就從 VQGAN 的 23.1% 提升至56.4%。引入區域自適應量化 (Region-Adaptive Quantization) 和語義特征重建 (Semantic Reconstruction Objective) 后，VFMTok 僅用 256 個 Token 就能在重建質量（rFID 0.89 vs 0.95) 上全面超越使用 576 個 Token 的 VQGAN 基線 Tokenizer。

總結與展望

VFMTok 首次證明了凍結的視覺基礎模型 (VFMs) 提取的圖像特征能有效用于圖像重建與生成，同時可以提升 Tokenizer 語義表征能力，使自回歸 (AR) 圖像生成模型收斂更快，并能實現 CFG-free 的高保真圖像合成。VFMTok 提出的區域自適應量化機制，通過有效利用圖像區域的固有冗余實現緊湊編碼，在減少視覺 token 數量的同時提升性能，實現高效且高質量的自回歸圖像生成。

大量實驗驗證了 VFMTok 在圖像重建和自回歸生成中的有效性，確立了預訓練視覺基礎模型 (VFMs) 構造高質量、高效率 Tokenizer 的主導地位。

由此可見，利用 VFM 的先驗知識是構建高質量潛在空間的必由之路，也是構建下一代 Tokenizer 的關鍵，這比任何從零開始的正則化或約束都更根本、更有效。預訓練視覺基礎模型的巨大潛力值得我們在未來深入挖掘，最終可能探索出一個能夠有效兼容所有生成模型的、語義豐富、高質高效的「統一 Tokenizer」。

VFMTok 論文與代碼均已公開，歡迎感興趣的同學閱讀、復現以及深入討論。

作者介紹

本文作者主要來自于香港大學 CVMI Lab 和階躍星辰 AIGC 團隊。階躍星辰 AIGC 團隊主要致力于圖像生成底模、圖像編輯底模、世界模型以及 RL 后訓練研究和落地。歡迎志同道合的同學交流和加入，一起為 AIGC 社區貢獻力量。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.