網易首頁 > 網易號 > 正文申請入駐

僅用64個token生成高清圖像，MacTok攻破連續分詞器后驗坍塌難題

2026-04-24 14:17:20　來源: 機器之心Pro

河北舉報

分享至

本文作者團隊來自復旦大學，共同第一作者為復旦大學曾恒宇（生物醫學工程專業二年級碩士）和高鑫（應用數學專業三年級碩士，即將赴耶魯大學攻讀計算機科學博士），通訊作者為浦劍教授。

在視覺生成領域，提升擴散模型或自回歸模型的推理效率，關鍵在于將圖像壓縮為更少量的 token。當前主流的圖像分詞器分為離散（如 VQ-VAE、VQ-GAN）與連續（如 KL-VAE）兩派。離散分詞器雖然應用廣泛，但其不可求導的量化過程需要進行梯度近似，容易引入量化誤差。相比之下，連續分詞器摒棄了硬性的離散碼本，保留了連續平滑的潛在空間，原生支持梯度優化并能容納更豐富的表征細節，因此被視為更具潛力的壓縮范式。

然而，連續分詞器在極度壓縮（例如僅使用 64 個 token）時，會面臨一個核心挑戰：強 KL 正則化會導致潛在空間嚴重退化。編碼器常常無法有效寫入語義特征，而是直接向先驗分布妥協，引發嚴重的「后驗坍塌」（posterior collapse）。這往往會導致重建或生成的圖像失去細節。

本文提出的MacTok（Masked Augmenting 1D Continuous Tokenizer）從連續分詞器的底層邏輯出發，提出了一種簡潔實用的核心洞察：只有讓潛在空間學會真正「富含語義」的表征，才能徹底杜絕后驗坍塌。為了達成這一目標，MacTok 脫離了單一層面的局部魔改，而是在圖像空間與表征空間進行了雙管齊下的協同設計。

論文標題：MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation
論文鏈接：
https://arxiv.org/pdf/2603.29634

在圖像空間層面，MacTok 引入了隨機掩碼與語義掩碼（Semantic Masking）的混合機制，強迫模型在最殘缺的條件下補全最高信息密度的焦點區域；在表征空間層面，則利用全局（Global）與局部（Local）的表征同時對齊來直接約束潛在空間的語義結構。

結合兩者的協同機制，MacTok 僅需 64 或 128 個 token，便在 ImageNet 256×256 上實現了 1.44 的 gFID，在 512×512 上達到了 1.52 的 gFID，其實際使用的 token 數量相比傳統方法壓縮了 64 倍。該工作已被 CVPR 2026 錄用并入選為Highlight論文！

「化繁為簡」：重新認知連續分詞器與后驗坍塌

既然離散分詞器技術已相對成熟，為何業界仍需深入探討連續分詞器？主要原因在于離散碼本的表征瓶頸逐漸顯現，而連續空間擁有良好的數學連續性和原生梯度優勢，具備更高的優化潛力。但是，要讓連續分詞器走向商業可用，就必須解決「后驗坍塌」這一技術阻礙。

后驗坍塌的直觀表現是，潛在空間中的各類特征嚴重重疊，解碼器生成的往往是一片模糊。從本質上看，這是由于在強正則約束與稀缺 Token 的雙重限制下，模型傾向于選擇最容易滿足先驗分布的優化路徑，而非去刻畫復雜的圖像語義。

學術界此前的解法大多專注于調低正則強度或加入循環退火系數，這類基于損失函數層面的調整難以觸及問題根源。若直接套用普通的隨機掩碼策略（如直接遮擋 Latent Token），在 64 Token 的苛刻限制下，也會因后期訓練的信息流失而再度引發坍塌。

MacTok 團隊提出，改變模型這種「優化怠情」的唯一做法是促使其學習到具備豐富語義信息的表征。為此，MacTok 放棄了單一維度的修修補補，提出了一個統籌圖像空間（Image Space）與表征空間（Representation Space）的雙管齊下方案：在圖像端通過掩碼提高「考題難度」，在表征端通過對齊直接注入語義引導，構建了一個魯棒的抗坍塌學習環境。

雙空間協同設計：從圖像到表征的語義注入

MacTok 團隊意識到，避免后驗坍塌的核心宗旨只有一個：必須迫使模型學到具有豐富語義信息的表征。為了達成這一目標，不能僅僅依賴常規的特征對齊，必須在圖像空間和表征空間同時作用，完成雙管齊下的語義注入。

首先是在圖像空間的設計。在輸入端施加重度掩碼可以為模型提供一個更難的預測目標，從而提升模型特征提取的魯棒性。為進一步強化對語義的關注，MacTok 引入了混合掩碼策略：

隨機掩碼（Random Masking）：提供基礎的重建挑戰，促使模型建立更穩健的結構映射。

語義掩碼（Semantic Masking）：這是在圖像層面注入語義保留意識的關鍵。系統會評估圖像各個區域的語義重要性，并優先遮擋「富含最高語義」的區域。使得模型在預測殘缺圖像時，必須更加關注深層語義信息的推理與關聯，而非基于簡單紋理的像素填補。

如下方曲線圖所示，引入語義掩碼后其生成質量有顯著提升，實驗測定最優的圖像掩碼比例在 70% 左右：

其次是在表征空間的直接約束。在圖像空間的重建約束之外，MacTok 還引入了全局與局部表征對齊（Global and Local Alignment）。具體而言，分詞器的 Latent token 不僅在局部維度上與細粒度的 Patch 特征對齊，還在全局維度上與高度濃縮宏觀語義的 CLS 特征對齊。

圖像空間層面的語義掩碼（增加理解難度），配合表征空間層面的全局-局部對齊（指明優化方向），兩者相輔相成。這套雙空間協同機制共同構筑了連續潛在空間高度的語義魯棒性，從根本上阻斷了后驗坍塌的發生。

突破壓縮極限：主流 Benchmark 上的表現

在主流驗證基準上，主打極少 token 的 MacTok 保持了極高的運行效率和視覺質量。

1. 256×256 分辨率下的表現

與使用大基數 token 的生成模型相比，MacTok 具備較為明顯的單 token 信息密度優勢。

可以看到，僅使用 64 個 token 的 MacTok，在無 CFG 的測試條件下獲得了優于 SoftVQ-VAE 的生成結果（gFID 降低了 2.21）。128 token 的 MacTok 則達到了與擁有 1024 token 的主流基線模型（如 REPA 對應 gFID 1.42）相近的水平。

2. 512×512 分辨率下的擴展能力

在 512×512 分辨率下，模型需處理的圖像信息量成倍增長，而 MacTok 的各項核心指標并未出現衰減：

在 512×512 測試中，MacTok 的 128 token 與 64 token 版本均取得了 1.52 的 gFID 與超過 306.0 的 IS（Inception Score），在大幅縮減序列長度的同時維持了該量級的領先效果。

總結

借助 UMAP 降維可視化，我們可以客觀地評估該方法在潛在空間特征分布上的改善：相比以往方法常出現的因坍塌而嚴重重疊的隨機點陣，MacTok 更能明確保持各語義類別的聚類結構。

MacTok 的研究成果說明，后驗坍塌的根源在于強正則條件體系下缺乏足夠有效的數據特征引導約束。在不改變原生分詞架構基礎結構的前提下，僅僅通過在圖像輸入層引入具有挑戰性的語義掩碼重建任務，即可極大激活連續潛在空間編碼深層信息的潛能。面對未來對圖像生成分辨率、吞吐延遲要求越來越苛刻的大模型場景，MacTok 提供了一項具有較高實用價值的技術參照方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.