網易首頁 > 網易號 > 正文 申請入駐

僅用64個token生成高清圖像,MacTok攻破連續分詞器后驗坍塌難題

0
分享至



本文作者團隊來自復旦大學,共同第一作者為復旦大學曾恒宇(生物醫學工程專業二年級碩士)和高鑫(應用數學專業三年級碩士,即將赴耶魯大學攻讀計算機科學博士),通訊作者為浦劍教授。

在視覺生成領域,提升擴散模型或自回歸模型的推理效率,關鍵在于將圖像壓縮為更少量的 token。當前主流的圖像分詞器分為離散(如 VQ-VAE、VQ-GAN)與連續(如 KL-VAE)兩派。離散分詞器雖然應用廣泛,但其不可求導的量化過程需要進行梯度近似,容易引入量化誤差。相比之下,連續分詞器摒棄了硬性的離散碼本,保留了連續平滑的潛在空間,原生支持梯度優化并能容納更豐富的表征細節,因此被視為更具潛力的壓縮范式。

然而,連續分詞器在極度壓縮(例如僅使用 64 個 token)時,會面臨一個核心挑戰:強 KL 正則化會導致潛在空間嚴重退化。編碼器常常無法有效寫入語義特征,而是直接向先驗分布妥協,引發嚴重的「后驗坍塌」(posterior collapse)。這往往會導致重建或生成的圖像失去細節。

本文提出的MacTok(Masked Augmenting 1D Continuous Tokenizer)從連續分詞器的底層邏輯出發,提出了一種簡潔實用的核心洞察:只有讓潛在空間學會真正「富含語義」的表征,才能徹底杜絕后驗坍塌。為了達成這一目標,MacTok 脫離了單一層面的局部魔改,而是在圖像空間與表征空間進行了雙管齊下的協同設計。



  • 論文標題:MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2603.29634

在圖像空間層面,MacTok 引入了隨機掩碼與語義掩碼(Semantic Masking)的混合機制,強迫模型在最殘缺的條件下補全最高信息密度的焦點區域;在表征空間層面,則利用全局(Global)與局部(Local)的表征同時對齊來直接約束潛在空間的語義結構。

結合兩者的協同機制,MacTok 僅需 64 或 128 個 token,便在 ImageNet 256×256 上實現了 1.44 的 gFID,在 512×512 上達到了 1.52 的 gFID,其實際使用的 token 數量相比傳統方法壓縮了 64 倍。該工作已被 CVPR 2026 錄用并入選為Highlight論文!



「化繁為簡」:重新認知連續分詞器與后驗坍塌

既然離散分詞器技術已相對成熟,為何業界仍需深入探討連續分詞器?主要原因在于離散碼本的表征瓶頸逐漸顯現,而連續空間擁有良好的數學連續性和原生梯度優勢,具備更高的優化潛力。但是,要讓連續分詞器走向商業可用,就必須解決「后驗坍塌」這一技術阻礙。

后驗坍塌的直觀表現是,潛在空間中的各類特征嚴重重疊,解碼器生成的往往是一片模糊。從本質上看,這是由于在強正則約束與稀缺 Token 的雙重限制下,模型傾向于選擇最容易滿足先驗分布的優化路徑,而非去刻畫復雜的圖像語義。



學術界此前的解法大多專注于調低正則強度或加入循環退火系數,這類基于損失函數層面的調整難以觸及問題根源。若直接套用普通的隨機掩碼策略(如直接遮擋 Latent Token),在 64 Token 的苛刻限制下,也會因后期訓練的信息流失而再度引發坍塌。

MacTok 團隊提出,改變模型這種「優化怠情」的唯一做法是促使其學習到具備豐富語義信息的表征。為此,MacTok 放棄了單一維度的修修補補,提出了一個統籌圖像空間(Image Space)與表征空間(Representation Space)的雙管齊下方案:在圖像端通過掩碼提高「考題難度」,在表征端通過對齊直接注入語義引導,構建了一個魯棒的抗坍塌學習環境。

雙空間協同設計:從圖像到表征的語義注入

MacTok 團隊意識到,避免后驗坍塌的核心宗旨只有一個:必須迫使模型學到具有豐富語義信息的表征。為了達成這一目標,不能僅僅依賴常規的特征對齊,必須在圖像空間和表征空間同時作用,完成雙管齊下的語義注入。

首先是在圖像空間的設計。在輸入端施加重度掩碼可以為模型提供一個更難的預測目標,從而提升模型特征提取的魯棒性。為進一步強化對語義的關注,MacTok 引入了混合掩碼策略:

  • 隨機掩碼(Random Masking):提供基礎的重建挑戰,促使模型建立更穩健的結構映射。

  • 語義掩碼(Semantic Masking):這是在圖像層面注入語義保留意識的關鍵。系統會評估圖像各個區域的語義重要性,并優先遮擋「富含最高語義」的區域。使得模型在預測殘缺圖像時,必須更加關注深層語義信息的推理與關聯,而非基于簡單紋理的像素填補。

如下方曲線圖所示,引入語義掩碼后其生成質量有顯著提升,實驗測定最優的圖像掩碼比例在 70% 左右:



其次是在表征空間的直接約束。在圖像空間的重建約束之外,MacTok 還引入了全局與局部表征對齊(Global and Local Alignment)。具體而言,分詞器的 Latent token 不僅在局部維度上與細粒度的 Patch 特征對齊,還在全局維度上與高度濃縮宏觀語義的 CLS 特征對齊。

圖像空間層面的語義掩碼(增加理解難度),配合表征空間層面的全局-局部對齊(指明優化方向),兩者相輔相成。這套雙空間協同機制共同構筑了連續潛在空間高度的語義魯棒性,從根本上阻斷了后驗坍塌的發生。



突破壓縮極限:主流 Benchmark 上的表現

在主流驗證基準上,主打極少 token 的 MacTok 保持了極高的運行效率和視覺質量。

1. 256×256 分辨率下的表現



與使用大基數 token 的生成模型相比,MacTok 具備較為明顯的單 token 信息密度優勢。

可以看到,僅使用 64 個 token 的 MacTok,在無 CFG 的測試條件下獲得了優于 SoftVQ-VAE 的生成結果(gFID 降低了 2.21)。128 token 的 MacTok 則達到了與擁有 1024 token 的主流基線模型(如 REPA 對應 gFID 1.42)相近的水平。

2. 512×512 分辨率下的擴展能力

在 512×512 分辨率下,模型需處理的圖像信息量成倍增長,而 MacTok 的各項核心指標并未出現衰減:



在 512×512 測試中,MacTok 的 128 token 與 64 token 版本均取得了 1.52 的 gFID 與超過 306.0 的 IS(Inception Score),在大幅縮減序列長度的同時維持了該量級的領先效果。

總結

借助 UMAP 降維可視化,我們可以客觀地評估該方法在潛在空間特征分布上的改善:相比以往方法常出現的因坍塌而嚴重重疊的隨機點陣,MacTok 更能明確保持各語義類別的聚類結構。



MacTok 的研究成果說明,后驗坍塌的根源在于強正則條件體系下缺乏足夠有效的數據特征引導約束。在不改變原生分詞架構基礎結構的前提下,僅僅通過在圖像輸入層引入具有挑戰性的語義掩碼重建任務,即可極大激活連續潛在空間編碼深層信息的潛能。面對未來對圖像生成分辨率、吞吐延遲要求越來越苛刻的大模型場景,MacTok 提供了一項具有較高實用價值的技術參照方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
伊朗艦艇護送一散貨船進入領海

伊朗艦艇護送一散貨船進入領海

環球網資訊
2026-04-24 07:09:08
歐盟強制手機必須能自己換電池,不改就不準賣

歐盟強制手機必須能自己換電池,不改就不準賣

桂系007
2026-04-22 23:56:55
誰把球放對面球門里了?赫塔費全場0射正但贏下了比賽

誰把球放對面球門里了?赫塔費全場0射正但贏下了比賽

懂球帝
2026-04-24 11:01:14
真的慌了!看了ChatGPT Images 2.0一鍵生成的PPT,我們嚇出一身冷汗……

真的慌了!看了ChatGPT Images 2.0一鍵生成的PPT,我們嚇出一身冷汗……

秋葉PPT
2026-04-23 08:22:02
各科醫生最想跟你說的大實話,很有用!收藏好常看看

各科醫生最想跟你說的大實話,很有用!收藏好常看看

華人星光
2026-04-23 12:00:20
我退休金7500,每月都給兒子打3000,兒媳給我們6000,剩下的您零花

我退休金7500,每月都給兒子打3000,兒媳給我們6000,剩下的您零花

楓紅染山徑
2026-04-23 11:30:47
不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

孤城落日
2026-04-20 19:26:14
解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
金融圈突發!涉嫌嚴重違紀違法,張文被查

金融圈突發!涉嫌嚴重違紀違法,張文被查

中國基金報
2026-04-23 12:23:24
沈夢辰自曝在家和坐車都要做防曬,起床就會擦,稱已和自己的黑和解,“一個黃黑皮,怎么也不可能變成一個冷白皮”

沈夢辰自曝在家和坐車都要做防曬,起床就會擦,稱已和自己的黑和解,“一個黃黑皮,怎么也不可能變成一個冷白皮”

臺州交通廣播
2026-04-24 12:15:29
“甘蔗運來我們都要!”廣東化州一糖廠主動收購蔗農滯銷果蔗,幾百輛貨車排隊兩三公里等候,廠里還派人為司機送三餐和水

“甘蔗運來我們都要!”廣東化州一糖廠主動收購蔗農滯銷果蔗,幾百輛貨車排隊兩三公里等候,廠里還派人為司機送三餐和水

極目新聞
2026-04-23 20:01:05
田曦薇,美極了

田曦薇,美極了

手工制作阿殲
2026-04-24 16:00:19
老人存款多少有安全感?達到這個數足夠用了,你可以橫著走了

老人存款多少有安全感?達到這個數足夠用了,你可以橫著走了

暖風吹過竹林
2026-04-24 15:07:43
OpenClaw,崩了!

OpenClaw,崩了!

新智元
2026-04-23 18:38:34
商業航天:下一個10倍“易中天”,三大催化與三條主線全解析

商業航天:下一個10倍“易中天”,三大催化與三條主線全解析

Thurman在昆明
2026-04-24 08:09:53
一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發出來了

一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發出來了

林子說事
2026-04-23 12:56:34
快滅國了卻執意和中國斷交,“抱大腿”無望又求援,中方:不慣著

快滅國了卻執意和中國斷交,“抱大腿”無望又求援,中方:不慣著

黑翼天使
2026-03-30 13:23:53
TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

翰飛觀事
2026-04-22 19:35:28
殲10CE戰機,出現在伊朗,不是梟龍3,伊朗空軍要看貨?

殲10CE戰機,出現在伊朗,不是梟龍3,伊朗空軍要看貨?

萬里繁華
2026-04-24 15:13:48
2026-04-24 16:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12847文章數 142635關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內首秀

態度原創

家居
手機
本地
公開課
軍事航空

家居要聞

自然肌理 溫潤美學

手機要聞

榮耀600e手機現身Geekbench跑分庫:有望搭天璣7100

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版