網易首頁 > 網易號 > 正文申請入駐

何愷明團隊新作：刪掉VAE和私有數據后，文生圖竟然更強了

2026-06-22 14:15:40　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

文本生成圖像的領域早已經是一片紅海，看上去已經卷無可卷了。

想在當下訓一個很牛的文生圖模型，你需要什么？

如果從當下主流方案入手，那需要：預訓練好的 VAE 編解碼器、文本編碼器的拼接、精心設計的條件注入機制、海量數據、RL 或 DPO 對齊階段……

總體上，大家似乎默認了一個前提：做文生圖，就是得這么復雜。

而何愷明團隊卻反其道而行之，在文生圖模型領域做出了新的思考。他們發布了MiniT2I —— 一個刻意追求極簡的像素空間文生圖模型

沒有 VAE 編解碼器，沒有 AdaLN 條件注入，沒有輔助損失函數，沒有私有數據，沒有 RL/DPO 對齊，純粹的流匹配目標直接在像素上訓練。258M 參數的 B/16 版本，在 GenEval 上達到 0.87，DPG-Bench 達到 84.2，超越了參數量大它數倍的同類像素空間模型。

MiniT2I 的核心主張是：如果把文本條件當作「帶有語義信息的上下文 token」注入模型，文生圖和類別條件的 ImageNet 生成在本質上并沒有那么大的區別 —— 架構可以相似，算力可以相當，甚至數據量級也可以對齊。

論文標題：A Minimalist Baseline for Text-to-Image Generation
技術博客：https://peppaking8.github.io/#/post/minit2i
開源地址：https://github.com/PeppaKing8/minit2i-jax

技術路線：每一步都在做減法

像素空間直出，不要 VAE

MiniT2I 的第一個設計選擇就很激進：丟掉 VAE，直接在 RGB 像素上做去噪。

潛在擴散模型（Latent Diffusion）是當前主流范式，先用自編碼器把圖像壓縮到低維空間再做擴散。這確實讓高分辨率變得可行，但代價是引入了重建誤差、額外的訓練階段、以及編碼器 - 去噪器之間的目標不對齊問題。

MiniT2I 選擇像素空間的理由很務實：對于 512×512 分辨率，用 16×16 的 patch 把圖像切成 1024 個 token，序列長度完全在 Transformer 的舒適區內。去掉 VAE 后，單步前向的計算從～1379 GFLOPs 降到～570 GFLOPs（B/16 設置），而且不存在重建精度的上限問題 —— 去噪器能力有多強，輸出就能有多好。

實驗也證實了這一點：在相同參數預算下，像素模型的 FID 和潛在空間模型持平（18.7 vs 19.0），但單步成本低了 5 倍。

MM-JiT 架構：回歸樸素 Transformer

SD3 的 MM-DiT 在每個 block 中用 AdaLN（Adaptive Layer Normalization）將時間步和池化文本編碼注入網絡 —— 每個子塊需要計算 scale、shift 和 gate 參數，通過一個額外的 MLP 從條件向量生成。這是一套精巧的調制機制，但 MiniT2I 發現它并非必需。

MiniT2I 提出的 MM-JiT 架構做了兩件事：

1.加兩層文本適配器：在聯合注意力之前，插入兩個輕量 Transformer block，讓凍結的 T5 特征先「適應」去噪器的需求。

2.刪除 AdaLN 分支：不再通過額外路徑注入時間步和全局文本信息。模型依然能感知噪聲水平 —— 因為被噪聲污染的圖像本身就攜帶了時間步信息。

結果是一個接近標準預歸一化 Transformer 的干凈架構。去掉 AdaLN 后參數減少，但可以用相同算力預算換來更多層數（12 層 → 17 層）。FID 從 18.7 降到 13.7，同時架構本身更容易理解和修改。

訓練數據：全公開，兩階段

MiniT2I 的訓練數據同樣追求極簡：

預訓練：LLaVA-recaptioned CC12M（公開可用的 VLM 重標注數據集），250K 步
微調：~12 萬張高質量圖文對（BLIP3o-60K + LAION DALL?E 3 Discord set + ShareGPT-4o-Image），40K 步

這種「預訓練 - 微調」的兩階段模式完全對標 LLM 的訓練范式：預訓練買覆蓋面，微調教模型什么是好答案。消融顯示兩者缺一不可 —— 只做預訓練，圖像質量可以但提示跟隨很差；只做微調，模型看到的世界太窄，生成多樣性坍塌。

結果：小模型，大表現

在像素空間文生圖的對比中，MiniT2I 的性價比極為突出：

MiniT2I-B/16 僅用約 600M 總參數（含文本編碼器），就在 GenEval 和 DPG-Bench 上超越了參數量 3-4 倍于己的模型。而且訓練成本極低：B/32 消融模型在 8 張 H100 上只需約 3 天，總訓練 FLOPs 與標準 ImageNet 200 epoch 實驗相當。

擴展到 L/16（912M 參數）后，模型在風格多樣性、空間關系和文字渲染方面都有明顯進步，與 SD3-Medium（~2B 參數）在想象力場景上的生成質量相當甚至更優。

在更全面的 PRISM-Bench 評測中，MiniT2I-L/16 在風格、組合和想象力維度上表現出色（79.9、78.4、57.9），已經接近 SD3-Medium 水平。但在文字渲染（30.6 vs SD3 的 50.9）和命名實體（60.3 vs 66.3）上仍有差距 —— 團隊坦承這是公開數據配方的固有局限，需要補充專項數據來彌補。

局限與展望

MiniT2I 是一條技術路線的概念驗證，而非最終產品。團隊誠實地指出了幾個未解問題：

像素空間的 patch 偽影：在 patch 邊界處存在可測量的不連續（邊界處梯度比非邊界高 17-22%），潛在空間模型沒有這個問題
CFG 在像素空間的副作用：高引導系數（~6）會將局部 token 推離數據流形，在沒有解碼器「平滑」的情況下直接暴露為視覺瑕疵
分辨率天花板：當前在 512×512 工作良好，推向 4K+ 需要更長序列或更高效的注意力機制
數據瓶頸：文字渲染和命名實體仍弱于工業系統，需要專項數據補強

MiniT2I 證明了現階段的文生圖不是只有頂尖工業實驗室才能玩的游戲。

當一個 258M 參數的模型，用純公開數據，在學術級算力上訓練 3 天就能打敗體量大數倍的對手時，或許文生圖正在經歷從「堆料」到「提純」的范式轉換

「T2I 不再是高不可攀的圍墻。歡迎使用并改進它，打造更簡潔的基線。」

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.