![]()
機器之心編輯部
文本生成圖像的領域早已經是一片紅海,看上去已經卷無可卷了。
想在當下訓一個很牛的文生圖模型,你需要什么?
如果從當下主流方案入手,那需要:預訓練好的 VAE 編解碼器、文本編碼器的拼接、精心設計的條件注入機制、海量數據、RL 或 DPO 對齊階段……
總體上,大家似乎默認了一個前提:做文生圖,就是得這么復雜。
而何愷明團隊卻反其道而行之,在文生圖模型領域做出了新的思考。他們發布了MiniT2I —— 一個刻意追求極簡的像素空間文生圖模型
沒有 VAE 編解碼器,沒有 AdaLN 條件注入,沒有輔助損失函數,沒有私有數據,沒有 RL/DPO 對齊,純粹的流匹配目標直接在像素上訓練。258M 參數的 B/16 版本,在 GenEval 上達到 0.87,DPG-Bench 達到 84.2,超越了參數量大它數倍的同類像素空間模型。
![]()
MiniT2I 的核心主張是:如果把文本條件當作「帶有語義信息的上下文 token」注入模型,文生圖和類別條件的 ImageNet 生成在本質上并沒有那么大的區別 —— 架構可以相似,算力可以相當,甚至數據量級也可以對齊。
![]()
- 論文標題:A Minimalist Baseline for Text-to-Image Generation
- 技術博客:https://peppaking8.github.io/#/post/minit2i
- 開源地址:https://github.com/PeppaKing8/minit2i-jax
技術路線:每一步都在做減法
像素空間直出,不要 VAE
MiniT2I 的第一個設計選擇就很激進:丟掉 VAE,直接在 RGB 像素上做去噪。
潛在擴散模型(Latent Diffusion)是當前主流范式,先用自編碼器把圖像壓縮到低維空間再做擴散。這確實讓高分辨率變得可行,但代價是引入了重建誤差、額外的訓練階段、以及編碼器 - 去噪器之間的目標不對齊問題。
MiniT2I 選擇像素空間的理由很務實:對于 512×512 分辨率,用 16×16 的 patch 把圖像切成 1024 個 token,序列長度完全在 Transformer 的舒適區內。去掉 VAE 后,單步前向的計算從~1379 GFLOPs 降到~570 GFLOPs(B/16 設置),而且不存在重建精度的上限問題 —— 去噪器能力有多強,輸出就能有多好。
實驗也證實了這一點:在相同參數預算下,像素模型的 FID 和潛在空間模型持平(18.7 vs 19.0),但單步成本低了 5 倍。
![]()
MM-JiT 架構:回歸樸素 Transformer
SD3 的 MM-DiT 在每個 block 中用 AdaLN(Adaptive Layer Normalization)將時間步和池化文本編碼注入網絡 —— 每個子塊需要計算 scale、shift 和 gate 參數,通過一個額外的 MLP 從條件向量生成。這是一套精巧的調制機制,但 MiniT2I 發現它并非必需。
![]()
MiniT2I 提出的 MM-JiT 架構做了兩件事:
1.加兩層文本適配器:在聯合注意力之前,插入兩個輕量 Transformer block,讓凍結的 T5 特征先「適應」去噪器的需求。
2.刪除 AdaLN 分支:不再通過額外路徑注入時間步和全局文本信息。模型依然能感知噪聲水平 —— 因為被噪聲污染的圖像本身就攜帶了時間步信息。
結果是一個接近標準預歸一化 Transformer 的干凈架構。去掉 AdaLN 后參數減少,但可以用相同算力預算換來更多層數(12 層 → 17 層)。FID 從 18.7 降到 13.7,同時架構本身更容易理解和修改。
![]()
訓練數據:全公開,兩階段
MiniT2I 的訓練數據同樣追求極簡:
- 預訓練:LLaVA-recaptioned CC12M(公開可用的 VLM 重標注數據集),250K 步
- 微調:~12 萬張高質量圖文對(BLIP3o-60K + LAION DALL?E 3 Discord set + ShareGPT-4o-Image),40K 步
這種「預訓練 - 微調」的兩階段模式完全對標 LLM 的訓練范式:預訓練買覆蓋面,微調教模型什么是好答案。消融顯示兩者缺一不可 —— 只做預訓練,圖像質量可以但提示跟隨很差;只做微調,模型看到的世界太窄,生成多樣性坍塌。
結果:小模型,大表現
在像素空間文生圖的對比中,MiniT2I 的性價比極為突出:
![]()
MiniT2I-B/16 僅用約 600M 總參數(含文本編碼器),就在 GenEval 和 DPG-Bench 上超越了參數量 3-4 倍于己的模型。而且訓練成本極低:B/32 消融模型在 8 張 H100 上只需約 3 天,總訓練 FLOPs 與標準 ImageNet 200 epoch 實驗相當。
![]()
擴展到 L/16(912M 參數)后,模型在風格多樣性、空間關系和文字渲染方面都有明顯進步,與 SD3-Medium(~2B 參數)在想象力場景上的生成質量相當甚至更優。
在更全面的 PRISM-Bench 評測中,MiniT2I-L/16 在風格、組合和想象力維度上表現出色(79.9、78.4、57.9),已經接近 SD3-Medium 水平。但在文字渲染(30.6 vs SD3 的 50.9)和命名實體(60.3 vs 66.3)上仍有差距 —— 團隊坦承這是公開數據配方的固有局限,需要補充專項數據來彌補。
![]()
局限與展望
MiniT2I 是一條技術路線的概念驗證,而非最終產品。團隊誠實地指出了幾個未解問題:
- 像素空間的 patch 偽影:在 patch 邊界處存在可測量的不連續(邊界處梯度比非邊界高 17-22%),潛在空間模型沒有這個問題
- CFG 在像素空間的副作用:高引導系數(~6)會將局部 token 推離數據流形,在沒有解碼器「平滑」的情況下直接暴露為視覺瑕疵
- 分辨率天花板:當前在 512×512 工作良好,推向 4K+ 需要更長序列或更高效的注意力機制
- 數據瓶頸:文字渲染和命名實體仍弱于工業系統,需要專項數據補強
MiniT2I 證明了現階段的文生圖不是只有頂尖工業實驗室才能玩的游戲。
當一個 258M 參數的模型,用純公開數據,在學術級算力上訓練 3 天就能打敗體量大數倍的對手時,或許文生圖正在經歷從「堆料」到「提純」的范式轉換
「T2I 不再是高不可攀的圍墻。歡迎使用并改進它,打造更簡潔的基線。」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.