![]()
本文由阿里巴巴 Z-Image 團隊聯合香港科技大學等機構共同完成。第一作者為香港科技大學預備博士生 & 通義實驗室實習生姜登陽,他的研究方向為視覺表征和生成。
少步擴散模型(如 Z-Image-Turbo)憑借高效采樣和優異質量,已成為圖像生成領域的主流方案。然而,這些經過 "步數蒸餾" 的模型在持續微調時面臨一個棘手問題:傳統監督微調(SFT)和離線 RL 方法會讓模型 "忘記" 原本的少步生成能力,訓練與推理之間存在嚴重的分布偏移。
為此,阿里巴巴 Z-Image 團隊聯合香港科技大學、加州大學圣地亞哥分校、香港中文大學等機構提出D-OPSD(On-Policy Self-Distillation),首個針對少步擴散模型的在線策略自蒸餾框架。D-OPSD 無需獎勵模型、無需成對偏好數據,僅憑目標圖像 - 文本對即可讓模型在保持原有少步采樣能力的同時,學會新概念、新風格和新領域偏好。在 LoRA 定制和全量微調實驗中,D-OPSD 在概念學習、視覺質量、提示詞遵循和先驗知識保留之間取得了最佳平衡。
![]()
- 論文標題:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
- 論文鏈接:https://arxiv.org/abs/2605.05204
- 項目主頁:https://vvvvvjdy.github.io/d-opsd/
- 代碼地址:https://github.com/vvvvvjdy/D-OPSD
一、核心問題:少步模型的 "持續學習" 困境
當前高性能圖像生成模型正從低效的多步采樣器轉向高效的少步采樣器。這些經過步數蒸餾的模型在減少函數評估次數的同時保持了生成質量,極具實用價值。但如何對這類模型進行持續微調,學界尚無明確答案。
傳統訓練范式各有短板:
![]()
- Vanilla SFT:通過目標圖像構造 GT velocity 進行監督,但優化狀態和信號均來自目標圖像而非模型自身的少步采樣軌跡,導致訓練與推理嚴重不匹配。
- 離線 RL 方法(如 Diffusion-DPO、PSO):引入成對監督,但優化狀態仍非完全由學生當前分布誘導。
- 在線 RL 方法(如 ReFL、Flow-GRPO):在模型 rollout 上訓練,能更好保留少步行為,但依賴獎勵函數或獎勵模型,而二次開發者往往只有圖像 - 文本對,難以獲取高質量獎勵信號。
D-OPSD 在設計空間中占據了一個獨特的位置:在線策略、無需獎勵模型、保持訓練 - 推理一致性,同時通過自蒸餾引入目標圖像 - 文本對。
二、關鍵發現:擴散模型繼承了 LLM/VLM 的 "上下文能力"
近期,大語言模型(LLM)領域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了廣泛關注。其核心思想是:學生模型在自身采樣出的軌跡(on-policy roll-outs)上進行訓練,而教師模型在更豐富的上下文條件下提供更強的監督信號,從而在不依賴外部獎勵模型的情況下實現高效的后訓練對齊。例如,在 LLM 中,學生基于自身采樣的回答進行優化,教師則在更完整的上下文(如參考文檔、多輪對話歷史)下給出更優的預測,通過分布對齊將學生拉向教師。
現代配備 LLM/VLM 編碼器的擴散模型,能夠從編碼器中繼承上下文學習(in-context learning)能力。研究團隊發現,當僅用文本提示時,模型生成的是通用結果;而當將目標圖像與文本提示一起輸入編碼器、使用多模態特征作為條件時,即使不做任何額外訓練,模型也能生成保留目標概念或風格的圖像變體。
![]()
這一涌現行為為在線策略自蒸餾提供了關鍵基礎:目標圖像不再作為直接的降噪目標(那會改變軌跡本身),而是作為更強教師條件的上下文監督信號。學生分支僅基于文本條件采樣,教師分支基于文本 + 圖像的多模態條件提供更強預測,兩者在同一個 on-policy 軌跡上進行對齊。
三、方法框架:學生跑軌跡,教師給監督
D-OPSD 的訓練流程如下:
![]()
對于每個訓練對 首先編碼學生和教師條件,然后進行學生 on-policy 軌跡采樣,再在同一狀態上,對齊學生預測速度和 教師預測速度,然后更新學生模型和同步 EMA 更新教師。
![]()
與 LLM 中的 OPD(On-Policy Distillation)類比:學生的采樣響應對應學生的降噪軌跡,教師的更強預測對應更強的條件降噪場。核心區別在于,自回歸 LLM 輸出離散詞表分布,可直接用 KL 散度對齊;而流匹配擴散模型參數化條件速度場,因此 D-OPSD 采用速度預測的均方誤差作為對齊目標,起到類似的作用 ——> 將學生的條件生成動態拉向教師,在更強的多模態上下文下對齊誘導的軌跡分布。
四、為什么 D-OPSD 能保留少步能力?
與 SFT 相比,D-OPSD 避免了強迫模型擬合在其自身少步采樣過程中從未出現過的目標圖像狀態。優化始終在學生的實際 rollout 上進行,大幅減少了訓練與推理之間的失配。因此,D-OPSD 為步數蒸餾擴散模型提供了一種在線策略監督訓練范式,使其能夠從目標圖像中學習新概念、風格或領域偏好,同時保留原始的少步采樣行為。
五、核心實驗效果
1. LoRA 定制:少量樣本學會新概念
在僅有少量圖像 - 文本對的 LoRA 訓練中,D-OPSD 能夠從極少量樣本中學習新概念,同時保持少步生成質量,并能泛化到未見過的提示詞。
對比基線模型、SFT 和 PSO:
- 基線模型:完全不理解新概念 [V]
- SFT:雖然學到了概念,但視覺質量明顯下降,出現模糊、偽影
- PSO:質量較好,但概念保真度不足,且可能破壞原有風格
- D-OPSD:在保持高視覺質量的同時,精準復現目標概念,并能自然融入新場景
![]()
2. 全量微調:適應新領域不丟老本
在全量微調實驗中,D-OPSD 將模型向目標領域(如動漫風格)適配,同時保留原始領域知識和少步推理能力。
- SFT:過度擬合目標域,原始域知識嚴重遺忘
- PSO:保留部分先驗,但目標域適配不夠充分
- D-OPSD:在目標域表現優異的同時,原始域生成質量依然穩定,真正實現了 "學新不忘舊"
六、未來值得研究的方向
未來,D-OPSD 框架還可向多個方向拓展:
- 更豐富的教師上下文:引入圖像編輯模型或視頻生成模型的指導信號
- 額外訓練約束:結合其他訓練目標進一步提升性能
- 多專家在線策略蒸餾:用其他算法訓練領域專屬專家后,在 D-OPSD 框架內蒸餾回單一基礎模型
即少步擴散模型仍有巨大的后訓練提升空間。"蒸餾 + 在線策略" 范式,為未來進一步釋放擴散模型在可控性、組合性與持續學習能力方面的潛力,提供了一個充滿前景的新方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.