![]()
本文作者姜洲是西湖大學的研究助理和即將入學香港中文大學(深圳)的博士生。溫研東是西湖大學工學院的助理教授,劉圳是香港中文大學(深圳)數據科學學院的助理教授。
近兩年,單步生成模型的性能不斷提升,訓練方式也逐漸擺脫對預訓練擴散模型蒸餾的依賴。與此同時,去噪軌跡和策略似然這些信號不再容易拿到,許多偏好優化方法很難直接套用。如何對這類模型做偏好后訓練,也成了一個繞不開的問題。
今年初,何愷明團隊提出漂移模型(Drifting Model),為單步生成模型訓練引入了 “漂移場”。在訓練過程中,漂移場為當前生成分布給出更新方向,推動它逐步靠近真實數據分布,由此繞開對去噪軌跡的依賴。那么,能不能用類似的漂移目標,來做單步生成模型的偏好后訓練?
來自西湖大學和香港中文大學(深圳)的團隊沿著這一思路提出 Drifting Preference Optimization(DrPO),把漂移場用于單步文生圖模型的偏好后訓練。在 DrPO 中,獎勵只負責對候選圖像排序,不參與反向傳播。具體而言,針對同一個文本提示詞,當前模型生成一組候選圖像。高分樣本在特征空間中產生吸引,低分樣本產生排斥,并結合參考模型約束給出模型的更新方向。
由于目標獎勵不參與反向傳播,DrPO 可以在大型獎勵模型上收斂更快:當目標獎勵采用基于多模態大模型的獎勵函數 HPSv3 時,DrPO 相比需要反傳獎勵梯度的 DRaFT 提速 3.51 倍。同時,由于 DrPO 不依賴獎勵模型本身得到梯度,DrPO 還能應用于不可微獎勵模型的微調。
![]()
- 論文標題:Drifting Preference Optimization for One-Step Generative Models
- 項目主頁:https://ugvly.github.io/DrPO/
- 論文鏈接:https://arxiv.org/abs/2606.02521
- 代碼:https://github.com/UGVly/DrPO
從漂移場到強化學習后訓練
漂移模型提供了一種從有限樣本估計漂移場的方法:真實數據樣本作為正樣本,當前模型樣本作為負樣本;正樣本提供吸引,負樣本提供排斥。模型不需要顯式估計完整數據分布,只需在特征空間中估計這種局部漂移,生成分布便會隨訓練逐步靠近真實數據分布。
將這套思路用于強化學習后訓練時,需要先處理樣本來源的問題。強化學習目標給出的是獎勵函數,而不是漂移模型所需的正負樣本。DrPO 在每個訓練步中由當前模型在策略(on-policy)采樣候選圖像,再用目標獎勵對同一提示詞下的候選圖像打分排序。高分圖像和低分圖像不是預先給定的偏好對,而是在策略采樣后構造出的正負樣本。
![]()
![]()
![]()
更新方向來自該函數的梯度:
![]()
這個式子保留了漂移模型的吸引 / 排斥結構:正樣本項貢獻吸引,負樣本項貢獻排斥;核相似度越高,對當前樣本的影響越大。到這一步,獎勵排序被轉化為局部漂移方向。對應到漂移模型的核加權形式,漂移場可寫為:
![]()
偏好漂移只近似獎勵項對應的方向。完整的強化學習微調還需要限制模型不要偏離基礎分布,因此目標中包含 KL 約束:
![]()
它的策略梯度是:
![]()
![]()
將獎勵項對應的偏好漂移和 KL 項對應的參考漂移合并,得到 DrPO 實際使用的更新方向:
![]()
得到漂移方向后,DrPO 將其轉化為當前樣本的回歸目標:
![]()
![]()
![]()
![]()
圖 1:DrPO 方法概覽。左圖對應上述兩類漂移:綠色 / 紅色點來自當前模型在線候選圖像中的高分和低分樣本,構成偏好漂移;藍色 / 灰色點來自參考模型和當前模型,構成參考漂移。兩者合并后,確定黑色當前樣本的目標位置。右側展示了固定提示詞下,生成結果隨在線微調逐步變化的過程。
![]()
圖 2: DrPO 算法。其中,drift radii 表示構造漂移場時使用的一組核函數尺度參數。
實驗結果
實驗首先驗證的是,DrPO 構造出的漂移方向是否能穩定改善單步文生圖模型。研究團隊在 SD-Turbo 和 SDXL-Turbo 上進行在線微調,訓練提示詞來自 Pick-a-Pic v2,評測覆蓋 Pick-a-Pic v2 測試集和 Parti-Prompts。
除了 PickScore、Aesthetic Score 和 ImageReward 等標量指標,論文還使用 Qwen3-VL 進行成對偏好比較,從語義忠實度、整體連貫性、圖像瑕疵和審美質量等維度判斷兩張圖像的相對優劣。在兩個評測集合上,DrPO 相較多種單步生成對照方法獲得了更高的 win rate。
![]()
圖 3:Qwen3-VL 成對偏好評測。對于同一提示詞下的匹配生成結果,Qwen3-VL 從語義忠實度、整體連貫性、圖像瑕疵和審美質量等方面進行比較。紅色表示 DrPO 獲得偏好,藍色表示對照方法獲得偏好;A/B 順序經過隨機化處理。
其他定量指標給出了類似結果。在 SD-Turbo 和 SDXL-Turbo 上,DrPO 相比其他不依賴獎勵梯度的方法,均提升了 PickScore、AES 和 ImageReward 等指標。定性結果中,DrPO 生成圖像在指令跟隨和視覺質量上也更穩定。
![]()
圖 4:SD-Turbo 上的定性對比。圖片使用相同提示詞進行生成。
![]()
表 1:SDXL-Turbo 上的定量結果。DrPO 在保持單步推理的同時,在不使用獎勵梯度的方法中取得了更好的整體結果。
在大型獎勵模型上,訓練提速 3.51 倍
大型多模態獎勵模型會放大獎勵梯度方法的訓練開銷。論文使用 HPSv3 作為目標獎勵,對比 DrPO 和 DRaFT 在相同 effective batch size 下的單次更新時間。DRaFT 每次更新需要 21.62 秒,DrPO 為 6.17 秒,相比 DRaFT 提速 3.51 倍。
差異主要來自反向傳播路徑。DRaFT 需要通過 HPSv3 網絡回傳獎勵梯度;DrPO 則只用 HPSv3 對候選圖像前向打分和排序,隨后用特征提取器在特征空間中估計漂移方向,并通過回歸損失更新生成模型。換言之,目標獎勵仍然決定哪些樣本更好,但梯度計算不再經過 HPSv3,而是落到特征空間的漂移回歸上。因此,當目標獎勵模型較重時,DrPO 的訓練開銷會明顯低于直接反傳獎勵梯度的方法。
![]()
圖 5:HPSv3 獎勵下的訓練效率對比。在有效 batch size 相同的條件下,DrPO 無需通過 HPSv3 回傳梯度,相比 DRaFT 提速 3.51 倍。
不可微獎勵也能接入
由于目標獎勵只參與排序,DrPO 也可以接入不可微評價信號。論文進一步使用 GenEval 得分作為獎勵進行訓練。GenEval 主要考察物體數量、顏色、位置和屬性綁定等組合約束,這類評價更接近規則或程序化打分,不適合直接作為可微獎勵反傳。
實驗中,研究團隊針對不同 GenEval 子任務分別微調 SD-Turbo,并在對應類別上評測。結果顯示,這些子任務對應微調模型在各自目標類別上均取得提升。這個設置驗證了:即使獎勵信號不可微,只要它能對候選結果給出分數或排序,DrPO 仍然可以將其接入在線微調。
![]()
圖 6:使用 GenEval 得分作為不可微獎勵進行訓練。左:各子任務得分;右:部分生成樣例。
消融實驗
消融實驗進一步說明了特征空間在 DrPO 中的作用。漂移方向不是直接由獎勵模型給出,而是在特征空間中根據樣本相似度估計出來的;因此,特征提取器本身提供了一種額外先驗,決定哪些樣本被認為接近、哪些方向更可行。實驗顯示,latent-MAE 特征優于預訓練模型自身特征。
如果特征空間沒有充分編碼目標獎勵關注的屬性,例如計數、布局、文字或細粒度身份信息,由相似度估計出的漂移方向就可能不夠可靠。除此之外,增加候選樣本數量可以改善結果,而 DrPO 對核函數選擇不太敏感。
![]()
表 2:候選樣本數量、特征提取器、核函數和速度尺度上的消融實驗。
![]()
圖 7:reference drift 的作用。參考項用于限制微調后的模型偏離基礎模型原有的分布。
離線偏好微調的初步嘗試
論文還嘗試了一個離線版本:不再由當前模型在線采樣并排序,而是直接使用離線偏好數據集中的圖像對構造漂移場。結果顯示,相比單步模型的 DPO 變體,離線 DrPO 收斂更快。
不過,離線設置仍然面臨分布偏移問題。離線數據集中的圖像對未必落在當前模型分布附近,用它們估計出的漂移場會更粗糙。隨著微調時間拉長,這種偏差可能積累,訓練也更容易崩潰。
![]()
圖 8:離線 DrPO 的收斂曲線。
總結
DrPO 將漂移模型中的漂移場估計引入單步文生圖模型的強化學習后訓練。每一步中,當前模型在當前策略下采樣候選圖像,目標獎勵負責打分排序;高分和低分樣本用于構造偏好漂移,參考模型和當前模型樣本用于構造分布約束對應的參考漂移。最終,模型通過回歸到漂移目標完成更新。
實驗表明,DrPO 在 SD-Turbo 和 SDXL-Turbo 上改善了生成質量;在 HPSv3 這類大型獎勵模型下,相比需要反傳獎勵梯度的 DRaFT 實現了 3.51 倍訓練提速;同時,也可以接入 GenEval 等不可微獎勵模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.