網易首頁 > 網易號 > 正文申請入駐

沿著何愷明團隊漂移模型再走一步：單步文生圖偏好優化提速3.51倍

2026-06-21 19:31:40　來源: 機器之心Pro

天津舉報

分享至

本文作者姜洲是西湖大學的研究助理和即將入學香港中文大學（深圳）的博士生。溫研東是西湖大學工學院的助理教授，劉圳是香港中文大學（深圳）數據科學學院的助理教授。

近兩年，單步生成模型的性能不斷提升，訓練方式也逐漸擺脫對預訓練擴散模型蒸餾的依賴。與此同時，去噪軌跡和策略似然這些信號不再容易拿到，許多偏好優化方法很難直接套用。如何對這類模型做偏好后訓練，也成了一個繞不開的問題。

今年初，何愷明團隊提出漂移模型（Drifting Model），為單步生成模型訓練引入了 “漂移場”。在訓練過程中，漂移場為當前生成分布給出更新方向，推動它逐步靠近真實數據分布，由此繞開對去噪軌跡的依賴。那么，能不能用類似的漂移目標，來做單步生成模型的偏好后訓練？

來自西湖大學和香港中文大學（深圳）的團隊沿著這一思路提出 Drifting Preference Optimization（DrPO），把漂移場用于單步文生圖模型的偏好后訓練。在 DrPO 中，獎勵只負責對候選圖像排序，不參與反向傳播。具體而言，針對同一個文本提示詞，當前模型生成一組候選圖像。高分樣本在特征空間中產生吸引，低分樣本產生排斥，并結合參考模型約束給出模型的更新方向。

由于目標獎勵不參與反向傳播，DrPO 可以在大型獎勵模型上收斂更快：當目標獎勵采用基于多模態大模型的獎勵函數 HPSv3 時，DrPO 相比需要反傳獎勵梯度的 DRaFT 提速 3.51 倍。同時，由于 DrPO 不依賴獎勵模型本身得到梯度，DrPO 還能應用于不可微獎勵模型的微調。

論文標題：Drifting Preference Optimization for One-Step Generative Models
項目主頁：https://ugvly.github.io/DrPO/
論文鏈接：https://arxiv.org/abs/2606.02521
代碼：https://github.com/UGVly/DrPO

從漂移場到強化學習后訓練

漂移模型提供了一種從有限樣本估計漂移場的方法：真實數據樣本作為正樣本，當前模型樣本作為負樣本；正樣本提供吸引，負樣本提供排斥。模型不需要顯式估計完整數據分布，只需在特征空間中估計這種局部漂移，生成分布便會隨訓練逐步靠近真實數據分布。

將這套思路用于強化學習后訓練時，需要先處理樣本來源的問題。強化學習目標給出的是獎勵函數，而不是漂移模型所需的正負樣本。DrPO 在每個訓練步中由當前模型在策略（on-policy）采樣候選圖像，再用目標獎勵對同一提示詞下的候選圖像打分排序。高分圖像和低分圖像不是預先給定的偏好對，而是在策略采樣后構造出的正負樣本。

更新方向來自該函數的梯度：

這個式子保留了漂移模型的吸引 / 排斥結構：正樣本項貢獻吸引，負樣本項貢獻排斥；核相似度越高，對當前樣本的影響越大。到這一步，獎勵排序被轉化為局部漂移方向。對應到漂移模型的核加權形式，漂移場可寫為：

偏好漂移只近似獎勵項對應的方向。完整的強化學習微調還需要限制模型不要偏離基礎分布，因此目標中包含 KL 約束：

它的策略梯度是：

將獎勵項對應的偏好漂移和 KL 項對應的參考漂移合并，得到 DrPO 實際使用的更新方向：

得到漂移方向后，DrPO 將其轉化為當前樣本的回歸目標：

圖 1：DrPO 方法概覽。左圖對應上述兩類漂移：綠色 / 紅色點來自當前模型在線候選圖像中的高分和低分樣本，構成偏好漂移；藍色 / 灰色點來自參考模型和當前模型，構成參考漂移。兩者合并后，確定黑色當前樣本的目標位置。右側展示了固定提示詞下，生成結果隨在線微調逐步變化的過程。

圖 2： DrPO 算法。其中，drift radii 表示構造漂移場時使用的一組核函數尺度參數。

實驗結果

實驗首先驗證的是，DrPO 構造出的漂移方向是否能穩定改善單步文生圖模型。研究團隊在 SD-Turbo 和 SDXL-Turbo 上進行在線微調，訓練提示詞來自 Pick-a-Pic v2，評測覆蓋 Pick-a-Pic v2 測試集和 Parti-Prompts。

除了 PickScore、Aesthetic Score 和 ImageReward 等標量指標，論文還使用 Qwen3-VL 進行成對偏好比較，從語義忠實度、整體連貫性、圖像瑕疵和審美質量等維度判斷兩張圖像的相對優劣。在兩個評測集合上，DrPO 相較多種單步生成對照方法獲得了更高的 win rate。

圖 3：Qwen3-VL 成對偏好評測。對于同一提示詞下的匹配生成結果，Qwen3-VL 從語義忠實度、整體連貫性、圖像瑕疵和審美質量等方面進行比較。紅色表示 DrPO 獲得偏好，藍色表示對照方法獲得偏好；A/B 順序經過隨機化處理。

其他定量指標給出了類似結果。在 SD-Turbo 和 SDXL-Turbo 上，DrPO 相比其他不依賴獎勵梯度的方法，均提升了 PickScore、AES 和 ImageReward 等指標。定性結果中，DrPO 生成圖像在指令跟隨和視覺質量上也更穩定。

圖 4：SD-Turbo 上的定性對比。圖片使用相同提示詞進行生成。

表 1：SDXL-Turbo 上的定量結果。DrPO 在保持單步推理的同時，在不使用獎勵梯度的方法中取得了更好的整體結果。

在大型獎勵模型上，訓練提速 3.51 倍

大型多模態獎勵模型會放大獎勵梯度方法的訓練開銷。論文使用 HPSv3 作為目標獎勵，對比 DrPO 和 DRaFT 在相同 effective batch size 下的單次更新時間。DRaFT 每次更新需要 21.62 秒，DrPO 為 6.17 秒，相比 DRaFT 提速 3.51 倍。

差異主要來自反向傳播路徑。DRaFT 需要通過 HPSv3 網絡回傳獎勵梯度；DrPO 則只用 HPSv3 對候選圖像前向打分和排序，隨后用特征提取器在特征空間中估計漂移方向，并通過回歸損失更新生成模型。換言之，目標獎勵仍然決定哪些樣本更好，但梯度計算不再經過 HPSv3，而是落到特征空間的漂移回歸上。因此，當目標獎勵模型較重時，DrPO 的訓練開銷會明顯低于直接反傳獎勵梯度的方法。

圖 5：HPSv3 獎勵下的訓練效率對比。在有效 batch size 相同的條件下，DrPO 無需通過 HPSv3 回傳梯度，相比 DRaFT 提速 3.51 倍。

不可微獎勵也能接入

由于目標獎勵只參與排序，DrPO 也可以接入不可微評價信號。論文進一步使用 GenEval 得分作為獎勵進行訓練。GenEval 主要考察物體數量、顏色、位置和屬性綁定等組合約束，這類評價更接近規則或程序化打分，不適合直接作為可微獎勵反傳。

實驗中，研究團隊針對不同 GenEval 子任務分別微調 SD-Turbo，并在對應類別上評測。結果顯示，這些子任務對應微調模型在各自目標類別上均取得提升。這個設置驗證了：即使獎勵信號不可微，只要它能對候選結果給出分數或排序，DrPO 仍然可以將其接入在線微調。

圖 6：使用 GenEval 得分作為不可微獎勵進行訓練。左：各子任務得分；右：部分生成樣例。

消融實驗

消融實驗進一步說明了特征空間在 DrPO 中的作用。漂移方向不是直接由獎勵模型給出，而是在特征空間中根據樣本相似度估計出來的；因此，特征提取器本身提供了一種額外先驗，決定哪些樣本被認為接近、哪些方向更可行。實驗顯示，latent-MAE 特征優于預訓練模型自身特征。

如果特征空間沒有充分編碼目標獎勵關注的屬性，例如計數、布局、文字或細粒度身份信息，由相似度估計出的漂移方向就可能不夠可靠。除此之外，增加候選樣本數量可以改善結果，而 DrPO 對核函數選擇不太敏感。

表 2：候選樣本數量、特征提取器、核函數和速度尺度上的消融實驗。

圖 7：reference drift 的作用。參考項用于限制微調后的模型偏離基礎模型原有的分布。

離線偏好微調的初步嘗試

論文還嘗試了一個離線版本：不再由當前模型在線采樣并排序，而是直接使用離線偏好數據集中的圖像對構造漂移場。結果顯示，相比單步模型的 DPO 變體，離線 DrPO 收斂更快。

不過，離線設置仍然面臨分布偏移問題。離線數據集中的圖像對未必落在當前模型分布附近，用它們估計出的漂移場會更粗糙。隨著微調時間拉長，這種偏差可能積累，訓練也更容易崩潰。

圖 8：離線 DrPO 的收斂曲線。

總結

DrPO 將漂移模型中的漂移場估計引入單步文生圖模型的強化學習后訓練。每一步中，當前模型在當前策略下采樣候選圖像，目標獎勵負責打分排序；高分和低分樣本用于構造偏好漂移，參考模型和當前模型樣本用于構造分布約束對應的參考漂移。最終，模型通過回歸到漂移目標完成更新。

實驗表明，DrPO 在 SD-Turbo 和 SDXL-Turbo 上改善了生成質量；在 HPSv3 這類大型獎勵模型下，相比需要反傳獎勵梯度的 DRaFT 實現了 3.51 倍訓練提速；同時，也可以接入 GenEval 等不可微獎勵模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.