无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

沿著何愷明團隊漂移模型再走一步:單步文生圖偏好優化提速3.51倍

0
分享至



本文作者姜洲是西湖大學的研究助理和即將入學香港中文大學(深圳)的博士生。溫研東是西湖大學工學院的助理教授,劉圳是香港中文大學(深圳)數據科學學院的助理教授。

近兩年,單步生成模型的性能不斷提升,訓練方式也逐漸擺脫對預訓練擴散模型蒸餾的依賴。與此同時,去噪軌跡和策略似然這些信號不再容易拿到,許多偏好優化方法很難直接套用。如何對這類模型做偏好后訓練,也成了一個繞不開的問題。

今年初,何愷明團隊提出漂移模型(Drifting Model),為單步生成模型訓練引入了 “漂移場”。在訓練過程中,漂移場為當前生成分布給出更新方向,推動它逐步靠近真實數據分布,由此繞開對去噪軌跡的依賴。那么,能不能用類似的漂移目標,來做單步生成模型的偏好后訓練?

來自西湖大學和香港中文大學(深圳)的團隊沿著這一思路提出 Drifting Preference Optimization(DrPO),把漂移場用于單步文生圖模型的偏好后訓練。在 DrPO 中,獎勵只負責對候選圖像排序,不參與反向傳播。具體而言,針對同一個文本提示詞,當前模型生成一組候選圖像。高分樣本在特征空間中產生吸引,低分樣本產生排斥,并結合參考模型約束給出模型的更新方向。

由于目標獎勵不參與反向傳播,DrPO 可以在大型獎勵模型上收斂更快:當目標獎勵采用基于多模態大模型的獎勵函數 HPSv3 時,DrPO 相比需要反傳獎勵梯度的 DRaFT 提速 3.51 倍。同時,由于 DrPO 不依賴獎勵模型本身得到梯度,DrPO 還能應用于不可微獎勵模型的微調。



  • 論文標題:Drifting Preference Optimization for One-Step Generative Models
  • 項目主頁:https://ugvly.github.io/DrPO/
  • 論文鏈接:https://arxiv.org/abs/2606.02521
  • 代碼:https://github.com/UGVly/DrPO

從漂移場到強化學習后訓練

漂移模型提供了一種從有限樣本估計漂移場的方法:真實數據樣本作為正樣本,當前模型樣本作為負樣本;正樣本提供吸引,負樣本提供排斥。模型不需要顯式估計完整數據分布,只需在特征空間中估計這種局部漂移,生成分布便會隨訓練逐步靠近真實數據分布。

將這套思路用于強化學習后訓練時,需要先處理樣本來源的問題。強化學習目標給出的是獎勵函數,而不是漂移模型所需的正負樣本。DrPO 在每個訓練步中由當前模型在策略(on-policy)采樣候選圖像,再用目標獎勵對同一提示詞下的候選圖像打分排序。高分圖像和低分圖像不是預先給定的偏好對,而是在策略采樣后構造出的正負樣本。







更新方向來自該函數的梯度:



這個式子保留了漂移模型的吸引 / 排斥結構:正樣本項貢獻吸引,負樣本項貢獻排斥;核相似度越高,對當前樣本的影響越大。到這一步,獎勵排序被轉化為局部漂移方向。對應到漂移模型的核加權形式,漂移場可寫為:



偏好漂移只近似獎勵項對應的方向。完整的強化學習微調還需要限制模型不要偏離基礎分布,因此目標中包含 KL 約束:



它的策略梯度是:





將獎勵項對應的偏好漂移和 KL 項對應的參考漂移合并,得到 DrPO 實際使用的更新方向:



得到漂移方向后,DrPO 將其轉化為當前樣本的回歸目標:









圖 1:DrPO 方法概覽。左圖對應上述兩類漂移:綠色 / 紅色點來自當前模型在線候選圖像中的高分和低分樣本,構成偏好漂移;藍色 / 灰色點來自參考模型和當前模型,構成參考漂移。兩者合并后,確定黑色當前樣本的目標位置。右側展示了固定提示詞下,生成結果隨在線微調逐步變化的過程。



圖 2: DrPO 算法。其中,drift radii 表示構造漂移場時使用的一組核函數尺度參數。

實驗結果

實驗首先驗證的是,DrPO 構造出的漂移方向是否能穩定改善單步文生圖模型。研究團隊在 SD-Turbo 和 SDXL-Turbo 上進行在線微調,訓練提示詞來自 Pick-a-Pic v2,評測覆蓋 Pick-a-Pic v2 測試集和 Parti-Prompts。

除了 PickScore、Aesthetic Score 和 ImageReward 等標量指標,論文還使用 Qwen3-VL 進行成對偏好比較,從語義忠實度、整體連貫性、圖像瑕疵和審美質量等維度判斷兩張圖像的相對優劣。在兩個評測集合上,DrPO 相較多種單步生成對照方法獲得了更高的 win rate。



圖 3:Qwen3-VL 成對偏好評測。對于同一提示詞下的匹配生成結果,Qwen3-VL 從語義忠實度、整體連貫性、圖像瑕疵和審美質量等方面進行比較。紅色表示 DrPO 獲得偏好,藍色表示對照方法獲得偏好;A/B 順序經過隨機化處理。

其他定量指標給出了類似結果。在 SD-Turbo 和 SDXL-Turbo 上,DrPO 相比其他不依賴獎勵梯度的方法,均提升了 PickScore、AES 和 ImageReward 等指標。定性結果中,DrPO 生成圖像在指令跟隨和視覺質量上也更穩定。



圖 4:SD-Turbo 上的定性對比。圖片使用相同提示詞進行生成。



表 1:SDXL-Turbo 上的定量結果。DrPO 在保持單步推理的同時,在不使用獎勵梯度的方法中取得了更好的整體結果。

在大型獎勵模型上,訓練提速 3.51 倍

大型多模態獎勵模型會放大獎勵梯度方法的訓練開銷。論文使用 HPSv3 作為目標獎勵,對比 DrPO 和 DRaFT 在相同 effective batch size 下的單次更新時間。DRaFT 每次更新需要 21.62 秒,DrPO 為 6.17 秒,相比 DRaFT 提速 3.51 倍。

差異主要來自反向傳播路徑。DRaFT 需要通過 HPSv3 網絡回傳獎勵梯度;DrPO 則只用 HPSv3 對候選圖像前向打分和排序,隨后用特征提取器在特征空間中估計漂移方向,并通過回歸損失更新生成模型。換言之,目標獎勵仍然決定哪些樣本更好,但梯度計算不再經過 HPSv3,而是落到特征空間的漂移回歸上。因此,當目標獎勵模型較重時,DrPO 的訓練開銷會明顯低于直接反傳獎勵梯度的方法。



圖 5:HPSv3 獎勵下的訓練效率對比。在有效 batch size 相同的條件下,DrPO 無需通過 HPSv3 回傳梯度,相比 DRaFT 提速 3.51 倍。

不可微獎勵也能接入

由于目標獎勵只參與排序,DrPO 也可以接入不可微評價信號。論文進一步使用 GenEval 得分作為獎勵進行訓練。GenEval 主要考察物體數量、顏色、位置和屬性綁定等組合約束,這類評價更接近規則或程序化打分,不適合直接作為可微獎勵反傳。

實驗中,研究團隊針對不同 GenEval 子任務分別微調 SD-Turbo,并在對應類別上評測。結果顯示,這些子任務對應微調模型在各自目標類別上均取得提升。這個設置驗證了:即使獎勵信號不可微,只要它能對候選結果給出分數或排序,DrPO 仍然可以將其接入在線微調。



圖 6:使用 GenEval 得分作為不可微獎勵進行訓練。左:各子任務得分;右:部分生成樣例。

消融實驗

消融實驗進一步說明了特征空間在 DrPO 中的作用。漂移方向不是直接由獎勵模型給出,而是在特征空間中根據樣本相似度估計出來的;因此,特征提取器本身提供了一種額外先驗,決定哪些樣本被認為接近、哪些方向更可行。實驗顯示,latent-MAE 特征優于預訓練模型自身特征。

如果特征空間沒有充分編碼目標獎勵關注的屬性,例如計數、布局、文字或細粒度身份信息,由相似度估計出的漂移方向就可能不夠可靠。除此之外,增加候選樣本數量可以改善結果,而 DrPO 對核函數選擇不太敏感。



表 2:候選樣本數量、特征提取器、核函數和速度尺度上的消融實驗。



圖 7:reference drift 的作用。參考項用于限制微調后的模型偏離基礎模型原有的分布。

離線偏好微調的初步嘗試

論文還嘗試了一個離線版本:不再由當前模型在線采樣并排序,而是直接使用離線偏好數據集中的圖像對構造漂移場。結果顯示,相比單步模型的 DPO 變體,離線 DrPO 收斂更快。

不過,離線設置仍然面臨分布偏移問題。離線數據集中的圖像對未必落在當前模型分布附近,用它們估計出的漂移場會更粗糙。隨著微調時間拉長,這種偏差可能積累,訓練也更容易崩潰。



圖 8:離線 DrPO 的收斂曲線。

總結

DrPO 將漂移模型中的漂移場估計引入單步文生圖模型的強化學習后訓練。每一步中,當前模型在當前策略下采樣候選圖像,目標獎勵負責打分排序;高分和低分樣本用于構造偏好漂移,參考模型和當前模型樣本用于構造分布約束對應的參考漂移。最終,模型通過回歸到漂移目標完成更新。

實驗表明,DrPO 在 SD-Turbo 和 SDXL-Turbo 上改善了生成質量;在 HPSv3 這類大型獎勵模型下,相比需要反傳獎勵梯度的 DRaFT 實現了 3.51 倍訓練提速;同時,也可以接入 GenEval 等不可微獎勵模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
618蘋果又屠榜,國產機只剩尷尬

618蘋果又屠榜,國產機只剩尷尬

熱搜摘要官
2026-06-20 00:27:40
河南85克拉裸鉆剛量產!俄國發布“鉆石禁令”,網友:這不巧了么

河南85克拉裸鉆剛量產!俄國發布“鉆石禁令”,網友:這不巧了么

火星方陣
2026-06-20 20:47:18
虎撲網友發帖求圖:這不屬于普通人的世界

虎撲網友發帖求圖:這不屬于普通人的世界

赴一場山海啊
2026-06-21 00:47:43
貝加爾湖深達千米,水量是長江的25倍,里面最大的魚有多大?

貝加爾湖深達千米,水量是長江的25倍,里面最大的魚有多大?

史智文道
2026-06-21 16:45:44
孫藝珍一家在沖繩度假,她摟著玄彬,玄彬很壯,兩人體型差明顯

孫藝珍一家在沖繩度假,她摟著玄彬,玄彬很壯,兩人體型差明顯

滄海一書客
2026-06-21 14:58:31
百年歷史,22屆世界杯,僅8個國家捧過杯!足球的王座有多難?

百年歷史,22屆世界杯,僅8個國家捧過杯!足球的王座有多難?

神州足球
2026-06-09 12:59:21
8場4球!7場0球!身價8500萬歐卻成阿根廷隊武磊,接班梅西恐無望

8場4球!7場0球!身價8500萬歐卻成阿根廷隊武磊,接班梅西恐無望

大衛的籃球故事
2026-06-21 16:10:46
不打伊朗了,美軍突然調轉槍口,集結航母和遼寧艦正面對峙!

不打伊朗了,美軍突然調轉槍口,集結航母和遼寧艦正面對峙!

騷年先鋒
2026-06-18 23:17:24
104歲澳洲科學家沒病也要安樂死,嫌活太久、摔地兩天沒人知,臨終吐槽這過程太長了

104歲澳洲科學家沒病也要安樂死,嫌活太久、摔地兩天沒人知,臨終吐槽這過程太長了

童童聊娛樂啊
2026-06-20 01:41:02
國乒和威海基地一刀切,賀曉龍回應王楠夫婦:別拿情懷包裝生意

國乒和威海基地一刀切,賀曉龍回應王楠夫婦:別拿情懷包裝生意

徐扙老表哥
2026-06-21 08:28:10
C羅六次出征世界杯!12個女友,5個娃3個媽,終被等了9年柜姐收服

C羅六次出征世界杯!12個女友,5個娃3個媽,終被等了9年柜姐收服

法老不說教
2026-06-21 16:13:57
尼克斯阿爾瓦拉多奪冠慶祝多瘋狂:已連醉7天 夜店開心撒錢

尼克斯阿爾瓦拉多奪冠慶祝多瘋狂:已連醉7天 夜店開心撒錢

醉臥浮生
2026-06-21 17:24:36
少有人知道解放戰爭時,我軍有四個師曾被敵人策反,但很快被殲滅

少有人知道解放戰爭時,我軍有四個師曾被敵人策反,但很快被殲滅

杜櫚手工制作
2026-06-18 21:13:53
房價從1.5萬元跌到5000元,卻依舊無人問津,中介:根本就沒人買

房價從1.5萬元跌到5000元,卻依舊無人問津,中介:根本就沒人買

專業聊房君
2026-06-21 10:15:46
42歲李宇春嫁法國老頭真相曝光,近況不意外

42歲李宇春嫁法國老頭真相曝光,近況不意外

微風輕拂面
2026-06-21 17:45:18
對公共場所的臟有了清晰認知!網友:質疑精致女孩,理解精致女孩

對公共場所的臟有了清晰認知!網友:質疑精致女孩,理解精致女孩

夜深愛雜談
2026-06-21 18:38:28
賈玲“胖回來了”?本人回應:反彈后更放松自在,健康比體重重要

賈玲“胖回來了”?本人回應:反彈后更放松自在,健康比體重重要

馬拉松跑步健身
2026-06-19 21:58:27
私生活混亂、被央視“開除”、陪睡上位,她身上哪個標簽是真的?

私生活混亂、被央視“開除”、陪睡上位,她身上哪個標簽是真的?

素衣讀史
2026-06-18 21:37:31
斷子絕孫!無兒則族譜名下填“止”引爭議,網友:多數家譜是廢紙

斷子絕孫!無兒則族譜名下填“止”引爭議,網友:多數家譜是廢紙

火山詩話
2026-06-20 15:09:51
男籃勝澳大利亞各界說啥?蘇群贊王俊杰作用,3將發揮被認可!

男籃勝澳大利亞各界說啥?蘇群贊王俊杰作用,3將發揮被認可!

籃球資訊達人
2026-06-21 21:55:56
2026-06-21 23:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13319文章數 142674關注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價薪酬 2028年可兌現

頭條要聞

知名作家"南派三叔"向媒體求助:思慮再三聯系了你們

頭條要聞

知名作家"南派三叔"向媒體求助:思慮再三聯系了你們

體育要聞

德國的超級替補,10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財經要聞

“床墊界的特斯拉”破產了

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

家居
教育
旅游
房產
公開課

家居要聞

綠意盎然 自然之境

教育要聞

做上位機,這些專業比計算機更香

旅游要聞

6月21日至23日,荔波小七孔景區繼續閉園!

房產要聞

商業清零式退潮,大量住宅登場!三亞又要大規模調規!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版