无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DiffusionOPD:復旦聯合通義萬相提出擴散模型在線策略蒸餾新范式

0
分享至



擴散模型在單一任務上的強化學習已經取得了顯著進展,例如提升文字生成質量、增強構圖準確性,或優化畫面美感等。但當這些能力需要同時集成到同一個模型中時,訓練往往會變得十分困難:不同任務之間容易產生相互干擾,訓練目標也會變得復雜而不穩定。

近期,來自復旦大學與阿里巴巴通義萬相的研究團隊對此提出了新的思考。他們認為,多任務強化學習不應被視為一個統一優化問題,而應該解耦為兩個彼此獨立的過程:單任務的在線策略探索 & 多任務能力整合。

基于這一觀點,他們提出了DiffusionOPD,為 diffusion 領域的 On-Policy Distillation 提供了一個統一視角,并建立了相應的理論與實驗框架。

DiffusionOPD 的核心思路,是先針對不同任務分別訓練各自的「專家教師」模型;隨后,再通過在線策略蒸餾,將這些教師模型的能力統一蒸餾到同一個學生模型中,實現多任務能力整合。最終,一個統一的 student model 便能夠同時兼顧構圖、OCR、美學等多項能力。



  • 論?標題:DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
  • 論文地址:https://arxiv.org/abs/2605.15055
  • 項?主?:https://quanhaol.github.io/DiffusionOPD-site/
  • 代碼鏈接 https://github.com/ali-vilab/DiffusionOPD

多任務強化學習方法

過去常?的多任務強化學習?法主要有兩類。

聯合多任務 RL (Joint Multi-Task Optimization) :使用現有的 RL 算法例如 DiffusionNFT, GRPO 去聯合優化多個任務。這種范式會撞上兩個問題: 1 獎勵沖突:不同任務的優化?向往往存在相互干擾; 2 任務失衡:簡單任務會主導訓練過程,導致復雜任務難以充分學習。

級聯 RL (Cascade RL):按階段依次訓練不同任務。雖然能夠緩解任務沖突,但是訓練流程復雜,需要分別調整各階段的超參數與訓練策略,而且容易產生災難性遺忘,后續任務訓練的時候會削弱已有能力。



圖 1:(a)相比所有多任務強化學習基線方法,DiffusionOPD 展現出顯著更快的收斂速度以及更高的性能上限。(b)在包括 GenEval、OCR 與美學在內的多個任務領域中,DiffusionOPD 均優于所有基線方法。

DiffusionOPD: 單任務探索 + 多任務整合

DiffusionOPD 給出的答案?脆利落:多任務強化學習不應被視為一個統一優化問題,而應該解耦為兩個彼此獨立的過程:單任務的在線策略探索 & 多任務能力整合。



整體訓練過程可分為兩個階段

  • Stage 1?單任務?師獨?訓練:針對不同任務(如 GenEval、OCR、Aesthetic 等),分別使用現有的 diffusion RL 方法訓練對應的「專家教師」模型。其中,GenEval 任務采用 DiffusionNFT,OCR 與美學任務采用 GRPO-Guard。由于每個教師僅負責單一任務,因此能夠避免跨任務干擾。
  • Stage 2?在線策略蒸餾多任務能力到學?模型:隨后,從一個預訓練擴散模型初始化統一的學生模型,并通過在線策略蒸餾整合多任務能力。在訓練過程中,學生模型針對不同任務,基于自身策略生成去噪軌跡;隨后,在學生生成的每個去噪狀態上,由對應任務的教師模型提供監督信號。因此,學生模型無需重新對所有任務進行從零探索,而是能夠直接學習各任務教師的策略與能力,從而實現高效的多任務能力融合。

Diffusion 領域 OPD 的?標函數推導

在 LLM 中,OPD 的做法很自然:學生模型先按照自己的策略生成 token,隨后教師模型在學生訪問到的每一個 token 狀態上提供監督。由于語言模型本身是離散 token 分布,因此可以直接對每一步的 token distribution 做 KL 蒸餾。

但 diffusion model 不一樣。它不是離散 token 序列,而是一個連續狀態的去噪過程。

因此作者首先把 diffusion 的去噪過程重新視作一個 continuous-state Markov chain(連續狀態馬爾可夫鏈)。在這個視角下,每一步去噪 transition 都對應一個 Gaussian transition kernel;學生模型和教師模型分別定義自己的 transition distribution:









接著,論文進一步推導發現:由于 student 和 teacher 的transition covariance 是相同的,于是整個擴散版 OPD ?標 reverse KL,就被寫成了?個完全解析、? Monte-Carlo ?差的均值匹配損失:



作者進一步指出這一框架同時統一了stochastic SDE sampler 與 deterministic ODE sampler。在 ODE 情況下目標會退化成均值之間的 L2 匹配。



與 PPO-style policy gradient 的比較

另一個一非常自然的想法是:把老師當作「過程獎勵模型」,把 KL 損失看作每一個去燥步的 dense reward 然后計算 advantage,最后套一個 PPO 的損失函數。

DiffusionOPD 論文里嚴格證明了直接閉式 KL 與 PPO -style policy gradient在期望意義下梯度完全相等。但 PPO 的梯度里會多出一項 score-function 項,它與高斯噪聲成正比,期望為零但方差不為零。也就是說,PPO 估計天然比閉式 KL 更「吵」。





更關鍵的是 PPO 形式離不開 logprob 與 ratio 的計算,因此它在 ODE 確定性采樣器下根本無法定義,僅僅支持 SDE sampler。

實驗結果

1.與多任務強化學習方法的對比

定量效果對比:



訓練曲線對比:



定性效果對比:



圖 2:與多任務強化學習方法以及單任務教師模型的定性對比結果。每個案例分為兩行展示:第一行從左到右依次為 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行從左到右依次為輸入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成結果。

2.蒸餾方法消融:

作者還做了一組很有意義的對照實驗:固定同一批專家老師,分別用 DiffusionOPD、DMD、TDM、SFT 蒸餾到同一個學生,控制變量后對比誰更適合「多任務能力整合」這個場景。

訓練曲線對比:



曲線表示同樣的老師、同樣的采樣設置,DiffusionOPD 在收斂速度和上限上都明顯更好。

定性效果對比:



圖 3:與不同蒸餾方法的定性對比結果。從左到右依次為:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。

3.Loss 形式以及 Sampler Type 消融



圖 6:關于損失函數形式與采樣器噪聲水平的消融實驗。當噪聲水平設為 0 時,SDE sampler 將退化為 ODE sampler。實驗結果表明,PPO-style policy gradient 的表現遜于同樣 noise level 的 closed-form KL objective;此外,更低的噪聲水平能夠帶來更快的收斂速度和更高的性能上限。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

數碼
親子
本地
時尚
公開課

數碼要聞

消息稱微軟下周發布英偉達處理器Windows PC,戴爾也會跟進

親子要聞

今天我們吃公主糖果玩公主裝扮游戲

本地新聞

用剪紙的方式,打開江蘇揚州

美回巔峰的她們,帶火的這些爆款真的好用嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版