![]()
在圖像到圖像翻譯(Image-to-Image Translation, I2I)這個任務上,擴散模型過去幾年幾乎形成了一套默認邏輯:先把輸入圖像和噪聲混合,再一步步去噪,把目標圖像 “還原” 出來。
這條路線很自然,也很成功。無論是超分辨率、去雨、去霧、低光增強,還是風格轉換,擴散模型都憑借更強的生成質量和多樣性,逐漸成為 I2I 任務里的重要范式。
但最近一篇來自香港大學、中國科學院沈陽自動化研究所、UC Santa Cruz 等團隊的工作,提出了一個非常有意思的問題:
我們是不是一直忽視了 “噪聲” 的作用?
更準確地說,擴散模型里的高斯噪聲,可能不只是一個等待被移除的擾動,也不只是把數據從低維流形中抬升的工具。它還可能扮演一個此前被忽略的角色:域協調器(Domain Harmonizer)。論文提出的 DRDD,全稱為Decoupled Residual Denoising Diffusion Models,正是圍繞這個發現,重新設計了統一且數據高效的 I2I 翻譯框架。
![]()
- 論文標題:Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
- project:https://github.com/HKU-HealthAI/DRDD
- arxiv 鏈接:https://arxiv.org/html/2606.01048v1
- CVPR 鏈接:https://cvpr.thecvf.com/virtual/2024/poster/31373
從 “移除噪聲” 到 “利用噪聲”:
I2I 擴散模型的核心機制被重新理解
過去的 I2I 擴散方法,大體可以分成兩類。
早期方法,比如 SR3、WeatherDiff,通常從純高斯噪聲開始反向生成,把輸入圖像當作條件信號。后來的方法,比如 RDDM、IR-SDE,則意識到直接從純噪聲出發不夠穩定,于是改成從 “帶噪輸入圖像” 開始反向采樣,以更好保留輸入結構、減少推理不確定性。
但這些方法背后有一個共同點:
它們都把圖像翻譯過程壓進了一個單一、耦合的反向擴散過程里。
也就是說,在每一步采樣中,模型一邊去噪,一邊去殘差,一邊完成源域到目標域的轉換。這樣的轉換看起來很自然,但問題也出在這里。
對于單一任務,這樣做可能還算有效;但一旦進入統一 I2I 場景,也就是一個模型要同時處理低光增強、去雨、去霧、去模糊、去噪等多個任務,問題就會變得棘手:不同任務、不同退化類型、不同圖像域之間存在明顯 domain gap。模型需要在多個差異很大的分布之間找到統一映射。
這正是 DRDD 的切入點:
既然加噪能讓不同域的特征分布靠得更近,為什么要在核心翻譯還沒完成之前,就急著把噪聲去掉?
別急著去噪:
高斯噪聲其實在幫不同域 “對齊”
DRDD 重新解釋了高斯噪聲在 I2I 翻譯里的作用。
傳統觀點里,噪聲主要有兩個功能:一是把數據從低維流形中移出,二是為 score estimation 提供更豐富的訓練信號。但論文進一步從理論和實驗上證明:注入一定水平的高斯噪聲,可以降低不同域特征分布之間的差距。
簡單說,原本低光、去雨、去霧這些任務,在特征空間里可能分得很開;但當它們都被注入適當噪聲之后,分布會變得更接近。論文在 Figure 1 中用 t-SNE 可視化展示了這一點:源域之間 gap 明顯,而加入噪聲后的 Source+Noise domain 中,不同任務的特征明顯靠近。
![]()
圖 1:DRDD 的流程拆解,不同特征的 t-SNE 可視化
這件事對統一的 I2I 很關鍵。
因為統一模型最怕的不是某一個任務難,而是不同任務之間互相 “打架”。如果噪聲可以先把不同域拉到一個更協調的空間里,那么模型學習統一映射的難度就會下降。
問題是,現有耦合擴散模型雖然也加噪,但它們在反向過程中會一邊做源到目標的轉換,一邊把噪聲去掉。結果就是:
噪聲剛剛帶來的域協調效果,還沒來得及真正服務于核心圖像翻譯,就被模型提前擦掉了。
這就像剛為來自不同領域的圖像搭建起一座 “中間橋梁”,翻譯過程還沒真正通過這座橋完成遷移,橋本身卻先被拆掉了。
![]()
圖 2:DRDD 的正向擴散和反向生成
DRDD 的核心:
把 “去殘差” 和 “去噪” 拆開
DRDD 的做法是這樣的:不要再把殘差去除和噪聲去除塞進同一個過程,而是把它們拆成兩個階段。
具體來說,DRDD 將傳統單一擴散過程解耦為兩個順序執行、彼此獨立的擴散階段:
- 第一階段是隨機噪聲擴散(Noise Diffusion)。這一階段向目標圖像中注入高斯噪聲,讓目標域進入一個 “帶噪但更協調” 的空間。這個階段負責實現域協調。
- 第二階段是確定性殘差擴散(Residual Diffusion)。這一階段在固定噪聲水平下學習目標到源的殘差變化,也就是把圖像翻譯所需的語義映射放到 noise-carrying domain 里完成。
反向過程也對應拆成兩步:
先在帶噪域里做殘差去除,完成核心的源域到目標域轉換;再做去噪,把已經完成語義轉換的帶噪目標圖像變成干凈目標圖像。
這和傳統耦合擴散最大的區別在于:
傳統方法是一邊換域,一邊去噪;
DRDD 是先在噪聲還在的時候完成換域,再最后去噪。
這個設計看似只是順序變了,但本質上改變了擴散模型做 I2I 翻譯的幾何路徑。它讓噪聲的域協調效果完整保留到核心映射階段,而不是在中途被提前消耗掉。論文 Figure 2 也清晰展示了這個流程:前向過程先加噪、再加殘差;反向過程先去殘差、再去噪。
![]()
圖 3:DRDD 的公式
DRDD 的 “兩個優勢”:
域協調 + 數據效率
DRDD 的優勢可以概括成兩件事。
第一,它讓統一映射更容易學。
在統一 I2I 任務里,不同退化類型和不同圖像域之間的 gap 會讓模型很難用一個共享參數空間同時覆蓋所有任務。DRDD 通過固定噪聲域完成殘差去除,相當于先把不同任務拉到一個更協調的中間空間,再學習源到目標的核心變換。
這不是簡單地 “多加點噪聲”,而是把噪聲變成了有輔助作用的中間域。
第二,它顯著提高了數據效率。
DRDD 的去噪階段只需要目標域干凈圖像訓練,不需要成對的源域 - 目標域樣本。換句話說,只要有大量 unpaired target-domain images,就可以訓練或增強去噪模塊,從而提升最終圖像保真度。論文也指出,DRDD 的 denoising network 可以只在干凈圖像上訓練,并且能夠使用大規模自然圖像預訓練權重初始化。
I2I 任務最貴的往往不是圖像本身,而是成對數據。比如真實低光圖和正常曝光圖、真實模糊圖和清晰圖,都不容易大規模收集。DRDD 把 “必須依賴配對數據” 的部分縮小到殘差映射階段,而把去噪質量提升交給更容易獲得的非配對目標域圖像。
實驗結果:統一修復、多域任務、
少數據都能打
DRDD 的實驗設計覆蓋了多個層面:多任務統一圖像修復、多域單任務 I2I、單域單任務 I2I、少量配對數據、跨擴散范式兼容性,以及噪聲強度分析。整體來看,它不是只在一個 benchmark 上刷分,而是在多個維度驗證 “解耦” 這件事確實有效。
1)All-in-One-5:統一圖像修復平均表現領先
在 All-in-One-5 統一圖像修復 benchmark 上,DRDD 同時處理低光增強、去雨、去噪、去模糊、去霧五類任務。
結果顯示,DRDD 在平均指標上取得 0.916 SSIM / 0.073 LPIPS / 18.3 FID,整體優于 DA-CLIP、DiffuIR、AdAIR、VLUNet、DFPIR 等方法。尤其在感知質量指標上,DRDD 的優勢更加明顯。
這組結果說明,DRDD 并不是為了某一個單獨任務定制,而是真的具備 all-in-one restoration 的統一建模能力。
![]()
2)少量配對數據:數據越少,優勢越明顯
DRDD 另一個重點是 data-efficient I2I。
論文在 Low-Light 和 All-in-One-3 上做了數據裁剪實驗,將訓練集隨機下采樣到 75%、50%、25%,驗證少量配對數據下的表現。結果顯示,隨著訓練數據減少,DRDD 的性能下降明顯小于 DiffUIR 和 VLUNet 等基線。Figure 5 中也可以看到,在低光增強和 All-in-One-3 上,DRDD 在 SSIM 和 LPIPS 上都保持了更穩定的曲線。
這傳遞了一個很明確的信號:
DRDD 的提升不是靠 “吃更多配對數據” 堆出來的,而是靠把配對映射和目標域去噪拆開,讓每類數據承擔更合適的角色。
![]()
![]()
3)噪聲不是越大越好:DRDD 也給出了 “加多少” 的答案
當然,如果說噪聲能協調域分布,一個自然問題是:
那是不是噪聲越大越好?
答案是否定的。
噪聲太小,域協調效果不夠;噪聲太大,又會過度破壞輸入結構,讓翻譯任務變得更難。DRDD 因此從理論和實驗兩側分析了噪聲強度。
論文定義了兩個距離:一個衡量帶噪源域和帶噪目標域之間的距離,另一個衡量帶噪源域和原始源域之間的距離。前者希望小,因為域 gap 小更好翻譯;后者也不能太大,否則輸入被破壞太多。最終,DRDD 通過一個 trade-off objective 來尋找合適噪聲水平。
在 All-in-One-5 上,理論分析得到的最優噪聲強度大約在 1.1 到 1.2;實際實驗中,模型在噪聲強度為 1.0 時達到最優,并且在 0.8 到 1.3 范圍內表現穩定。
這也讓 DRDD 的 “用噪聲” 不是玄學,而是有理論約束、有實驗驗證的可控設計。
![]()
從 “噪聲是負擔” 到 “噪聲是中間域”,
DRDD 改變了 I2I 擴散的觀察角度
很多擴散模型工作都在追求更好的網絡、更快的采樣、更強的條件控制。但 DRDD 的有趣之處在于,它沒有把重點放在 “怎么更快去噪” 上,而是反過來問:
為什么一定要這么早去噪?
在傳統耦合擴散框架里,噪聲和殘差被綁定在一起移除;而 DRDD 把它們拆開,讓噪聲先完成域協調,讓殘差去除在這個協調后的空間里發生,最后再做保真度恢復。
這就把 I2I 擴散模型里的噪聲,從一個 “必須盡快清理掉的擾動”,變成了一個 “幫助不同域對齊的工作空間”。
DRDD 給出的路線非常清晰:
- 先利用噪聲縮小域間差異,
- 再在帶噪域里完成核心語義映射,
- 最后去噪提升圖像保真度。
這套順序讓擴散模型不再只是 “加噪 — 去噪” 的生成機器,而更像是一個分階段的視覺翻譯系統:噪聲負責協調,殘差負責轉換,去噪負責精修。
當統一 I2I 逐漸從單任務 benchmark 走向真實復雜場景,模型面對的將不再是單一、干凈、邊界明確的退化類型,而是多任務、多域、多退化、多數據約束同時存在的現實世界。DRDD 的意義就在于,它為這種場景提供了一個更自然的框架:
不要把所有困難都塞進一個耦合反向過程里,而是讓每個階段分別做自己最擅長的事。
從這個角度看,DRDD 不只是一個新的 I2I 方法,更像是對擴散模型內部機制的一次重新拆解。
噪聲不是敵人。
用得好,它可能正是統一圖像翻譯所缺的那座橋。
作者介紹
本文作者包括 Ziyue Lin、Jiahe Hou、Hongyu Xia、Xinrui Xie、Feifei Wang、Yuyin Zhou、Wei Wang、Jiawei Liu 和 Liangqiong Qu。作者團隊來自香港大學、中國科學院沈陽自動化研究所、香港中文大學和 UC Santa Cruz。其中 Ziyue Lin、Jiahe Hou、Hongyu Xia 為共同一作,Jiawei Liu 和 Liangqiong Qu 為通訊作者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.