網易首頁 > 網易號 > 正文申請入駐

擴散模型里的噪聲，原來還有這樣作用：DRDD重新定義統一圖像翻譯

2026-06-10 14:48:06　來源: 機器之心Pro

天津舉報

分享至

在圖像到圖像翻譯（Image-to-Image Translation, I2I）這個任務上，擴散模型過去幾年幾乎形成了一套默認邏輯：先把輸入圖像和噪聲混合，再一步步去噪，把目標圖像 “還原” 出來。

這條路線很自然，也很成功。無論是超分辨率、去雨、去霧、低光增強，還是風格轉換，擴散模型都憑借更強的生成質量和多樣性，逐漸成為 I2I 任務里的重要范式。

但最近一篇來自香港大學、中國科學院沈陽自動化研究所、UC Santa Cruz 等團隊的工作，提出了一個非常有意思的問題：

我們是不是一直忽視了 “噪聲” 的作用？

更準確地說，擴散模型里的高斯噪聲，可能不只是一個等待被移除的擾動，也不只是把數據從低維流形中抬升的工具。它還可能扮演一個此前被忽略的角色：域協調器（Domain Harmonizer）。論文提出的 DRDD，全稱為Decoupled Residual Denoising Diffusion Models，正是圍繞這個發現，重新設計了統一且數據高效的 I2I 翻譯框架。

論文標題：Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
project：https://github.com/HKU-HealthAI/DRDD
arxiv 鏈接：https://arxiv.org/html/2606.01048v1
CVPR 鏈接：https://cvpr.thecvf.com/virtual/2024/poster/31373

從 “移除噪聲” 到 “利用噪聲”：

I2I 擴散模型的核心機制被重新理解

過去的 I2I 擴散方法，大體可以分成兩類。

早期方法，比如 SR3、WeatherDiff，通常從純高斯噪聲開始反向生成，把輸入圖像當作條件信號。后來的方法，比如 RDDM、IR-SDE，則意識到直接從純噪聲出發不夠穩定，于是改成從 “帶噪輸入圖像” 開始反向采樣，以更好保留輸入結構、減少推理不確定性。

但這些方法背后有一個共同點：

它們都把圖像翻譯過程壓進了一個單一、耦合的反向擴散過程里。

也就是說，在每一步采樣中，模型一邊去噪，一邊去殘差，一邊完成源域到目標域的轉換。這樣的轉換看起來很自然，但問題也出在這里。

對于單一任務，這樣做可能還算有效；但一旦進入統一 I2I 場景，也就是一個模型要同時處理低光增強、去雨、去霧、去模糊、去噪等多個任務，問題就會變得棘手：不同任務、不同退化類型、不同圖像域之間存在明顯 domain gap。模型需要在多個差異很大的分布之間找到統一映射。

這正是 DRDD 的切入點：

既然加噪能讓不同域的特征分布靠得更近，為什么要在核心翻譯還沒完成之前，就急著把噪聲去掉？

別急著去噪：

高斯噪聲其實在幫不同域 “對齊”

DRDD 重新解釋了高斯噪聲在 I2I 翻譯里的作用。

傳統觀點里，噪聲主要有兩個功能：一是把數據從低維流形中移出，二是為 score estimation 提供更豐富的訓練信號。但論文進一步從理論和實驗上證明：注入一定水平的高斯噪聲，可以降低不同域特征分布之間的差距。

簡單說，原本低光、去雨、去霧這些任務，在特征空間里可能分得很開；但當它們都被注入適當噪聲之后，分布會變得更接近。論文在 Figure 1 中用 t-SNE 可視化展示了這一點：源域之間 gap 明顯，而加入噪聲后的 Source+Noise domain 中，不同任務的特征明顯靠近。

圖 1：DRDD 的流程拆解，不同特征的 t-SNE 可視化

這件事對統一的 I2I 很關鍵。

因為統一模型最怕的不是某一個任務難，而是不同任務之間互相 “打架”。如果噪聲可以先把不同域拉到一個更協調的空間里，那么模型學習統一映射的難度就會下降。

問題是，現有耦合擴散模型雖然也加噪，但它們在反向過程中會一邊做源到目標的轉換，一邊把噪聲去掉。結果就是：

噪聲剛剛帶來的域協調效果，還沒來得及真正服務于核心圖像翻譯，就被模型提前擦掉了。

這就像剛為來自不同領域的圖像搭建起一座 “中間橋梁”，翻譯過程還沒真正通過這座橋完成遷移，橋本身卻先被拆掉了。

圖 2：DRDD 的正向擴散和反向生成

DRDD 的核心：

把 “去殘差” 和 “去噪” 拆開

DRDD 的做法是這樣的：不要再把殘差去除和噪聲去除塞進同一個過程，而是把它們拆成兩個階段。

具體來說，DRDD 將傳統單一擴散過程解耦為兩個順序執行、彼此獨立的擴散階段：

第一階段是隨機噪聲擴散（Noise Diffusion）。這一階段向目標圖像中注入高斯噪聲，讓目標域進入一個 “帶噪但更協調” 的空間。這個階段負責實現域協調。
第二階段是確定性殘差擴散（Residual Diffusion）。這一階段在固定噪聲水平下學習目標到源的殘差變化，也就是把圖像翻譯所需的語義映射放到 noise-carrying domain 里完成。

反向過程也對應拆成兩步：

先在帶噪域里做殘差去除，完成核心的源域到目標域轉換；再做去噪，把已經完成語義轉換的帶噪目標圖像變成干凈目標圖像。

這和傳統耦合擴散最大的區別在于：

傳統方法是一邊換域，一邊去噪；

DRDD 是先在噪聲還在的時候完成換域，再最后去噪。

這個設計看似只是順序變了，但本質上改變了擴散模型做 I2I 翻譯的幾何路徑。它讓噪聲的域協調效果完整保留到核心映射階段，而不是在中途被提前消耗掉。論文 Figure 2 也清晰展示了這個流程：前向過程先加噪、再加殘差；反向過程先去殘差、再去噪。

圖 3：DRDD 的公式

DRDD 的 “兩個優勢”：

域協調 + 數據效率

DRDD 的優勢可以概括成兩件事。

第一，它讓統一映射更容易學。

在統一 I2I 任務里，不同退化類型和不同圖像域之間的 gap 會讓模型很難用一個共享參數空間同時覆蓋所有任務。DRDD 通過固定噪聲域完成殘差去除，相當于先把不同任務拉到一個更協調的中間空間，再學習源到目標的核心變換。

這不是簡單地 “多加點噪聲”，而是把噪聲變成了有輔助作用的中間域。

第二，它顯著提高了數據效率。

DRDD 的去噪階段只需要目標域干凈圖像訓練，不需要成對的源域 - 目標域樣本。換句話說，只要有大量 unpaired target-domain images，就可以訓練或增強去噪模塊，從而提升最終圖像保真度。論文也指出，DRDD 的 denoising network 可以只在干凈圖像上訓練，并且能夠使用大規模自然圖像預訓練權重初始化。

I2I 任務最貴的往往不是圖像本身，而是成對數據。比如真實低光圖和正常曝光圖、真實模糊圖和清晰圖，都不容易大規模收集。DRDD 把 “必須依賴配對數據” 的部分縮小到殘差映射階段，而把去噪質量提升交給更容易獲得的非配對目標域圖像。

實驗結果：統一修復、多域任務、

少數據都能打

DRDD 的實驗設計覆蓋了多個層面：多任務統一圖像修復、多域單任務 I2I、單域單任務 I2I、少量配對數據、跨擴散范式兼容性，以及噪聲強度分析。整體來看，它不是只在一個 benchmark 上刷分，而是在多個維度驗證 “解耦” 這件事確實有效。

1）All-in-One-5：統一圖像修復平均表現領先

在 All-in-One-5 統一圖像修復 benchmark 上，DRDD 同時處理低光增強、去雨、去噪、去模糊、去霧五類任務。

結果顯示，DRDD 在平均指標上取得 0.916 SSIM / 0.073 LPIPS / 18.3 FID，整體優于 DA-CLIP、DiffuIR、AdAIR、VLUNet、DFPIR 等方法。尤其在感知質量指標上，DRDD 的優勢更加明顯。

這組結果說明，DRDD 并不是為了某一個單獨任務定制，而是真的具備 all-in-one restoration 的統一建模能力。

2）少量配對數據：數據越少，優勢越明顯

DRDD 另一個重點是 data-efficient I2I。

論文在 Low-Light 和 All-in-One-3 上做了數據裁剪實驗，將訓練集隨機下采樣到 75%、50%、25%，驗證少量配對數據下的表現。結果顯示，隨著訓練數據減少，DRDD 的性能下降明顯小于 DiffUIR 和 VLUNet 等基線。Figure 5 中也可以看到，在低光增強和 All-in-One-3 上，DRDD 在 SSIM 和 LPIPS 上都保持了更穩定的曲線。

這傳遞了一個很明確的信號：

DRDD 的提升不是靠 “吃更多配對數據” 堆出來的，而是靠把配對映射和目標域去噪拆開，讓每類數據承擔更合適的角色。

3）噪聲不是越大越好：DRDD 也給出了 “加多少” 的答案

當然，如果說噪聲能協調域分布，一個自然問題是：

那是不是噪聲越大越好？

答案是否定的。

噪聲太小，域協調效果不夠；噪聲太大，又會過度破壞輸入結構，讓翻譯任務變得更難。DRDD 因此從理論和實驗兩側分析了噪聲強度。

論文定義了兩個距離：一個衡量帶噪源域和帶噪目標域之間的距離，另一個衡量帶噪源域和原始源域之間的距離。前者希望小，因為域 gap 小更好翻譯；后者也不能太大，否則輸入被破壞太多。最終，DRDD 通過一個 trade-off objective 來尋找合適噪聲水平。

在 All-in-One-5 上，理論分析得到的最優噪聲強度大約在 1.1 到 1.2；實際實驗中，模型在噪聲強度為 1.0 時達到最優，并且在 0.8 到 1.3 范圍內表現穩定。

這也讓 DRDD 的 “用噪聲” 不是玄學，而是有理論約束、有實驗驗證的可控設計。

從 “噪聲是負擔” 到 “噪聲是中間域”，

DRDD 改變了 I2I 擴散的觀察角度

很多擴散模型工作都在追求更好的網絡、更快的采樣、更強的條件控制。但 DRDD 的有趣之處在于，它沒有把重點放在 “怎么更快去噪” 上，而是反過來問：

為什么一定要這么早去噪？

在傳統耦合擴散框架里，噪聲和殘差被綁定在一起移除；而 DRDD 把它們拆開，讓噪聲先完成域協調，讓殘差去除在這個協調后的空間里發生，最后再做保真度恢復。

這就把 I2I 擴散模型里的噪聲，從一個 “必須盡快清理掉的擾動”，變成了一個 “幫助不同域對齊的工作空間”。

DRDD 給出的路線非常清晰：

先利用噪聲縮小域間差異，
再在帶噪域里完成核心語義映射，
最后去噪提升圖像保真度。

這套順序讓擴散模型不再只是 “加噪 — 去噪” 的生成機器，而更像是一個分階段的視覺翻譯系統：噪聲負責協調，殘差負責轉換，去噪負責精修。

當統一 I2I 逐漸從單任務 benchmark 走向真實復雜場景，模型面對的將不再是單一、干凈、邊界明確的退化類型，而是多任務、多域、多退化、多數據約束同時存在的現實世界。DRDD 的意義就在于，它為這種場景提供了一個更自然的框架：

不要把所有困難都塞進一個耦合反向過程里，而是讓每個階段分別做自己最擅長的事。

從這個角度看，DRDD 不只是一個新的 I2I 方法，更像是對擴散模型內部機制的一次重新拆解。

噪聲不是敵人。

用得好，它可能正是統一圖像翻譯所缺的那座橋。

作者介紹

本文作者包括 Ziyue Lin、Jiahe Hou、Hongyu Xia、Xinrui Xie、Feifei Wang、Yuyin Zhou、Wei Wang、Jiawei Liu 和 Liangqiong Qu。作者團隊來自香港大學、中國科學院沈陽自動化研究所、香港中文大學和 UC Santa Cruz。其中 Ziyue Lin、Jiahe Hou、Hongyu Xia 為共同一作，Jiawei Liu 和 Liangqiong Qu 為通訊作者。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.