无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

擴散模型里的噪聲,原來還有這樣作用:DRDD重新定義統一圖像翻譯

0
分享至



在圖像到圖像翻譯(Image-to-Image Translation, I2I)這個任務上,擴散模型過去幾年幾乎形成了一套默認邏輯:先把輸入圖像和噪聲混合,再一步步去噪,把目標圖像 “還原” 出來。

這條路線很自然,也很成功。無論是超分辨率、去雨、去霧、低光增強,還是風格轉換,擴散模型都憑借更強的生成質量和多樣性,逐漸成為 I2I 任務里的重要范式。

但最近一篇來自香港大學、中國科學院沈陽自動化研究所、UC Santa Cruz 等團隊的工作,提出了一個非常有意思的問題:

我們是不是一直忽視了 “噪聲” 的作用?

更準確地說,擴散模型里的高斯噪聲,可能不只是一個等待被移除的擾動,也不只是把數據從低維流形中抬升的工具。它還可能扮演一個此前被忽略的角色:域協調器(Domain Harmonizer)。論文提出的 DRDD,全稱為Decoupled Residual Denoising Diffusion Models,正是圍繞這個發現,重新設計了統一且數據高效的 I2I 翻譯框架。



  • 論文標題:Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
  • project:https://github.com/HKU-HealthAI/DRDD
  • arxiv 鏈接:https://arxiv.org/html/2606.01048v1
  • CVPR 鏈接:https://cvpr.thecvf.com/virtual/2024/poster/31373

從 “移除噪聲” 到 “利用噪聲”:

I2I 擴散模型的核心機制被重新理解

過去的 I2I 擴散方法,大體可以分成兩類。

早期方法,比如 SR3、WeatherDiff,通常從純高斯噪聲開始反向生成,把輸入圖像當作條件信號。后來的方法,比如 RDDM、IR-SDE,則意識到直接從純噪聲出發不夠穩定,于是改成從 “帶噪輸入圖像” 開始反向采樣,以更好保留輸入結構、減少推理不確定性。

但這些方法背后有一個共同點:

它們都把圖像翻譯過程壓進了一個單一、耦合的反向擴散過程里。

也就是說,在每一步采樣中,模型一邊去噪,一邊去殘差,一邊完成源域到目標域的轉換。這樣的轉換看起來很自然,但問題也出在這里。

對于單一任務,這樣做可能還算有效;但一旦進入統一 I2I 場景,也就是一個模型要同時處理低光增強、去雨、去霧、去模糊、去噪等多個任務,問題就會變得棘手:不同任務、不同退化類型、不同圖像域之間存在明顯 domain gap。模型需要在多個差異很大的分布之間找到統一映射。

這正是 DRDD 的切入點:

既然加噪能讓不同域的特征分布靠得更近,為什么要在核心翻譯還沒完成之前,就急著把噪聲去掉?

別急著去噪:

高斯噪聲其實在幫不同域 “對齊”

DRDD 重新解釋了高斯噪聲在 I2I 翻譯里的作用。

傳統觀點里,噪聲主要有兩個功能:一是把數據從低維流形中移出,二是為 score estimation 提供更豐富的訓練信號。但論文進一步從理論和實驗上證明:注入一定水平的高斯噪聲,可以降低不同域特征分布之間的差距。

簡單說,原本低光、去雨、去霧這些任務,在特征空間里可能分得很開;但當它們都被注入適當噪聲之后,分布會變得更接近。論文在 Figure 1 中用 t-SNE 可視化展示了這一點:源域之間 gap 明顯,而加入噪聲后的 Source+Noise domain 中,不同任務的特征明顯靠近。



圖 1:DRDD 的流程拆解,不同特征的 t-SNE 可視化

這件事對統一的 I2I 很關鍵。

因為統一模型最怕的不是某一個任務難,而是不同任務之間互相 “打架”。如果噪聲可以先把不同域拉到一個更協調的空間里,那么模型學習統一映射的難度就會下降。

問題是,現有耦合擴散模型雖然也加噪,但它們在反向過程中會一邊做源到目標的轉換,一邊把噪聲去掉。結果就是:

噪聲剛剛帶來的域協調效果,還沒來得及真正服務于核心圖像翻譯,就被模型提前擦掉了。

這就像剛為來自不同領域的圖像搭建起一座 “中間橋梁”,翻譯過程還沒真正通過這座橋完成遷移,橋本身卻先被拆掉了。



圖 2:DRDD 的正向擴散和反向生成

DRDD 的核心:

把 “去殘差” 和 “去噪” 拆開

DRDD 的做法是這樣的:不要再把殘差去除和噪聲去除塞進同一個過程,而是把它們拆成兩個階段。

具體來說,DRDD 將傳統單一擴散過程解耦為兩個順序執行、彼此獨立的擴散階段:

  • 第一階段是隨機噪聲擴散(Noise Diffusion)。這一階段向目標圖像中注入高斯噪聲,讓目標域進入一個 “帶噪但更協調” 的空間。這個階段負責實現域協調。
  • 第二階段是確定性殘差擴散(Residual Diffusion)。這一階段在固定噪聲水平下學習目標到源的殘差變化,也就是把圖像翻譯所需的語義映射放到 noise-carrying domain 里完成。

反向過程也對應拆成兩步:

先在帶噪域里做殘差去除,完成核心的源域到目標域轉換;再做去噪,把已經完成語義轉換的帶噪目標圖像變成干凈目標圖像。

這和傳統耦合擴散最大的區別在于:

傳統方法是一邊換域,一邊去噪;

DRDD 是先在噪聲還在的時候完成換域,再最后去噪。

這個設計看似只是順序變了,但本質上改變了擴散模型做 I2I 翻譯的幾何路徑。它讓噪聲的域協調效果完整保留到核心映射階段,而不是在中途被提前消耗掉。論文 Figure 2 也清晰展示了這個流程:前向過程先加噪、再加殘差;反向過程先去殘差、再去噪。



圖 3:DRDD 的公式

DRDD 的 “兩個優勢”:

域協調 + 數據效率

DRDD 的優勢可以概括成兩件事。

第一,它讓統一映射更容易學。

在統一 I2I 任務里,不同退化類型和不同圖像域之間的 gap 會讓模型很難用一個共享參數空間同時覆蓋所有任務。DRDD 通過固定噪聲域完成殘差去除,相當于先把不同任務拉到一個更協調的中間空間,再學習源到目標的核心變換。

這不是簡單地 “多加點噪聲”,而是把噪聲變成了有輔助作用的中間域。

第二,它顯著提高了數據效率。

DRDD 的去噪階段只需要目標域干凈圖像訓練,不需要成對的源域 - 目標域樣本。換句話說,只要有大量 unpaired target-domain images,就可以訓練或增強去噪模塊,從而提升最終圖像保真度。論文也指出,DRDD 的 denoising network 可以只在干凈圖像上訓練,并且能夠使用大規模自然圖像預訓練權重初始化。

I2I 任務最貴的往往不是圖像本身,而是成對數據。比如真實低光圖和正常曝光圖、真實模糊圖和清晰圖,都不容易大規模收集。DRDD 把 “必須依賴配對數據” 的部分縮小到殘差映射階段,而把去噪質量提升交給更容易獲得的非配對目標域圖像。

實驗結果:統一修復、多域任務、

少數據都能打

DRDD 的實驗設計覆蓋了多個層面:多任務統一圖像修復、多域單任務 I2I、單域單任務 I2I、少量配對數據、跨擴散范式兼容性,以及噪聲強度分析。整體來看,它不是只在一個 benchmark 上刷分,而是在多個維度驗證 “解耦” 這件事確實有效。

1)All-in-One-5:統一圖像修復平均表現領先

在 All-in-One-5 統一圖像修復 benchmark 上,DRDD 同時處理低光增強、去雨、去噪、去模糊、去霧五類任務。

結果顯示,DRDD 在平均指標上取得 0.916 SSIM / 0.073 LPIPS / 18.3 FID,整體優于 DA-CLIP、DiffuIR、AdAIR、VLUNet、DFPIR 等方法。尤其在感知質量指標上,DRDD 的優勢更加明顯。

這組結果說明,DRDD 并不是為了某一個單獨任務定制,而是真的具備 all-in-one restoration 的統一建模能力。



2)少量配對數據:數據越少,優勢越明顯

DRDD 另一個重點是 data-efficient I2I。

論文在 Low-Light 和 All-in-One-3 上做了數據裁剪實驗,將訓練集隨機下采樣到 75%、50%、25%,驗證少量配對數據下的表現。結果顯示,隨著訓練數據減少,DRDD 的性能下降明顯小于 DiffUIR 和 VLUNet 等基線。Figure 5 中也可以看到,在低光增強和 All-in-One-3 上,DRDD 在 SSIM 和 LPIPS 上都保持了更穩定的曲線。

這傳遞了一個很明確的信號:

DRDD 的提升不是靠 “吃更多配對數據” 堆出來的,而是靠把配對映射和目標域去噪拆開,讓每類數據承擔更合適的角色。





3)噪聲不是越大越好:DRDD 也給出了 “加多少” 的答案

當然,如果說噪聲能協調域分布,一個自然問題是:

那是不是噪聲越大越好?

答案是否定的。

噪聲太小,域協調效果不夠;噪聲太大,又會過度破壞輸入結構,讓翻譯任務變得更難。DRDD 因此從理論和實驗兩側分析了噪聲強度。

論文定義了兩個距離:一個衡量帶噪源域和帶噪目標域之間的距離,另一個衡量帶噪源域和原始源域之間的距離。前者希望小,因為域 gap 小更好翻譯;后者也不能太大,否則輸入被破壞太多。最終,DRDD 通過一個 trade-off objective 來尋找合適噪聲水平。

在 All-in-One-5 上,理論分析得到的最優噪聲強度大約在 1.1 到 1.2;實際實驗中,模型在噪聲強度為 1.0 時達到最優,并且在 0.8 到 1.3 范圍內表現穩定。

這也讓 DRDD 的 “用噪聲” 不是玄學,而是有理論約束、有實驗驗證的可控設計。



從 “噪聲是負擔” 到 “噪聲是中間域”,

DRDD 改變了 I2I 擴散的觀察角度

很多擴散模型工作都在追求更好的網絡、更快的采樣、更強的條件控制。但 DRDD 的有趣之處在于,它沒有把重點放在 “怎么更快去噪” 上,而是反過來問:

為什么一定要這么早去噪?

在傳統耦合擴散框架里,噪聲和殘差被綁定在一起移除;而 DRDD 把它們拆開,讓噪聲先完成域協調,讓殘差去除在這個協調后的空間里發生,最后再做保真度恢復。

這就把 I2I 擴散模型里的噪聲,從一個 “必須盡快清理掉的擾動”,變成了一個 “幫助不同域對齊的工作空間”。

DRDD 給出的路線非常清晰:

  1. 先利用噪聲縮小域間差異,
  2. 再在帶噪域里完成核心語義映射,
  3. 最后去噪提升圖像保真度。

這套順序讓擴散模型不再只是 “加噪 — 去噪” 的生成機器,而更像是一個分階段的視覺翻譯系統:噪聲負責協調,殘差負責轉換,去噪負責精修。

當統一 I2I 逐漸從單任務 benchmark 走向真實復雜場景,模型面對的將不再是單一、干凈、邊界明確的退化類型,而是多任務、多域、多退化、多數據約束同時存在的現實世界。DRDD 的意義就在于,它為這種場景提供了一個更自然的框架:

不要把所有困難都塞進一個耦合反向過程里,而是讓每個階段分別做自己最擅長的事。

從這個角度看,DRDD 不只是一個新的 I2I 方法,更像是對擴散模型內部機制的一次重新拆解。

噪聲不是敵人。

用得好,它可能正是統一圖像翻譯所缺的那座橋。

作者介紹

本文作者包括 Ziyue Lin、Jiahe Hou、Hongyu Xia、Xinrui Xie、Feifei Wang、Yuyin Zhou、Wei Wang、Jiawei Liu 和 Liangqiong Qu。作者團隊來自香港大學、中國科學院沈陽自動化研究所、香港中文大學和 UC Santa Cruz。其中 Ziyue Lin、Jiahe Hou、Hongyu Xia 為共同一作,Jiawei Liu 和 Liangqiong Qu 為通訊作者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
采訪了100位當代女性,她們都認為女人最快活的時候,就是被人撩

采訪了100位當代女性,她們都認為女人最快活的時候,就是被人撩

千秋文化
2026-06-11 17:50:56
日企宣布重磅消息,距離全面斷供,已不足30天,高市態度變了

日企宣布重磅消息,距離全面斷供,已不足30天,高市態度變了

遁走的兩輪
2026-06-11 22:59:39
河北殘障大叔回家后續:侄兒發聲,村里人說實話,大叔工資有著落

河北殘障大叔回家后續:侄兒發聲,村里人說實話,大叔工資有著落

青梅侃史啊
2026-06-12 07:22:31
何猷君坦言,以往的對象母親直接無視,奚夢瑤是唯一讓她費心的人

何猷君坦言,以往的對象母親直接無視,奚夢瑤是唯一讓她費心的人

TVB的四小花
2026-06-10 12:50:21
重磅會議召開!三區合體,南通要變天了?

重磅會議召開!三區合體,南通要變天了?

牛鍋巴小釩
2026-06-12 10:40:11
埃及人修金字塔的時候,中國正處于什么時代?翻遍史料才敢相信

埃及人修金字塔的時候,中國正處于什么時代?翻遍史料才敢相信

抽象派大師
2026-06-04 14:59:07
中方要警惕!日本釋放開戰信號,已安排士兵后事,高市野心藏不住

中方要警惕!日本釋放開戰信號,已安排士兵后事,高市野心藏不住

萬物知識圈
2026-06-11 12:09:38
巴薩終于放手!法蒂永久轉會即將完成

巴薩終于放手!法蒂永久轉會即將完成

林子說事
2026-06-12 12:58:20
小貓口吐綠沫疑似中毒,主人卻不管不顧…網友剛要罵,下秒:命運戲弄大饞咪!

小貓口吐綠沫疑似中毒,主人卻不管不顧…網友剛要罵,下秒:命運戲弄大饞咪!

拜見喵主子
2026-06-11 11:22:41
美宇航員登月回歸后精神恍惚,死前坦言:那個地方人類不應該再去

美宇航員登月回歸后精神恍惚,死前坦言:那個地方人類不應該再去

林林故事揭秘
2025-01-06 12:46:57
37天,二胖躺在大衣哥朱之文家門口,整整37天。

37天,二胖躺在大衣哥朱之文家門口,整整37天。

阿振觀點
2026-06-08 12:23:52
美稱擊落兩架伊朗無人機

美稱擊落兩架伊朗無人機

界面新聞
2026-06-12 10:20:07
“火烈鳥”飛行1000公里擊中俄境內目標,這說明什么?

“火烈鳥”飛行1000公里擊中俄境內目標,這說明什么?

山河路口
2026-06-10 20:51:48
人過七十,永遠不要在熟人面前,說以下6句話,誰說誰后悔

人過七十,永遠不要在熟人面前,說以下6句話,誰說誰后悔

風起見你
2026-06-12 10:31:46
嫌犯從國內追至柬埔寨殺人,“中國房產商被綁撕票案”告破

嫌犯從國內追至柬埔寨殺人,“中國房產商被綁撕票案”告破

三農老歷
2026-06-11 14:14:38
諾坎普夢碎!巴薩官宣放棄買斷,拉什福德果斷行動刪社媒劃清界限

諾坎普夢碎!巴薩官宣放棄買斷,拉什福德果斷行動刪社媒劃清界限

夜白侃球
2026-06-12 13:43:07
婚后才發現性生活不和諧,網友直呼:這不是搞笑嗎

婚后才發現性生活不和諧,網友直呼:這不是搞笑嗎

追星雷達站
2026-06-12 01:45:17
Lisa的世界杯開幕式舞臺,是靠瘋馬秀換來的,她的脫衣舞沒有白跳

Lisa的世界杯開幕式舞臺,是靠瘋馬秀換來的,她的脫衣舞沒有白跳

芊手若
2026-06-11 07:15:41
中國一年51萬人確診腸癌!建議:不管多大年紀,記住6個護腸方法

中國一年51萬人確診腸癌!建議:不管多大年紀,記住6個護腸方法

路醫生健康科普
2026-06-09 15:39:43
馬刺傲慢發言給尼克斯添動力

馬刺傲慢發言給尼克斯添動力

體壇周報
2026-06-12 09:28:14
2026-06-12 14:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13242文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX IPO募資750億美元,馬斯克身家萬億

頭條要聞

7萬字離職長文引發釘釘管理層地震 作者再發長文

頭條要聞

7萬字離職長文引發釘釘管理層地震 作者再發長文

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

與熱巴戀情曝光1天,陳飛宇現身

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

佟湘北:全新smart#6 自成一派好看更好開

態度原創

時尚
房產
手機
教育
軍事航空

奚夢瑤帶火的這個單品,原來日常可以這樣用

房產要聞

科城·美林學筑5月領跑崖州灣:成交價、銷售套數、轉化率三項第一

手機要聞

蘋果升級iOS 27版健康App:卡片布局、評估食物營養等

教育要聞

初二這一年

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版