網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

擴(kuò)散模型綜述:方法與應(yīng)用

2026-05-05 17:59:11　來源: CreateAMind

上海舉報(bào)

分享至

擴(kuò)散模型綜述:方法與應(yīng)用

A Survey of Diffusion Models: Methods and Applications

https://www.mdpi.com/2076-3417/16/5/2482

摘要：

擴(kuò)散模型已成為最先進(jìn)的生成式范式，在合成高保真圖像、視頻和音頻方面超越了生成對抗網(wǎng)絡(luò)（GANs）。然而，其對迭代去噪過程的依賴帶來了顯著的計(jì)算負(fù)擔(dān)與內(nèi)存開銷，構(gòu)成了其在資源受限的邊緣設(shè)備上部署的重要障礙。與現(xiàn)有廣泛涵蓋通用方法的綜述不同，本文提供了一篇聚焦性的綜述，特別強(qiáng)調(diào)高效與輕量級的擴(kuò)散模型。我們系統(tǒng)性地分析了生成質(zhì)量與計(jì)算成本之間的權(quán)衡，將加速技術(shù)歸類為采樣優(yōu)化、架構(gòu)壓縮與知識蒸餾。此外，我們探討了擴(kuò)散模型與新興架構(gòu)（例如 Mamba）的融合，以及其向通用世界模擬器方向的演進(jìn)。本綜述旨在為"綠色人工智能"提供一條技術(shù)路線圖，彌合高端學(xué)術(shù)研究與實(shí)際現(xiàn)實(shí)應(yīng)用之間的差距。

關(guān)鍵詞：生成式模型；擴(kuò)散模型；輕量級架構(gòu)；邊緣計(jì)算；擴(kuò)散模型的應(yīng)用；效率

引言

近年來，生成式模型在視覺與跨模態(tài)任務(wù)中進(jìn)入了發(fā)展快車道。在擴(kuò)散模型興起之前，主要有三種主流模型：生成對抗網(wǎng)絡(luò)（GANs）、變分自編碼器（VAEs）以及基于流的模型（flow-based models）。GANs 通過生成器與判別器之間的對抗博弈進(jìn)行訓(xùn)練，能夠生成非常清晰且逼真的圖像 [1]。然而，其訓(xùn)練過程極其敏感且不穩(wěn)定，常常面臨模式崩潰（mode collapse）問題，即對抗模型中的生成器只能產(chǎn)生有限種類的樣本，無法覆蓋完整的數(shù)據(jù)分布。VAEs 以變分推斷為基礎(chǔ)，通過最大化證據(jù)下界（ELBO）來學(xué)習(xí)數(shù)據(jù)的潛在表征，Kingma 與 Welling [2]。其訓(xùn)練過程穩(wěn)定，但由于優(yōu)化目標(biāo)中保真項(xiàng)與正則化項(xiàng)之間的權(quán)衡，所生成的樣本（尤其是圖像）往往顯得略微模糊。基于流的模型利用一系列可逆變換將簡單分布（如高斯分布）映射到復(fù)雜數(shù)據(jù)分布上，從而實(shí)現(xiàn)數(shù)據(jù)似然的精確計(jì)算 [3]。然而，其架構(gòu)設(shè)計(jì)受限于可逆性要求，計(jì)算成本高昂，且在處理高維數(shù)據(jù)（如高分辨率圖像）時(shí)，性能通常遜于 GANs。這些模型共同面臨著在生成質(zhì)量、多樣性與訓(xùn)練穩(wěn)定性之間取得平衡的挑戰(zhàn)。因此，研究人員亟需一種新型模型，能夠同時(shí)確保生成質(zhì)量、訓(xùn)練穩(wěn)定性以及對數(shù)據(jù)分布空間的全面覆蓋。如圖 1 所示，與依賴對抗學(xué)習(xí)或顯式潛在映射的 GANs、VAEs 及基于流的模型不同，擴(kuò)散模型通過學(xué)習(xí)逆轉(zhuǎn)一個(gè)漸進(jìn)的噪聲退化過程，引入了一種范式轉(zhuǎn)變。

擴(kuò)散模型的概念最初由 Sohl-Dickstein 等人 [5] 提出，其靈感來源于物理學(xué)中的非平衡態(tài)熱力學(xué)。其核心概念極為簡潔優(yōu)雅：一個(gè)復(fù)雜的生成過程可以被分解為一系列極其簡單、漸進(jìn)式的去噪步驟。該過程包含兩個(gè)階段：首先，前向過程是一個(gè)固定的、不可學(xué)習(xí)的程序。它模擬數(shù)據(jù)退化過程，在多個(gè)時(shí)間步長內(nèi)逐步向原始數(shù)據(jù)注入少量高斯噪聲，直至數(shù)據(jù)最終轉(zhuǎn)化為純粹的標(biāo)準(zhǔn)正態(tài)分布噪聲。最后，反向過程構(gòu)成了模型的核心學(xué)習(xí)組件。它試圖逆轉(zhuǎn)前向過程，從純噪聲輸入開始，通過一系列去噪步驟逐步移除噪聲，最終重建出清晰、真實(shí)的樣本。得益于這一獨(dú)特機(jī)制，擴(kuò)散模型相較于其他模型具有以下優(yōu)勢：首先，擴(kuò)散模型展現(xiàn)出卓越的訓(xùn)練穩(wěn)定性。其訓(xùn)練目標(biāo)為最大似然估計(jì)或其代理目標(biāo)，不涉及對抗訓(xùn)練，從而使訓(xùn)練過程高度穩(wěn)定。其次，擴(kuò)散模型能夠生成高保真度的輸出。通過多步迭代去噪，模型能夠精細(xì)地捕捉數(shù)據(jù)細(xì)節(jié)，生成具有卓越保真度與顆粒度的樣本，在多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)于 GANs。最后，擴(kuò)散模型展現(xiàn)出強(qiáng)大的多樣性。由于其訓(xùn)練目標(biāo)是擬合整個(gè)數(shù)據(jù)分布，因此不易陷入模式崩潰，能夠生成多樣化的樣本。

擴(kuò)散模型憑借穩(wěn)定的訓(xùn)練過程與高保真生成能力已成為主流研究范式。學(xué)術(shù)界將該方法形式化為"前向加噪–反向去噪"的可逆過程。Ho 等人 [6] 基于離散馬爾可夫鏈給出了一個(gè)可操作的范式；Song 等人 [7] 則利用隨機(jī)微分方程（SDE）與概率流常微分方程（ODE）提供了連續(xù)性視角與理論統(tǒng)一性，而工程實(shí)踐將這兩條研究路線融合，形成了清晰的訓(xùn)練與采樣流程。為降低計(jì)算門檻，Rombach 等人 [8] 將去噪過程遷移至潛在空間，并通過交叉注意力機(jī)制接入文本條件，使實(shí)際系統(tǒng)能夠在高分辨率下穩(wěn)定運(yùn)行。可控性迅速成為核心需求：用戶不僅期望模型能夠理解文本，還希望其能夠遵循結(jié)構(gòu)信號，如邊緣、深度、姿態(tài)、布局，乃至音頻或參考圖像。為此，學(xué)術(shù)界提出了兩類控制機(jī)制。一類源于引導(dǎo)強(qiáng)度：Dhariwal 與 Nichol [9] 提出的分類器引導(dǎo)（classifier guidance）以及 Ho 與 Salimans [10] 提出的無分類器引導(dǎo)（classifier-free guidance），允許在保真度與多樣性之間進(jìn)行權(quán)衡調(diào)節(jié)。另一類源于結(jié)構(gòu)化條件：Zhang 與 Agrawala [11] 提出的 ControlNet 通過零卷積（zero convolution）將控制分支掛接至主干網(wǎng)絡(luò)，可組合多種條件輸入；Hertz [12] 則直接重寫交叉注意力熱力圖，以實(shí)現(xiàn)局部與細(xì)粒度編輯。視頻與 3D 任務(wù)進(jìn)一步增加了難度，長期一致性、身份穩(wěn)定性與成本控制相互制約。因此，研究人員采用"關(guān)鍵幀–插值–超分辨率"的級聯(lián)方案，并利用 DPM-Solver 與知識蒸餾技術(shù)減少采樣步數(shù)。在復(fù)現(xiàn)實(shí)驗(yàn)中，研究團(tuán)隊(duì)通常將采樣步數(shù)從 50–100 步縮減至 20–30 步，并通過 LoRA 或適配器（adapters）部署多種風(fēng)格與條件。這些實(shí)踐可顯著降低推理延遲，但也帶來了細(xì)節(jié)丟失與外觀僵化等副作用。

1.1. 與現(xiàn)有綜述的關(guān)系及貢獻(xiàn)

盡管 Yang 等人 [13] 與 Croitoru 等人 [14] 等綜合性綜述已對擴(kuò)散模型的整體格局提供了出色的概述，但它們主要聚焦于生成質(zhì)量與廣泛的應(yīng)用場景。隨著擴(kuò)散模型從學(xué)術(shù)研究向工業(yè)部署過渡，性能與資源消耗之間的權(quán)衡變得日益關(guān)鍵。本文的獨(dú)特之處在于優(yōu)先關(guān)注擴(kuò)散模型的效率與輕量級部署。我們的主要貢獻(xiàn)體現(xiàn)在三個(gè)方面：

我們提供了加速技術(shù)的專門分類體系，將其歸類為算法求解器、架構(gòu)壓縮與系統(tǒng)級輕量級范式。
我們彌合了高端基礎(chǔ)模型與邊緣端應(yīng)用之間的差距，強(qiáng)調(diào)了在移動設(shè)備與嵌入式設(shè)備上部署擴(kuò)散模型的策略。
我們對新興架構(gòu)（例如 Mamba/狀態(tài)空間模型）及其與大語言模型（LLMs）的融合提供了更新的視角，超越了傳統(tǒng)以 U-Net 為中心的觀點(diǎn)。

1.2. 論文組織結(jié)構(gòu)

本綜述的其余部分旨在引導(dǎo)讀者從理論基礎(chǔ)走向?qū)嵺`實(shí)現(xiàn)與未來趨勢。第 2 節(jié)統(tǒng)一了擴(kuò)散模型的理論基礎(chǔ)，整合了概率馬爾可夫鏈與連續(xù)微分方程兩種視角。基于這些理論支撐，第 3 節(jié)剖析了關(guān)鍵方法論，包括主干架構(gòu)的演進(jìn)與可控生成機(jī)制。隨后，第 4 節(jié)探討了不斷擴(kuò)展的應(yīng)用領(lǐng)域，涵蓋從二維圖像到復(fù)雜的三維、視頻與音頻內(nèi)容。本綜述的核心組成部分是第 5 節(jié)，該節(jié)對高效與輕量級擴(kuò)散模型進(jìn)行了深入分析，全面詳述了旨在降低計(jì)算開銷的量化、剪枝與蒸餾技術(shù)。在完成技術(shù)分析之后，第 6 節(jié)探討了相關(guān)的社會與倫理挑戰(zhàn)，而第 7 節(jié)則提出了未來的研究方向。最后，第 8 節(jié)給出總結(jié)性論述。

擴(kuò)散模型的基本原理

整體概率框架如圖 2 所示，其中反向過程 p θ 通過迭代移除噪聲以生成逼真樣本。

2.1. 前向過程

2.2. 反向過程

2.3. 訓(xùn)練目標(biāo)與損失函數(shù)

3.方法學(xué)

3.1. 基礎(chǔ)框架與架構(gòu)

3.1.1. DDPMs（去噪擴(kuò)散概率模型）

2020年，Ho 等人 [6] 提出的 DDPM 標(biāo)志著現(xiàn)代擴(kuò)散模型的一個(gè)里程碑。它不僅提出了前述簡潔的損失函數(shù)，還采用了 Ronneberger 等人 [15] 提出的 U-Net 架構(gòu)作為去噪網(wǎng)絡(luò)。U-Net 的編碼器–解碼器結(jié)構(gòu)和跳躍連接使其 exceptionally（極其）適合處理圖像中的局部和全局信息，從而能夠從噪聲圖像中有效地恢復(fù)結(jié)構(gòu)。DDPM 在圖像生成任務(wù)中取得了顯著成果，其輸出質(zhì)量首次在 CIFAR-10 等數(shù)據(jù)集上超越了當(dāng)時(shí)最先進(jìn)的 GAN 模型，正式宣告了擴(kuò)散模型時(shí)代的黎明。早期的 DDPM 主要依賴卷積 U-Net 架構(gòu)。然而，大約在 2022 年，擴(kuò)散模型的核心架構(gòu)經(jīng)歷了從 U-Net 到 Transformer 的深刻轉(zhuǎn)變。以 Peebles 和 Xie [16] 提出的 Diffusion Transformer (DiT) 為例，模型將圖像、視頻和其他數(shù)據(jù)視為時(shí)空補(bǔ)丁（spacetime patches）的序列，利用 Transformer 的長程依賴建模能力來學(xué)習(xí)復(fù)雜的時(shí)空關(guān)系。

3.1.2. 從離散馬爾可夫鏈到連續(xù) SDE 和 ODE

當(dāng)將擴(kuò)散過程寫為 SDE 時(shí)，有一個(gè)重要的推論：只要知道每個(gè)噪聲尺度的分?jǐn)?shù)（scores），就可以寫出一個(gè)逆時(shí)間 SDE，通過沿其模擬，就可以回到數(shù)據(jù)分布 [7]。同一組邊緣分布也對應(yīng)一個(gè)確定性概率 ODE。如果使用 ODE，可以使用更大的步長和高階數(shù)值積分器，從而減少函數(shù)評估次數(shù)。EDM 清楚地表明，使用 Heun 二階方法，并配合適當(dāng)?shù)?sigma 采樣分布和損失權(quán)重，可以提高穩(wěn)定性和速度 [18]。這引出了一個(gè)問題：SDE 的“預(yù)測器–校正器”（predictor-corrector）與 ODE 的“高階求解器”（higher-order solver）哪個(gè)更好？實(shí)踐表明，如果目標(biāo)是感知質(zhì)量和更少的生成步數(shù)，結(jié)合 DPM-Solver 或 Heun 等的概率 ODE 更合適；但如果目標(biāo)是嚴(yán)格的似然評估或需要注入隨機(jī)性，SDE 和 PC 采樣更靈活，而上述離散方法側(cè)重于實(shí)際實(shí)現(xiàn)。Song 等人 [20] 建立了嚴(yán)格的理論基礎(chǔ)，他們證明了隨著時(shí)間步數(shù)趨于無窮大 ( T → ∞ )，離散擴(kuò)散過程收斂于連續(xù)時(shí)間隨機(jī)微分方程 (SDE)。前向過程可以建模為一個(gè) It? 過程：

如圖 3 所示，該常微分方程（ODE）在數(shù)據(jù)分布與潛在噪聲之間建立了一種平滑且雙射的映射。這一視角不僅統(tǒng)一了去噪擴(kuò)散概率模型（DDPMs）與基于分?jǐn)?shù)的模型，而且還使得能夠使用高級數(shù)值求解器（例如 DPM-Solver [23]）進(jìn)行快速采樣，與傳統(tǒng)方法相比，顯著減少了所需的推理步數(shù)。

3.1.3. 主干架構(gòu)與條件注入

目前，U-Net 仍然是擴(kuò)散模型中的主導(dǎo)主干架構(gòu)。它具有兩個(gè)實(shí)際優(yōu)勢：多尺度特征和跳躍連接能夠保留局部細(xì)節(jié)，同時(shí)卷積的感受野和計(jì)算模式對高分辨率圖像非常友好。擴(kuò)散模型版本的 U-Net 通常包含時(shí)間嵌入（正弦位置編碼加感知機(jī)）、歸一化層（通常使用組歸一化）以及交叉注意力層（用于接收文本或其他模態(tài)信息）。許多項(xiàng)目還利用通道的縮放和偏置參數(shù)，類似于 FiLM 技術(shù)，將條件注入到每一層歸一化中 [8,15]。Transformer 主干架構(gòu)帶來了另一種平衡。DiT 將圖像分塊與位置和時(shí)間標(biāo)記相結(jié)合，將去噪過程視為序列建模；U-ViT 和 MDT 分別證明了長跳躍連接和掩碼訓(xùn)練有助于提升穩(wěn)定性 [24,25]。在實(shí)際項(xiàng)目中，Transformer 能夠?qū)崿F(xiàn)更好的可擴(kuò)展性和分布外泛化能力，但代價(jià)是二次復(fù)雜度和內(nèi)存開銷。因此，許多團(tuán)隊(duì)在處理高分辨率任務(wù)時(shí)以 U-Net 為基礎(chǔ)，而在多模態(tài)對齊或全局建模的均衡設(shè)計(jì)中采用 Transformer，這在視頻和 3D 任務(wù)中更為常見。從可控性的角度來看，主干架構(gòu)中最常用的三個(gè)關(guān)鍵機(jī)制是：交叉注意力（用于接入文本或語義序列）、歸一化調(diào)制（利用條件生成的縮放/偏置參數(shù)來控制通道）以及旁路控制分支（例如 ControlNet 的零卷積注入）。這三個(gè)關(guān)鍵機(jī)制的選擇取決于條件的形式：例如，語義類條件更適合交叉注意力，結(jié)構(gòu)類條件（邊緣、深度、姿態(tài)）更適合空間對齊和旁路特征，而混合類條件通常結(jié)合使用 [11]。

3.2. 采樣加速與效率

為了提供對主干架構(gòu)進(jìn)展的結(jié)構(gòu)化概述，我們在圖 4 中展示了架構(gòu)的演進(jìn)過程，該圖描繪了從傳統(tǒng)的基于 CNN 的 U-Net 和基于 Transformer 的 DiT 向新興的 SSM 框架的轉(zhuǎn)變。

3.2.1. 速度與效率的突破

緩慢的采樣速度構(gòu)成了早期擴(kuò)散模型（如 DDPM）的核心限制。Song [7] 提出的去噪擴(kuò)散隱式模型（DDIM）代表了該領(lǐng)域最具影響力的工作之一。DDIM 表明，支撐 DDPM 的馬爾可夫鏈假設(shè)并非必不可少，其通過非馬爾可夫前向過程實(shí)現(xiàn)了更快的采樣。它引入了一個(gè)額外的參數(shù) η；當(dāng) η = 1 時(shí)，采樣過程等價(jià)于 DDPM。當(dāng) η = 0 時(shí)，它變?yōu)橐环N稱為隱式模型的確定性生成過程。這使得 DDIM 僅需數(shù)十步即可生成與 DDPM 千步采樣質(zhì)量相當(dāng)或更優(yōu)的圖像，生成速度提升了 10 至 50 倍，顯著增強(qiáng)了擴(kuò)散模型的實(shí)用性。盡管 DDIM 等技術(shù)實(shí)現(xiàn)了初步加速，但跨越數(shù)十步的迭代對于實(shí)時(shí)應(yīng)用而言仍然過于遲緩。近期研究的一個(gè)核心焦點(diǎn)是將生成速度推向極限，通過單步或少步過程實(shí)現(xiàn)高質(zhì)量輸出 [26]。Kim 等人 [26] 提出了一種稱為一致性模型（Consistency Models）的訓(xùn)練范式，旨在直接學(xué)習(xí)從任意噪聲點(diǎn)到生成樣本的一致性軌跡的終點(diǎn)。通過一種稱為一致性蒸餾（Consistency Distillation）的技術(shù)，訓(xùn)練好的多步擴(kuò)散模型可以被蒸餾為能夠在單步內(nèi)生成高質(zhì)量圖像的模型。類似地，流匹配（Flow Matching）的理論框架將擴(kuò)散過程重新表述為常微分方程（ODE）。它專注于學(xué)習(xí)一條從噪聲分布到數(shù)據(jù)分布的“更直”的路徑，從而規(guī)避了傳統(tǒng)擴(kuò)散模型固有的彎曲、低效的采樣軌跡。通過學(xué)習(xí)這種優(yōu)化的映射，修正流模型能夠在最少步數(shù)內(nèi)實(shí)現(xiàn)高質(zhì)量生成，同時(shí)保持理論上的優(yōu)雅性與可解釋性 [27]。這些技術(shù)的成熟預(yù)示著擴(kuò)散模型將徹底擺脫“遲緩”的標(biāo)簽，將其應(yīng)用從離線內(nèi)容創(chuàng)作擴(kuò)展到交互式設(shè)計(jì)、實(shí)時(shí)渲染乃至更廣闊的領(lǐng)域。同年，Wang 等人 [28] 提出了一種名為 Diffusion-GAN 的新型 GAN 框架。該方法利用預(yù)訓(xùn)練的擴(kuò)散模型作為“教師”，通過對抗訓(xùn)練將教師模型的多步生成能力蒸餾至單步生成器（即“學(xué)生”模型）中。該方法在 ImageNet 等基準(zhǔn)測試上取得了出色的單步 FID 分?jǐn)?shù)，標(biāo)志著單步生成質(zhì)量邁上了新高峰。

3.2.2. 采樣與加速

DDIM 將反向過程表示為確定性映射，使得僅需十幾步即可獲得良好的結(jié)果 [29]。隨后，PNDM、DEIS、EDM 以及 DPM-Solver 系列將常微分方程的數(shù)值方法引入擴(kuò)散采樣中，減少了誤差累積并降低了所需步數(shù) [30,31]。這些方法逐漸成為了視頻與高分辨率生成的通用加速器。當(dāng)單步生成仍然較慢時(shí)，研究人員采用蒸餾方法，通過逐步合并兩步并循環(huán)多輪，將 50–100 步縮減至個(gè)位數(shù) [10]。盡管引導(dǎo)蒸餾（guided distillation）也可行，但它需要處理與引導(dǎo)強(qiáng)度和分布漂移相關(guān)的問題 [32]。在多模態(tài)場景中，一種常見做法是先使用高階求解器將步數(shù)減少至 10–20 步，然后再進(jìn)行蒸餾，這可以顯著降低質(zhì)量損失。一些研究提出將迭代過程壓縮至單步或少步的一致性模型中，該方向在圖像任務(wù)中已取得可行結(jié)果，但針對大分辨率與視頻的最佳實(shí)踐仍在演進(jìn)中。

3.2.3. 訓(xùn)練目標(biāo)、采樣間隔與權(quán)重

許多項(xiàng)目已將所有時(shí)間步的損失權(quán)重改為根據(jù)信噪比（SNR）或 sigma 分布進(jìn)行采樣。這是因?yàn)樵肼晿O高或極低的樣本要么太難、要么太易，而平均權(quán)重會導(dǎo)致網(wǎng)絡(luò)在不相關(guān)的區(qū)間浪費(fèi)學(xué)習(xí)能力。最小 SNR 加權(quán)與 EDM 的損失公式均在不同數(shù)據(jù)集上展現(xiàn)出一致的改進(jìn) [19]。步長與時(shí)間步的選擇也具有顯著影響。在大多數(shù)實(shí)踐中，前密后疏的步長分配更為穩(wěn)定；在 ODE 求解器中，末端密集段可以減少最終偽影；在 SDE 的 PC 采樣中，校正步數(shù)不宜過多，否則時(shí)間成本將迅速上升 [18]。這些經(jīng)驗(yàn)看似零散，但在多模態(tài)可控性與視頻編輯中，它們往往決定了能否在 10–20 步內(nèi)達(dá)到標(biāo)準(zhǔn)。在實(shí)現(xiàn)層面還有兩點(diǎn)常被忽視。第一點(diǎn)是指數(shù)移動平均（EMA）權(quán)重幾乎是一個(gè)必要條件，尤其在少步采樣與蒸餾場景中。第二點(diǎn)是混合精度與梯度裁剪可顯著減少 NaN（非數(shù)字）與溢出問題，尤其在強(qiáng)引導(dǎo)與大批量設(shè)置中。這些實(shí)踐并非算法層面的貢獻(xiàn)，但它們往往決定了復(fù)現(xiàn)過程是否順利。

3.3. 可控生成機(jī)制

在本節(jié)中，我們回顧不同的可控生成機(jī)制。表 1 展示了可控生成機(jī)制的分類。

3.3.1. 條件生成與引導(dǎo)

3.3.2. 形式與目標(biāo)

可控性并非簡單地在模型外部添加另一層規(guī)則；相反，它將約束條件、偏好和先驗(yàn)知識集成到生成過程本身之中。語義、空間、身份和風(fēng)格是四種常見的高頻需求。它們對應(yīng)于不同的信息形式，并決定了不同的控制接口。

首先是語義控制。模型需要理解文本或類別，并在生成過程中保持語義一致性[9,17]。屬性不匹配和目標(biāo)缺失是常見的失敗模式，尤其在包含多個(gè)實(shí)體和長描述的場景中[37]。

其次是空間控制，包括布局、分割、邊緣、草圖、深度和姿態(tài)，其要求明確“何處出現(xiàn)何物”。這些條件通常以圖像或網(wǎng)格的形式給出[11]。對齊精度與局部細(xì)節(jié)是空間控制的關(guān)鍵點(diǎn)[38]。

然后是身份控制，它要求綁定到特定的個(gè)體或?qū)ο螅⒃谛聢鼍爸斜３制渫庥^與幾何結(jié)構(gòu)。這些方法通常使用少量圖像進(jìn)行微調(diào)或?qū)W習(xí)新的詞嵌入[34,35]。過擬合與語言漂移是身份控制的兩大主要風(fēng)險(xiǎn)[39,40]。

最后是風(fēng)格控制，用戶希望在不破壞布局與主體的前提下遷移材質(zhì)、筆觸或色調(diào)。常見實(shí)現(xiàn)包括能量引導(dǎo)、潛在空間方向調(diào)整和小參數(shù)適配[41,42]。

要判斷某項(xiàng)生成是否具備可控性，通常需要同時(shí)關(guān)注三個(gè)關(guān)鍵點(diǎn)：文本或條件的對齊程度、時(shí)空穩(wěn)定性，以及人眼的偏好與細(xì)節(jié)感知。單一指標(biāo)很少能解釋整個(gè)問題，這也是為什么學(xué)術(shù)界逐漸采用將指標(biāo)組與人工評估相結(jié)合這一實(shí)踐的實(shí)際原因[43]。

3.3.3. 控制機(jī)制

研究人員大致將控制機(jī)制分為三類。第一類是引導(dǎo)（guidance），第二類是條件注入（condition injection），第三類是對注意力與特征的顯式重寫。此外，研究人員還提出了個(gè)性化與低成本的微調(diào)方法。

首先是引導(dǎo)。Dhariwal 與 Nichol 提出了分類器引導(dǎo)（classifier guidance）[9]，作者提供了一個(gè)對噪聲魯棒的分類器以提供梯度，并將該梯度添加到分?jǐn)?shù)函數(shù)中，從而獲得更強(qiáng)的條件對齊能力。無分類器引導(dǎo)（Classifier-Free Guidance）源于 Ho 與 Salimans 的方法，通常被稱為無分類器引導(dǎo)。作者僅訓(xùn)練一個(gè)網(wǎng)絡(luò)，在訓(xùn)練期間以一定概率移除條件，同時(shí)線性組合條件輸出與無條件輸出，以平衡保真度與多樣性。

其次是條件注入與控制分支。Zhang 與 Agrawala [11] 提出了 ControlNet，作者將主干網(wǎng)絡(luò)中復(fù)制的卷積模塊作為控制分支，并通過零卷積（zero convolution）將分支特征注入主干網(wǎng)絡(luò)，以支持邊緣、深度、法線、分割、姿態(tài)等多種條件輸入。該技術(shù)有助于在不破壞原始能力的前提下使訓(xùn)練更加穩(wěn)定。文本條件則采用交叉注意力機(jī)制。Radford 等人 [44] 提出了 CLIP，作者將文本與圖像嵌入到同一空間中，而潛在擴(kuò)散模型則將文本特征作為鍵/值（Keys/Values）。U-Net 的中間特征作為查詢（Queries），從而實(shí)現(xiàn)語義對齊。

然后是對注意力的控制與無需訓(xùn)練的編輯（training-free editing）。Hertz 等人 [12] 提出了用于圖像編輯的交叉注意力控制（cross-attention control）概念，作者直接替換或重寫注意力熱力圖，以實(shí)現(xiàn)無需修改權(quán)重的細(xì)粒度編輯，該方法可用于結(jié)構(gòu)保持與風(fēng)格替換。Meng 等人 [45] 提出了 SDEdit，作者首先向輸入添加適度噪聲，然后沿?cái)U(kuò)散軌跡進(jìn)行去噪，從而在修復(fù)與風(fēng)格化任務(wù)中獲得穩(wěn)定結(jié)果。

最后是個(gè)性化與參數(shù)高效微調(diào)。Ruiz 等人提出了 DreamBooth [34]，作者將一個(gè)新概念通過同一詞語綁定到少量圖像上，保留主體的形狀與紋理，并使用文本控制場景。Gal 與 Alaluf 提出了文本反轉(zhuǎn)（Textual Inversion）[35]，作者僅優(yōu)化一個(gè)新詞的嵌入向量，使少量圖像能夠?qū)W習(xí)對象風(fēng)格或特征。Hu 等人 [36] 提出了 LoRA，作者采用低秩分解進(jìn)行微調(diào)，節(jié)省內(nèi)存與參數(shù)，該方法已廣泛應(yīng)用于圖像、視頻與音頻擴(kuò)散模型的適配與部署。Tewel 等人 [40] 提出了 Perfusion，作者使用極小的秩 -1 更新來鎖定概念與風(fēng)格，以維持合成質(zhì)量并減少遺忘。

3.3.4. 評估與基準(zhǔn)測試

在通用質(zhì)量指標(biāo)方面，F(xiàn)ID（Fréchet Inception Distance）和 KID（Kernel Inception Distance）用于衡量整體分布的接近程度，而 IS（Inception Score）更側(cè)重于樣本多樣性 [43]。在對齊與可控性方面，CLIPScore 和文本檢索準(zhǔn)確率可以反映語義匹配程度，而區(qū)域控制可以使用掩碼內(nèi)的 CLIP 相似度以及目標(biāo)檢測或分割的準(zhǔn)確率進(jìn)行評估。對于姿態(tài)與深度控制，可以使用關(guān)鍵點(diǎn)誤差和深度相關(guān)性進(jìn)行評估。對于視頻，需要 FVD（Fréchet Video Distance）和幀間一致性，可以使用閃爍率（flicker rate）和光流畸變誤差進(jìn)行評估 [46]。對于 3D 與多視角一致性，可以使用 Chamfer 距離、IoU（交并比）和新視角一致性進(jìn)行評估 [47]。在人工評估方面，研究人員傾向于同時(shí)使用雙盲偏好測試和多維問卷來評估對齊度、細(xì)節(jié)、穩(wěn)定性和整體偏好，這在風(fēng)格化與編輯任務(wù)中尤為重要 [17,48]。

應(yīng)用

在本節(jié)中，我們回顧擴(kuò)散模型的一些重要應(yīng)用。表 2 總結(jié)了代表性擴(kuò)散模型的應(yīng)用領(lǐng)域。

4.1. 圖像恢復(fù)

如果在退化過程中出現(xiàn)卷積模糊、下采樣或掩碼缺失，可以將一致性約束納入采樣循環(huán)中，使觀測值與先驗(yàn)共同決定軌跡。DDRM 使用預(yù)訓(xùn)練的去噪網(wǎng)絡(luò)作為先驗(yàn)，并為線性逆問題提供無監(jiān)督后驗(yàn)采樣，證明了數(shù)據(jù)一致性與先驗(yàn)去噪的可行性 [18]。DDNM 更進(jìn)一步，將重建分解為由觀測值決定的值域部分和由先驗(yàn)完成的零空間部分，無需再次訓(xùn)練模型。零樣本方法能夠處理超分辨率與去模糊問題 [56]。ILVR 通過低頻替換固定結(jié)構(gòu)對齊，允許高頻細(xì)節(jié)由先驗(yàn)填充 [57]。如果任務(wù)更側(cè)重于編輯而非嚴(yán)格求解，SDEdit 會在采樣中期注入弱噪聲，并沿引導(dǎo)提示收斂，從而無需重新訓(xùn)練模型即可實(shí)現(xiàn)穩(wěn)定修改 [45]。對于需要統(tǒng)一多任務(wù)的場景，Palette 將著色、恢復(fù)與解壓縮結(jié)合到一個(gè)條件框架中，展示了一個(gè)擴(kuò)散模型對應(yīng)多種恢復(fù)任務(wù)的可能性 [17]。GDP 將生成先驗(yàn)顯式建模為可采樣的后驗(yàn)分布，適應(yīng)線性、非線性與盲退化，涵蓋從去噪到多退化增強(qiáng)的廣泛需求 [55]。從實(shí)際觀察來看，訓(xùn)練好的通用圖像先驗(yàn)（例如基于 LDM 的權(quán)重）在遷移到存在分布偏移的數(shù)據(jù)（如遙感與醫(yī)學(xué)數(shù)據(jù)）時(shí)，可能會表現(xiàn)出風(fēng)格偏差或過度細(xì)節(jié)想象。在此類情況下，將一致性步驟前移并降低后期引導(dǎo)的強(qiáng)度，通常能在保留 LPIPS 視覺優(yōu)勢的同時(shí)，穩(wěn)定 PSNR 或 SSIM 結(jié)果。在評估指標(biāo)方面，恢復(fù)任務(wù)仍依賴 PSNR 與 SSIM，而 LPIPS 與 FID 則用于展示感知質(zhì)量與分布接近程度 [43,58]。

4.2. 二維圖像生成

文本到圖像生成是擴(kuò)散模型最廣受認(rèn)可的應(yīng)用。Ramesh 等人 [49] 開發(fā)的 DALL-E 2、Saharia 等人 [17] 提出的 Imagen，以及 Rombach 等人 [8] 引入的 Stable Diffusion 等模型，能夠生成與用戶提供的任何文本描述相匹配的詳細(xì)且富有創(chuàng)意的圖像。這些模型通常采用預(yù)訓(xùn)練的文本編碼器（例如 CLIP 的文本編碼器）將輸入文本轉(zhuǎn)換為嵌入向量。該向量隨后通過交叉注意力機(jī)制作為條件輸入注入 U-Net，從而引導(dǎo)圖像生成過程。該技術(shù)的進(jìn)步不僅改變了數(shù)字藝術(shù)與內(nèi)容創(chuàng)作的格局，也為設(shè)計(jì)、廣告和娛樂行業(yè)提供了強(qiáng)大的工具。

首先是從類別到圖像的轉(zhuǎn)換。類別條件擴(kuò)散模型是通用圖像生成的基礎(chǔ)。ADM 與 -G 通過在 CIFAR 和 ImageNet 數(shù)據(jù)集上采用分類器引導(dǎo)與架構(gòu)修改，實(shí)現(xiàn)了與 GAN 相當(dāng)?shù)?FID 與 IS 指標(biāo) [9]。CDM 采用級聯(lián)生成方式逐步提升分辨率，使細(xì)節(jié)與結(jié)構(gòu)更加穩(wěn)定 [10]。在主干架構(gòu)層面，LDM 將去噪過程遷移至 VAE 潛在空間，顯著降低了內(nèi)存與算力需求 [8]。DiT 與 MDT 則展示了 Transformer 在長程依賴建模與可擴(kuò)展性方面的潛力 [16]。在實(shí)際訓(xùn)練中，CFG 權(quán)重、步數(shù)與調(diào)度之間的耦合性很強(qiáng)。較高的 CFG 傾向于提升類別對齊度與清晰度，但會壓縮多樣性，這在少步推理中尤為明顯 [9]。因此，許多實(shí)驗(yàn)將 CFG 設(shè)為隨時(shí)間變化的曲線，并加密最后幾步的求解精度，以減少尾部過沖偽影，并與 DPM-Solver 的使用方式對齊 [18]。

其次是從文本到圖像的轉(zhuǎn)換。文本條件生成已形成結(jié)合交叉注意力、潛在空間與引導(dǎo)的標(biāo)準(zhǔn)范式。GLIDE 與 Imagen 展示了深度語言表征對語義對齊的助益 [9,17]。VQ-Diffusion、Parti 與 Muse 則從離散令牌化、自注意力擴(kuò)展與掩碼建模等角度呈現(xiàn)了不同的效率方案 [59–61]。盡管文本很重要，空間約束同樣關(guān)鍵。GLIGEN 在大型模型上集成文本邊界框，使物體放置具備可控性 [62]。ControlNet 利用可訓(xùn)練的旁路分支與零卷積，將邊緣、深度、姿態(tài)等條件注入每一層，實(shí)現(xiàn)文本與結(jié)構(gòu)的聯(lián)合控制 [11]。T2I-Adapter 提供了更輕量的適配接口，便于多條件組合 [33]。這些方法顯著降低了復(fù)雜場景（如多物體、多關(guān)系）中屬性不匹配與目標(biāo)遺漏的概率 [63]。

安全與對齊也是實(shí)驗(yàn)必須考慮的維度之一。Safe Latent Diffusion 與自蒸餾安全訓(xùn)練展示了緩解不當(dāng)內(nèi)容生成的方法，但模型–令牌–過濾的三重組合仍是主流方案 [64]。在評估方面，CLIPScore 與文本檢索準(zhǔn)確率的監(jiān)測在語義上保持一致。FID 與 KID 反映分布質(zhì)量。人工評估則負(fù)責(zé)對"是否可信"等主觀維度進(jìn)行評判，三者結(jié)合能更好地覆蓋真實(shí)使用場景 [43]。

4.3. 三維模型/內(nèi)容生成

擴(kuò)散模型也被用于從文本或二維圖像生成三維模型。Poole 等人 [50] 提出了一種稱為分?jǐn)?shù)蒸餾采樣（Score Distillation Sampling, SDS）的技術(shù)。其核心概念是利用預(yù)訓(xùn)練的二維文本到圖像擴(kuò)散模型作為知識源。在三維表征（例如來自 NeRF 的渲染視圖）上，SDS 計(jì)算一種損失函數(shù)，將二維擴(kuò)散模型中編碼的知識蒸餾至三維模型中。這引導(dǎo)三維模型朝著與文本描述一致的優(yōu)化方向演進(jìn)。因此，無需任何三維訓(xùn)練數(shù)據(jù)即可從文本生成高質(zhì)量三維資產(chǎn)，為游戲開發(fā)、虛擬現(xiàn)實(shí)（VR）與元宇宙構(gòu)建提供了全新路徑。

三維數(shù)據(jù)稀缺，直接在體素、點(diǎn)云與網(wǎng)格上應(yīng)用擴(kuò)散模型會導(dǎo)致極高的計(jì)算成本。SDS 與 SJC 提供了解決方案，即將二維擴(kuò)散的噪聲殘差或雅可比鏈反向傳播至三維表征（如 NeRF 或 SDF），使渲染的多視角圖像逐漸逼近條件文本 [50]。Magic3D 采用稀疏網(wǎng)格與可微分渲染，分粗到細(xì)兩階段提升速度與細(xì)節(jié) [51]。Fantasia3D 解耦幾何與外觀，并引入法線與材質(zhì)建模，使材質(zhì)真實(shí)感更佳 [42]。

單圖像到三維的轉(zhuǎn)換同樣重要。Zero-1-to-3 在相機(jī)條件上對二維擴(kuò)散模型進(jìn)行微調(diào)，用于新視角合成，并進(jìn)一步驅(qū)動三維優(yōu)化 [29]。在多視角一致性方面，SyncDreamer 學(xué)習(xí)跨視角的同步特征，與二維文本對及三維資產(chǎn)聯(lián)合訓(xùn)練以增強(qiáng)一致性 [65]。LAS-Diffusion 以 SDF 為中心，通過局部注意力與有符號距離場表征提升可控性與細(xì)節(jié) [66]。

三維評估通常聚焦于 Chamfer 距離、體素 IoU 與新視角一致性，而 GSO 等數(shù)據(jù)集提供了客觀標(biāo)準(zhǔn) [47]。基于 SDS 的優(yōu)化仍存在成本與穩(wěn)定性問題，例如因文本或風(fēng)格差異導(dǎo)致局部最優(yōu)或視角偽影。這些問題可通過更優(yōu)的渲染方法與幾何正則化逐步緩解。

4.4. 視頻生成與編輯

在圖像生成的基礎(chǔ)上，將擴(kuò)散模型擴(kuò)展至?xí)r間維度即可實(shí)現(xiàn)視頻生成。諸如 Sora（OpenAI）、Lumiere（Google）、Pika 和 Runway 等模型已展示出生成長達(dá)一分鐘、具有高分辨率、內(nèi)容連貫且動態(tài)流暢的視頻的能力。其核心挑戰(zhàn)在于有效建模時(shí)空一致性。一種常見方法是在 U-Net 架構(gòu)中融入時(shí)間模塊，例如 3D 卷積或時(shí)間注意力機(jī)制，從而同時(shí)處理空間與時(shí)間信息，確保生成視頻幀之間的連貫性。該技術(shù)預(yù)示著視頻制作、電影特效與虛擬世界構(gòu)建領(lǐng)域的范式轉(zhuǎn)變。

Li 等人 [38] 詳細(xì)介紹了一種稱為"Animate Anyone"的方法，該方法利用擴(kuò)散模型從靜態(tài)參考圖像與運(yùn)動序列中生成高度保真且時(shí)間連貫的角色動畫視頻，展示了擴(kuò)散模型在生成復(fù)雜動態(tài)內(nèi)容方面的先進(jìn)能力。

視頻生成的難點(diǎn)在于幀間一致性與運(yùn)動可解釋性。由于數(shù)據(jù)稀缺，許多系統(tǒng)選擇將圖像先驗(yàn)與輕量級時(shí)間層相結(jié)合的方法。MCVD 與 FDM 將擴(kuò)散應(yīng)用于預(yù)測與插值等條件任務(wù)，驗(yàn)證了其在中等與短序列上的可行性 [67,68]。對于文本到視頻生成，Make-A-Video 與 Imagen Video 均采用級聯(lián)方法：先生成低分辨率基礎(chǔ)序列，再進(jìn)行空間或時(shí)間超分辨率處理，顯著提升了時(shí)間一致性 [69]。Dreamix 展示了視頻編輯的路徑，利用目標(biāo)文本與低分辨率參考對視頻擴(kuò)散模型進(jìn)行微調(diào)，在保持外觀的同時(shí)改變語義 [70]。Latent Video Diffusion 將 LDM 的潛在空間方法遷移至視頻領(lǐng)域，節(jié)省內(nèi)存并使項(xiàng)目更易于部署 [71]。

條件控制在視頻中同樣重要。VideoComposer 將深度、草圖、光流等多種視覺條件集成到 U-Net 與潛在空間中，實(shí)現(xiàn)精細(xì)操控。ControlVideo 將 ControlNet 的空間控制擴(kuò)展至?xí)r間域且無需訓(xùn)練，通過跨幀交互減少抖動 [72]。實(shí)踐表明，共享初始噪聲、跨幀注意力以及"關(guān)鍵幀–插值–細(xì)化"流程有助于緩解閃爍問題。然而，身份漂移與長程依賴仍是視頻生成中持續(xù)涌現(xiàn)的挑戰(zhàn)。

評估通常采用 FVD 與 CLIP-SIM，觀察人眼是否感知到變化，因?yàn)榧兛陀^分?jǐn)?shù)無法完全捕捉閃爍與穩(wěn)定對比的主觀感受 [46]。

4.5. 音頻生成：從語音到音樂

盡管圖像與視頻生成聚焦于空間結(jié)構(gòu)，音頻生成則需應(yīng)對高時(shí)間分辨率一維信號的復(fù)雜性。早期基于擴(kuò)散的音頻模型，如 DiffWave [54] 與 WaveGrad [73]，專注于神經(jīng)聲碼器的作用，從以文本或語言特征為條件的梅爾頻譜圖中生成原始波形。這些模型在推理速度與合成質(zhì)量方面優(yōu)于 WaveNet 等傳統(tǒng)自回歸模型。

然而，從零開始生成復(fù)雜音頻（如音樂或環(huán)境音）需要對長程依賴進(jìn)行建模。受 Stable Diffusion 成功的啟發(fā)，AudioLDM [53] 將潛在擴(kuò)散方法引入音頻領(lǐng)域。通過使用 VAE 學(xué)習(xí)梅爾頻譜圖的連續(xù)潛在表征，并將擴(kuò)散過程以對比語言–音頻預(yù)訓(xùn)練（CLAP）嵌入為條件，AudioLDM 實(shí)現(xiàn)了最先進(jìn)的零樣本文本到音頻生成。這種"頻譜圖即圖像"的范式使模型能夠利用圖像修復(fù)技術(shù)進(jìn)行音頻恢復(fù)與風(fēng)格遷移。

最近，研究重點(diǎn)已轉(zhuǎn)向長格式音樂生成與高保真文本到語音（TTS）。MusicLM [52] 將音頻生成視為分層序列到序列建模任務(wù)，確保數(shù)分鐘音樂的連貫性。同時(shí)，像 Stable Audio 這樣的模型通常利用專為音頻設(shè)計(jì)的下采樣因子自編碼器來處理極高的采樣率，從而在局部紋理質(zhì)量與全局音樂結(jié)構(gòu)之間取得平衡。

高效與輕量級擴(kuò)散模型

盡管擴(kuò)散模型具有卓越的生成質(zhì)量，但其在現(xiàn)實(shí)場景中的部署往往受到兩個(gè)固有瓶頸的阻礙：迭代去噪過程的高計(jì)算成本，以及重型主干網(wǎng)絡(luò)帶來的巨大內(nèi)存占用。這些限制對于邊緣設(shè)備與實(shí)時(shí)應(yīng)用而言尤為嚴(yán)苛。因此，"綠色擴(kuò)散"——即在不犧牲保真度的前提下追求效率——已成為一個(gè)關(guān)鍵的研究前沿。

在本節(jié)中，我們對輕量級擴(kuò)散模型的最新進(jìn)展進(jìn)行全面綜述。我們將這些加速技術(shù)歸類為三大戰(zhàn)略支柱：

采樣加速：聚焦于先進(jìn)的常微分方程（ODE）求解器與調(diào)度策略，旨在將推理步數(shù)從數(shù)百步減少至數(shù)十步甚至個(gè)位數(shù)。
架構(gòu)壓縮：采用網(wǎng)絡(luò)剪枝、量化與結(jié)構(gòu)搜索等技術(shù)，以最小化參數(shù)量與內(nèi)存使用。
知識蒸餾：利用教師–學(xué)生框架，將多步擴(kuò)散軌跡壓縮至更少的步驟，從而實(shí)現(xiàn)快速推理。

為了對這些效率技術(shù)形成結(jié)構(gòu)化理解，我們在圖 5 中呈現(xiàn)了輕量級策略的分類體系，該體系將當(dāng)前方法歸類為采樣加速、架構(gòu)壓縮與數(shù)值優(yōu)化。以下子節(jié)將討論表 3 中總結(jié)的這些方法論如何應(yīng)對計(jì)算效率與生成性能之間的權(quán)衡。

5.1. 結(jié)構(gòu)效率與主干優(yōu)化

實(shí)現(xiàn)輕量化的最直接途徑是重構(gòu)腫的 U-Net 主干網(wǎng)絡(luò)。研究表明，通過引入混合架構(gòu)或?qū)Ｓ镁矸e，可以在保持生成質(zhì)量的同時(shí)顯著降低計(jì)算負(fù)載。Liu 與 Sun [74] 在通用圖像生成背景下提出了 MobileDiT 架構(gòu)。他們未使用傳統(tǒng)卷積，而是選擇 MobileViT 模塊作為核心組件。該設(shè)計(jì)十分巧妙：利用輕量級卷積處理局部細(xì)節(jié)，并利用 Transformer 捕捉全局結(jié)構(gòu)。為防止訓(xùn)練崩潰，他們還引入了 adaLN-Zero（自適應(yīng)層歸一化）模塊以穩(wěn)定信號。結(jié)果令人印象深刻：該模型在 ImageNet 上取得了 2.15 的 FID 分?jǐn)?shù)，參數(shù)量極低，且在生成效果上甚至超越了參數(shù)量更大的 StyleGAN-XL。

針對性結(jié)構(gòu)剪枝在特定任務(wù)中更為激進(jìn)。Cai 等人 [75] 針對偽裝目標(biāo)檢測開發(fā)了 L-DiffCOD。他們采用 PVTv2-B1 作為編碼器主干，并將所有標(biāo)準(zhǔn)卷積替換為深度可分離卷積。該操作使浮點(diǎn)運(yùn)算次數(shù)（FLOPs）降低了 47.45%，參數(shù)量減少了 75%，從而能夠在嵌入式設(shè)備上實(shí)時(shí)識別偽裝目標(biāo)。這一點(diǎn)也在網(wǎng)絡(luò)安全領(lǐng)域得到了 Li 等人 [79] 的驗(yàn)證。為了在邊緣節(jié)點(diǎn)合成惡意流量數(shù)據(jù)，他們同樣采用了深度可分離卷積技術(shù)。實(shí)驗(yàn)數(shù)據(jù)表明，該模型的乘加運(yùn)算次數(shù)（MACs）僅為基線模型的 20.39%，但仍能訓(xùn)練出準(zhǔn)確率達(dá) 92.34% 的分類器，這證明了輕量級模型足以捕捉復(fù)雜的流量特征。

在遙感圖像超分辨率方面，An 等人 [78] 完全摒棄了 U-Net。他們設(shè)計(jì)的 LWTDM 模型采用了一種基于交叉注意力的高效編碼器–解碼器結(jié)構(gòu)。通過引入輕量級嵌入模塊，他們避免了深層網(wǎng)絡(luò)的堆疊。為進(jìn)一步加速，他們結(jié)合 DDIM 跳步采樣將推理步數(shù)壓縮至 200 步以內(nèi)，滿足了衛(wèi)星數(shù)據(jù)處理的時(shí)效性要求。這些結(jié)構(gòu)優(yōu)化在大幅降低參數(shù)量與浮點(diǎn)運(yùn)算次數(shù)的同時(shí)，有效保持了生成質(zhì)量與任務(wù)精度，為擴(kuò)散模型在移動端、衛(wèi)星及嵌入式設(shè)備等資源受限環(huán)境中的實(shí)時(shí)部署奠定了基礎(chǔ)。

5.2. 量化與頻域?qū)W習(xí)

當(dāng)結(jié)構(gòu)優(yōu)化達(dá)到瓶頸時(shí)，降低數(shù)據(jù)精度或轉(zhuǎn)換處理域是另一條有效路徑。在語義通信中，Grassucci 等人 [76] 面臨嚴(yán)重的帶寬限制。他們提出了 Q-GESCO 框架，采用訓(xùn)練后量化（PTQ）將模型權(quán)重壓縮至 8 位。為了解決低位寬引起的累積誤差，他們創(chuàng)新性地使用了噪聲感知訓(xùn)練與時(shí)間步校準(zhǔn)。這使得內(nèi)存占用減少了 75%，且接收端重建的圖像在存在信道噪聲的情況下依然保持清晰。

自動駕駛領(lǐng)域的 FedDifftraj 模型由 Gao 等人 [80] 提出，專注于數(shù)據(jù)傳輸。在聯(lián)邦學(xué)習(xí)框架中，車載端的模型在上傳至服務(wù)器前進(jìn)行量化。這不僅節(jié)省了寶貴的車聯(lián)網(wǎng)（IoV）帶寬，還通過參數(shù)模糊化增強(qiáng)了用戶軌跡隱私的保護(hù)。

對于超大型醫(yī)學(xué)圖像，Wilms 等人 [81] 通過改變“戰(zhàn)場”避免了算力不足的問題。他們使用小波包變換處理 3D 腦部 MRI。該方法無損地降低了圖像的空間分辨率，并將計(jì)算轉(zhuǎn)移至頻域。這使得原本需要高端集群訓(xùn)練的 3D 條件擴(kuò)散模型能夠在單塊消費(fèi)級 GPU 上運(yùn)行，并生成可解釋的“反事實(shí)圖像”以輔助醫(yī)生。

在本節(jié)中，我們探討了架構(gòu)優(yōu)化之外的兩條關(guān)鍵路徑：利用訓(xùn)練后量化降低數(shù)值精度，可大幅減少顯存占用與通信帶寬，并增強(qiáng)聯(lián)邦學(xué)習(xí)中的隱私保護(hù)。同時(shí)，采用小波包變換等信號域轉(zhuǎn)換方法降低高維數(shù)據(jù)的空間分辨率，使得在消費(fèi)級硬件上訓(xùn)練大規(guī)模 3D 醫(yī)學(xué)成像模型成為可能。這些策略證明，在數(shù)值與頻域?qū)用娴膬?yōu)化是突破邊緣計(jì)算資源瓶頸的有效手段。

5.3. 生成增強(qiáng)的輕量級范式

這是一種系統(tǒng)級的輕量化方法：利用強(qiáng)大的擴(kuò)散模型在云端創(chuàng)建數(shù)據(jù)，賦能終端的小型模型。Tao 等人 [77] 在指靜脈識別中展示了這一思路。指靜脈數(shù)據(jù)通常難以獲取，導(dǎo)致識別模型容易過擬合。他們利用擴(kuò)散模型生成海量逼真的指靜脈圖像進(jìn)行數(shù)據(jù)增強(qiáng)。最終，在終端部署了一個(gè)僅含 2.15M 參數(shù)的雙分支輕量級網(wǎng)絡(luò)。該網(wǎng)絡(luò)集成了 E-MHSA（改進(jìn)的多頭自注意力）模塊，以極低的算力實(shí)現(xiàn)了高精度識別。

Li 等人 [82] 在戰(zhàn)場意圖識別中也采用了這一策略。他們專門開發(fā)了基于 Wasserstein 距離的 WDiffusion 模型，用于生成多元時(shí)間序列數(shù)據(jù)。這些合成數(shù)據(jù)被用于訓(xùn)練一個(gè)極簡的 GRU（門控循環(huán)單元）網(wǎng)絡(luò)。該方法表明，高質(zhì)量的合成數(shù)據(jù)可以彌補(bǔ)輕量級模型容量小的不足，使其泛化能力顯著提升。

Wang 等人 [83] 在病理學(xué)領(lǐng)域使用輕量級模型進(jìn)行圖像修復(fù)。他們構(gòu)建了一個(gè)專門設(shè)計(jì)的輕量級 Transformer 去噪網(wǎng)絡(luò)，用于去除組織學(xué)圖像中的折疊與氣泡偽影。與傳統(tǒng) CNN 相比，Transformer 能更好地理解細(xì)胞的全局排列，從而以更少的參數(shù)實(shí)現(xiàn)更高質(zhì)量的圖像恢復(fù)。

在本節(jié)中，我們闡述了系統(tǒng)級的輕量化策略，即利用擴(kuò)散模型生成高質(zhì)量合成數(shù)據(jù)以解決數(shù)據(jù)稀缺問題，進(jìn)而訓(xùn)練并賦能端到端的極簡模型（如 GRU 或輕量級 Transformer）。通過“數(shù)據(jù)轉(zhuǎn)化為算力”的理念，該范式證明海量逼真的合成樣本能夠彌補(bǔ)輕量級網(wǎng)絡(luò)容量小的短板，使其在指靜脈識別與戰(zhàn)場意圖判斷等任務(wù)中，以極低的參數(shù)量實(shí)現(xiàn)出色的泛化能力與識別精度。

挑戰(zhàn)與局限性

盡管擴(kuò)散模型已徹底改變了生成式人工智能，但其從學(xué)術(shù)研究向普適化部署的過渡也暴露出關(guān)鍵瓶頸。這些挑戰(zhàn)不僅僅是工程層面的障礙，更涉及計(jì)算效率、法律框架與社會倫理之間的復(fù)雜交織。本節(jié)將對這些局限性的三個(gè)主要維度進(jìn)行批判性分析。

6.1. 計(jì)算成本與環(huán)境可持續(xù)性

與單次前向傳播的 GAN 或 VAE 相比，擴(kuò)散模型最顯著的技術(shù)缺陷在于其固有的迭代推理過程，該過程需要評估神經(jīng)網(wǎng)絡(luò)數(shù)十至數(shù)百次以求解概率流常微分方程（ODE）或隨機(jī)微分方程（SDE）。盡管快速求解器（例如 DPM-Solver）與蒸餾技術(shù)的最新進(jìn)展已緩解了這一問題，但高分辨率生成仍然計(jì)算成本高昂，嚴(yán)重阻礙了視頻會議或交互式游戲等對毫秒級延遲有強(qiáng)制要求的實(shí)時(shí)應(yīng)用。

這種計(jì)算負(fù)擔(dān)不僅限于延遲問題，更引發(fā)了深刻的"綠色人工智能"困境：眾所周知，基礎(chǔ)模型的訓(xùn)練會排放大量二氧化碳，但推理階段的累積能源成本卻常被忽視，且更具隱蔽性。正如 Luccioni 等人 [84] 所強(qiáng)調(diào)的，隨著這些模型被部署至數(shù)百萬用戶，日常生成任務(wù)的能源消耗遠(yuǎn)超初始訓(xùn)練成本，對全球可持續(xù)發(fā)展目標(biāo)構(gòu)成了嚴(yán)峻挑戰(zhàn)。

此外，微調(diào)甚至部署最先進(jìn)模型所需的嚴(yán)格硬件條件造成了顯著的"算力鴻溝"，實(shí)際上將研究能力集中于資金充足的行業(yè)實(shí)驗(yàn)室，而邊緣化了無法獲得高性能 GPU 基礎(chǔ)設(shè)施的學(xué)術(shù)界與獨(dú)立研究者。

6.2. 知識產(chǎn)權(quán)、版權(quán)與數(shù)據(jù)來源

擴(kuò)散模型的訓(xùn)練范式以不加區(qū)分地抓取網(wǎng)絡(luò)上海量圖像為特征，這引發(fā)了關(guān)于知識產(chǎn)權(quán)（IP）法與創(chuàng)作者權(quán)利的深刻危機(jī)。盡管支持者常以"合理使用"（fair use）為辯護(hù)，聲稱這些模型學(xué)習(xí)的是類似于人類靈感的抽象表征，但實(shí)證證據(jù)呈現(xiàn)了相互矛盾的現(xiàn)實(shí)：具體而言，Carlini 等人 [85] 表明，擴(kuò)散模型傾向于記憶并復(fù)現(xiàn)訓(xùn)練數(shù)據(jù)。這種現(xiàn)象通常由對重復(fù)樣本的過擬合驅(qū)動，導(dǎo)致生成受保護(hù)作品的近乎相同副本，從而構(gòu)成潛在的版權(quán)侵權(quán)。

除了精確復(fù)制帶來的法律復(fù)雜性外，該技術(shù)還通過風(fēng)格模仿造成重大經(jīng)濟(jì)風(fēng)險(xiǎn)：模型能夠高保真地模仿在世藝術(shù)家的獨(dú)特美學(xué)風(fēng)格，使用戶無需向原創(chuàng)者支付報(bào)酬即可生成無限衍生作品。

因此，學(xué)術(shù)界正積極開發(fā)技術(shù)對策，范圍涵蓋從對抗性防御工具（如 Glaze [86]——通過施加人眼不可見的擾動來干擾風(fēng)格學(xué)習(xí)）到數(shù)據(jù)來源標(biāo)準(zhǔn)（如 C2PA 與不可見水印）；然而，這些歸屬方法在面對常見變換時(shí)的魯棒性仍是一個(gè)未解決的挑戰(zhàn)。

6.3. 偏見、安全與濫用

由于擴(kuò)散模型本質(zhì)上是對海量訓(xùn)練語料庫條件分布的近似，它們不可避免地會繼承并常常放大未加篩選的互聯(lián)網(wǎng)內(nèi)容中固有的偏見與毒性。這一現(xiàn)象在社會刻板印象的放大中尤為明顯：例如，Bianchi 等人 [87] 表明，文本到圖像模型經(jīng)常表現(xiàn)出嚴(yán)重的職業(yè)性別偏見（例如，默認(rèn)將高地位職業(yè)描繪為男性）與種族同質(zhì)化，從而在媒體與廣告部署中延續(xù)表征性傷害。

此外，潛在危害不僅限于被動偏見，更延伸至主動的惡意利用。在缺乏魯棒安全防護(hù)的情況下，這些生成工具可能被武器化，用于生成不適合工作場合（NSFW）的圖像、仇恨言論以及高度逼真的深度偽造（Deepfakes），這些內(nèi)容通過虛假信息活動對政治穩(wěn)定構(gòu)成重大威脅，并通過非自愿內(nèi)容侵犯個(gè)人隱私。

應(yīng)對這些風(fēng)險(xiǎn)呈現(xiàn)出復(fù)雜的安全–效用權(quán)衡：盡管當(dāng)前的緩解策略依賴于訓(xùn)練數(shù)據(jù)過濾或事后輸出檢查（例如基于 CLIP 的安全過濾器），但這些措施在面對對抗性攻擊時(shí)仍然脆弱。復(fù)雜的"越獄"提示詞往往能夠繞過限制，而過于激進(jìn)的過濾則可能帶來"對齊稅"（alignment tax）——削弱模型的多樣性，并使其對良性請求失去響應(yīng)能力。

未來研究方向

擴(kuò)散模型的快速演進(jìn)預(yù)示著其正從專用圖像生成器向通用人工智能的基礎(chǔ)構(gòu)建模塊轉(zhuǎn)變。我們確定了三個(gè)將塑造下一代生成式模型的關(guān)鍵方向。

7.1. 可擴(kuò)展架構(gòu)：從 Transformer 到狀態(tài)空間模型

盡管擴(kuò)散 Transformer（DiT）已成功取代 U-Net 成為高保真生成的主力，但它們面臨一個(gè)瓶頸：自注意力機(jī)制相對于序列長度的二次計(jì)算復(fù)雜度（O(n2)）。這對生成長視頻或高分辨率 3D 體素構(gòu)成了重大挑戰(zhàn)。最近，狀態(tài)空間模型（SSM），尤其是 Mamba [88]，已成為一種極具吸引力的替代方案。Mamba 引入了一種選擇性掃描機(jī)制，在保持 Transformer 建模能力的同時(shí)實(shí)現(xiàn)了線性擴(kuò)展（O(n)）。將 Mamba 集成到擴(kuò)散主干網(wǎng)絡(luò)中，為高效處理極長上下文提供了潛力。未來的研究可能會集中于混合架構(gòu)，將注意力的全局尋址能力與 SSM 的高效性相結(jié)合，從而在單次前向傳播中實(shí)現(xiàn)長達(dá)數(shù)分鐘的視頻或完整音樂作品的生成。

7.2. 推理與生成的融合（LLM + 擴(kuò)散）

當(dāng)前擴(kuò)散模型的一個(gè)主要局限是缺乏語義推理能力；它們基于統(tǒng)計(jì)相關(guān)性生成像素，而非基于對世界的理解。相反，大語言模型（LLM）擅長推理，但缺乏原生的感官輸出。Visual ChatGPT-3.5 [89] 等早期工作通過將 LLM 作為控制器來調(diào)用擴(kuò)散模型作為外部工具，彌合了這一差距。然而，該領(lǐng)域正朝著原生多模態(tài)融合的方向發(fā)展。未來的模型可能會在統(tǒng)一的令牌空間中運(yùn)行，其中視覺和音頻數(shù)據(jù)被量化（通過 VQ-VAE 或類似技術(shù)）并與文本交錯(cuò)排列。這將使單一基礎(chǔ)模型能夠理解復(fù)雜的多步指令、執(zhí)行空間推理，并生成一致的多模態(tài)輸出，從而有效模糊“理解”與“創(chuàng)造”之間的界限。

7.3. 邁向世界模擬器與涌現(xiàn)能力

縮放定律（Scaling laws）表明，增加模型規(guī)模與數(shù)據(jù)量會催生涌現(xiàn)能力。在視頻擴(kuò)散的背景下，模型開始充當(dāng)“世界模擬器”。通過觀察海量視頻數(shù)據(jù)，這些模型在沒有顯式監(jiān)督的情況下隱式地學(xué)習(xí)物理定律、物體恒存性與 3D 幾何。未來的研究可能會利用這一特性服務(wù)于具身人工智能與機(jī)器人技術(shù)。智能體可以在擴(kuò)散生成的世界模擬器內(nèi)進(jìn)行訓(xùn)練，從而替代依賴手工構(gòu)建的模擬環(huán)境，該模擬器能夠預(yù)測未來狀態(tài)及對動作的反應(yīng)。這代表了一種范式轉(zhuǎn)變：從為人類消費(fèi)生成媒體內(nèi)容，轉(zhuǎn)向?yàn)闄C(jī)器學(xué)習(xí)與科學(xué)模擬生成數(shù)據(jù)。

結(jié)論

本文對擴(kuò)散模型進(jìn)行了全面綜述，追溯了其從理論新奇事物到現(xiàn)代生成式人工智能骨干架構(gòu)的演進(jìn)歷程。我們綜合了實(shí)現(xiàn)高保真生成的核心原理，并對可控性與多模態(tài)合成的多樣化機(jī)制進(jìn)行了分類。我們分析的核心主題是向效率轉(zhuǎn)變的必然趨勢：盡管早期研究不惜代價(jià)地優(yōu)先追求生成質(zhì)量，但擴(kuò)散模型的未來在于"綠色人工智能"——使這些強(qiáng)大的模型變得可及且可持續(xù)。

通過對輕量級架構(gòu)、求解器加速與知識蒸餾的詳細(xì)綜述，可以明顯看出，在邊緣設(shè)備上部署擴(kuò)散模型不僅可行，而且正在快速推進(jìn)。

展望未來，擴(kuò)散模型與推理能力（大語言模型）及高效架構(gòu)（狀態(tài)空間模型）的融合，預(yù)示著構(gòu)建綜合性"世界模擬器"的發(fā)展軌跡。然而，實(shí)現(xiàn)這一愿景不僅需要在計(jì)算效率方面取得技術(shù)突破，還需要針對版權(quán)、偏見與安全等倫理挑戰(zhàn)提出魯棒的解決方案。

我們希望本綜述能為旨在彌合高性能生成與實(shí)際資源受限部署之間差距的研究人員提供一份有價(jià)值的路線圖。

原文鏈接：https://www.mdpi.com/2076-3417/16/5/2482

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.