擴(kuò)散模型綜述:方法與應(yīng)用
A Survey of Diffusion Models: Methods and Applications
https://www.mdpi.com/2076-3417/16/5/2482
![]()
摘要:
擴(kuò)散模型已成為最先進(jìn)的生成式范式,在合成高保真圖像、視頻和音頻方面超越了生成對抗網(wǎng)絡(luò)(GANs)。然而,其對迭代去噪過程的依賴帶來了顯著的計(jì)算負(fù)擔(dān)與內(nèi)存開銷,構(gòu)成了其在資源受限的邊緣設(shè)備上部署的重要障礙。與現(xiàn)有廣泛涵蓋通用方法的綜述不同,本文提供了一篇聚焦性的綜述,特別強(qiáng)調(diào)高效與輕量級的擴(kuò)散模型。我們系統(tǒng)性地分析了生成質(zhì)量與計(jì)算成本之間的權(quán)衡,將加速技術(shù)歸類為采樣優(yōu)化、架構(gòu)壓縮與知識蒸餾。此外,我們探討了擴(kuò)散模型與新興架構(gòu)(例如 Mamba)的融合,以及其向通用世界模擬器方向的演進(jìn)。本綜述旨在為"綠色人工智能"提供一條技術(shù)路線圖,彌合高端學(xué)術(shù)研究與實(shí)際現(xiàn)實(shí)應(yīng)用之間的差距。
關(guān)鍵詞:生成式模型;擴(kuò)散模型;輕量級架構(gòu);邊緣計(jì)算;擴(kuò)散模型的應(yīng)用;效率
- 引言
近年來,生成式模型在視覺與跨模態(tài)任務(wù)中進(jìn)入了發(fā)展快車道。在擴(kuò)散模型興起之前,主要有三種主流模型:生成對抗網(wǎng)絡(luò)(GANs)、變分自編碼器(VAEs)以及基于流的模型(flow-based models)。GANs 通過生成器與判別器之間的對抗博弈進(jìn)行訓(xùn)練,能夠生成非常清晰且逼真的圖像 [1]。然而,其訓(xùn)練過程極其敏感且不穩(wěn)定,常常面臨模式崩潰(mode collapse)問題,即對抗模型中的生成器只能產(chǎn)生有限種類的樣本,無法覆蓋完整的數(shù)據(jù)分布。VAEs 以變分推斷為基礎(chǔ),通過最大化證據(jù)下界(ELBO)來學(xué)習(xí)數(shù)據(jù)的潛在表征,Kingma 與 Welling [2]。其訓(xùn)練過程穩(wěn)定,但由于優(yōu)化目標(biāo)中保真項(xiàng)與正則化項(xiàng)之間的權(quán)衡,所生成的樣本(尤其是圖像)往往顯得略微模糊。基于流的模型利用一系列可逆變換將簡單分布(如高斯分布)映射到復(fù)雜數(shù)據(jù)分布上,從而實(shí)現(xiàn)數(shù)據(jù)似然的精確計(jì)算 [3]。然而,其架構(gòu)設(shè)計(jì)受限于可逆性要求,計(jì)算成本高昂,且在處理高維數(shù)據(jù)(如高分辨率圖像)時(shí),性能通常遜于 GANs。這些模型共同面臨著在生成質(zhì)量、多樣性與訓(xùn)練穩(wěn)定性之間取得平衡的挑戰(zhàn)。因此,研究人員亟需一種新型模型,能夠同時(shí)確保生成質(zhì)量、訓(xùn)練穩(wěn)定性以及對數(shù)據(jù)分布空間的全面覆蓋。如圖 1 所示,與依賴對抗學(xué)習(xí)或顯式潛在映射的 GANs、VAEs 及基于流的模型不同,擴(kuò)散模型通過學(xué)習(xí)逆轉(zhuǎn)一個(gè)漸進(jìn)的噪聲退化過程,引入了一種范式轉(zhuǎn)變。
![]()
擴(kuò)散模型的概念最初由 Sohl-Dickstein 等人 [5] 提出,其靈感來源于物理學(xué)中的非平衡態(tài)熱力學(xué)。其核心概念極為簡潔優(yōu)雅:一個(gè)復(fù)雜的生成過程可以被分解為一系列極其簡單、漸進(jìn)式的去噪步驟。該過程包含兩個(gè)階段:首先,前向過程是一個(gè)固定的、不可學(xué)習(xí)的程序。它模擬數(shù)據(jù)退化過程,在多個(gè)時(shí)間步長內(nèi)逐步向原始數(shù)據(jù)注入少量高斯噪聲,直至數(shù)據(jù)最終轉(zhuǎn)化為純粹的標(biāo)準(zhǔn)正態(tài)分布噪聲。最后,反向過程構(gòu)成了模型的核心學(xué)習(xí)組件。它試圖逆轉(zhuǎn)前向過程,從純噪聲輸入開始,通過一系列去噪步驟逐步移除噪聲,最終重建出清晰、真實(shí)的樣本。得益于這一獨(dú)特機(jī)制,擴(kuò)散模型相較于其他模型具有以下優(yōu)勢:首先,擴(kuò)散模型展現(xiàn)出卓越的訓(xùn)練穩(wěn)定性。其訓(xùn)練目標(biāo)為最大似然估計(jì)或其代理目標(biāo),不涉及對抗訓(xùn)練,從而使訓(xùn)練過程高度穩(wěn)定。其次,擴(kuò)散模型能夠生成高保真度的輸出。通過多步迭代去噪,模型能夠精細(xì)地捕捉數(shù)據(jù)細(xì)節(jié),生成具有卓越保真度與顆粒度的樣本,在多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)于 GANs。最后,擴(kuò)散模型展現(xiàn)出強(qiáng)大的多樣性。由于其訓(xùn)練目標(biāo)是擬合整個(gè)數(shù)據(jù)分布,因此不易陷入模式崩潰,能夠生成多樣化的樣本。
擴(kuò)散模型憑借穩(wěn)定的訓(xùn)練過程與高保真生成能力已成為主流研究范式。學(xué)術(shù)界將該方法形式化為"前向加噪–反向去噪"的可逆過程。Ho 等人 [6] 基于離散馬爾可夫鏈給出了一個(gè)可操作的范式;Song 等人 [7] 則利用隨機(jī)微分方程(SDE)與概率流常微分方程(ODE)提供了連續(xù)性視角與理論統(tǒng)一性,而工程實(shí)踐將這兩條研究路線融合,形成了清晰的訓(xùn)練與采樣流程。為降低計(jì)算門檻,Rombach 等人 [8] 將去噪過程遷移至潛在空間,并通過交叉注意力機(jī)制接入文本條件,使實(shí)際系統(tǒng)能夠在高分辨率下穩(wěn)定運(yùn)行。可控性迅速成為核心需求:用戶不僅期望模型能夠理解文本,還希望其能夠遵循結(jié)構(gòu)信號,如邊緣、深度、姿態(tài)、布局,乃至音頻或參考圖像。為此,學(xué)術(shù)界提出了兩類控制機(jī)制。一類源于引導(dǎo)強(qiáng)度:Dhariwal 與 Nichol [9] 提出的分類器引導(dǎo)(classifier guidance)以及 Ho 與 Salimans [10] 提出的無分類器引導(dǎo)(classifier-free guidance),允許在保真度與多樣性之間進(jìn)行權(quán)衡調(diào)節(jié)。另一類源于結(jié)構(gòu)化條件:Zhang 與 Agrawala [11] 提出的 ControlNet 通過零卷積(zero convolution)將控制分支掛接至主干網(wǎng)絡(luò),可組合多種條件輸入;Hertz [12] 則直接重寫交叉注意力熱力圖,以實(shí)現(xiàn)局部與細(xì)粒度編輯。視頻與 3D 任務(wù)進(jìn)一步增加了難度,長期一致性、身份穩(wěn)定性與成本控制相互制約。因此,研究人員采用"關(guān)鍵幀–插值–超分辨率"的級聯(lián)方案,并利用 DPM-Solver 與知識蒸餾技術(shù)減少采樣步數(shù)。在復(fù)現(xiàn)實(shí)驗(yàn)中,研究團(tuán)隊(duì)通常將采樣步數(shù)從 50–100 步縮減至 20–30 步,并通過 LoRA 或適配器(adapters)部署多種風(fēng)格與條件。這些實(shí)踐可顯著降低推理延遲,但也帶來了細(xì)節(jié)丟失與外觀僵化等副作用。
1.1. 與現(xiàn)有綜述的關(guān)系及貢獻(xiàn)
盡管 Yang 等人 [13] 與 Croitoru 等人 [14] 等綜合性綜述已對擴(kuò)散模型的整體格局提供了出色的概述,但它們主要聚焦于生成質(zhì)量與廣泛的應(yīng)用場景。隨著擴(kuò)散模型從學(xué)術(shù)研究向工業(yè)部署過渡,性能與資源消耗之間的權(quán)衡變得日益關(guān)鍵。本文的獨(dú)特之處在于優(yōu)先關(guān)注擴(kuò)散模型的效率與輕量級部署。我們的主要貢獻(xiàn)體現(xiàn)在三個(gè)方面:
- 我們提供了加速技術(shù)的專門分類體系,將其歸類為算法求解器、架構(gòu)壓縮與系統(tǒng)級輕量級范式。
- 我們彌合了高端基礎(chǔ)模型與邊緣端應(yīng)用之間的差距,強(qiáng)調(diào)了在移動設(shè)備與嵌入式設(shè)備上部署擴(kuò)散模型的策略。
- 我們對新興架構(gòu)(例如 Mamba/狀態(tài)空間模型)及其與大語言模型(LLMs)的融合提供了更新的視角,超越了傳統(tǒng)以 U-Net 為中心的觀點(diǎn)。
1.2. 論文組織結(jié)構(gòu)
本綜述的其余部分旨在引導(dǎo)讀者從理論基礎(chǔ)走向?qū)嵺`實(shí)現(xiàn)與未來趨勢。第 2 節(jié)統(tǒng)一了擴(kuò)散模型的理論基礎(chǔ),整合了概率馬爾可夫鏈與連續(xù)微分方程兩種視角。基于這些理論支撐,第 3 節(jié)剖析了關(guān)鍵方法論,包括主干架構(gòu)的演進(jìn)與可控生成機(jī)制。隨后,第 4 節(jié)探討了不斷擴(kuò)展的應(yīng)用領(lǐng)域,涵蓋從二維圖像到復(fù)雜的三維、視頻與音頻內(nèi)容。本綜述的核心組成部分是第 5 節(jié),該節(jié)對高效與輕量級擴(kuò)散模型進(jìn)行了深入分析,全面詳述了旨在降低計(jì)算開銷的量化、剪枝與蒸餾技術(shù)。在完成技術(shù)分析之后,第 6 節(jié)探討了相關(guān)的社會與倫理挑戰(zhàn),而第 7 節(jié)則提出了未來的研究方向。最后,第 8 節(jié)給出總結(jié)性論述。
- 擴(kuò)散模型的基本原理
整體概率框架如圖 2 所示,其中反向過程 p θ 通過迭代移除噪聲以生成逼真樣本。
![]()
2.1. 前向過程
![]()
![]()
2.2. 反向過程
![]()
![]()
2.3. 訓(xùn)練目標(biāo)與損失函數(shù)
![]()
![]()
3.方法學(xué)
3.1. 基礎(chǔ)框架與架構(gòu)
3.1.1. DDPMs(去噪擴(kuò)散概率模型)
2020年,Ho 等人 [6] 提出的 DDPM 標(biāo)志著現(xiàn)代擴(kuò)散模型的一個(gè)里程碑。它不僅提出了前述簡潔的損失函數(shù),還采用了 Ronneberger 等人 [15] 提出的 U-Net 架構(gòu)作為去噪網(wǎng)絡(luò)。U-Net 的編碼器–解碼器結(jié)構(gòu)和跳躍連接使其 exceptionally(極其)適合處理圖像中的局部和全局信息,從而能夠從噪聲圖像中有效地恢復(fù)結(jié)構(gòu)。DDPM 在圖像生成任務(wù)中取得了顯著成果,其輸出質(zhì)量首次在 CIFAR-10 等數(shù)據(jù)集上超越了當(dāng)時(shí)最先進(jìn)的 GAN 模型,正式宣告了擴(kuò)散模型時(shí)代的黎明。早期的 DDPM 主要依賴卷積 U-Net 架構(gòu)。然而,大約在 2022 年,擴(kuò)散模型的核心架構(gòu)經(jīng)歷了從 U-Net 到 Transformer 的深刻轉(zhuǎn)變。以 Peebles 和 Xie [16] 提出的 Diffusion Transformer (DiT) 為例,模型將圖像、視頻和其他數(shù)據(jù)視為時(shí)空補(bǔ)丁(spacetime patches)的序列,利用 Transformer 的長程依賴建模能力來學(xué)習(xí)復(fù)雜的時(shí)空關(guān)系。
3.1.2. 從離散馬爾可夫鏈到連續(xù) SDE 和 ODE
![]()
當(dāng)將擴(kuò)散過程寫為 SDE 時(shí),有一個(gè)重要的推論:只要知道每個(gè)噪聲尺度的分?jǐn)?shù)(scores),就可以寫出一個(gè)逆時(shí)間 SDE,通過沿其模擬,就可以回到數(shù)據(jù)分布 [7]。同一組邊緣分布也對應(yīng)一個(gè)確定性概率 ODE。如果使用 ODE,可以使用更大的步長和高階數(shù)值積分器,從而減少函數(shù)評估次數(shù)。EDM 清楚地表明,使用 Heun 二階方法,并配合適當(dāng)?shù)?sigma 采樣分布和損失權(quán)重,可以提高穩(wěn)定性和速度 [18]。這引出了一個(gè)問題:SDE 的“預(yù)測器–校正器”(predictor-corrector)與 ODE 的“高階求解器”(higher-order solver)哪個(gè)更好?實(shí)踐表明,如果目標(biāo)是感知質(zhì)量和更少的生成步數(shù),結(jié)合 DPM-Solver 或 Heun 等的概率 ODE 更合適;但如果目標(biāo)是嚴(yán)格的似然評估或需要注入隨機(jī)性,SDE 和 PC 采樣更靈活,而上述離散方法側(cè)重于實(shí)際實(shí)現(xiàn)。Song 等人 [20] 建立了嚴(yán)格的理論基礎(chǔ),他們證明了隨著時(shí)間步數(shù)趨于無窮大 ( T → ∞ ),離散擴(kuò)散過程收斂于連續(xù)時(shí)間隨機(jī)微分方程 (SDE)。前向過程可以建模為一個(gè) It? 過程:
![]()
![]()
![]()
如圖 3 所示,該常微分方程(ODE)在數(shù)據(jù)分布與潛在噪聲之間建立了一種平滑且雙射的映射。這一視角不僅統(tǒng)一了去噪擴(kuò)散概率模型(DDPMs)與基于分?jǐn)?shù)的模型,而且還使得能夠使用高級數(shù)值求解器(例如 DPM-Solver [23])進(jìn)行快速采樣,與傳統(tǒng)方法相比,顯著減少了所需的推理步數(shù)。
![]()
3.1.3. 主干架構(gòu)與條件注入
目前,U-Net 仍然是擴(kuò)散模型中的主導(dǎo)主干架構(gòu)。它具有兩個(gè)實(shí)際優(yōu)勢:多尺度特征和跳躍連接能夠保留局部細(xì)節(jié),同時(shí)卷積的感受野和計(jì)算模式對高分辨率圖像非常友好。擴(kuò)散模型版本的 U-Net 通常包含時(shí)間嵌入(正弦位置編碼加感知機(jī))、歸一化層(通常使用組歸一化)以及交叉注意力層(用于接收文本或其他模態(tài)信息)。許多項(xiàng)目還利用通道的縮放和偏置參數(shù),類似于 FiLM 技術(shù),將條件注入到每一層歸一化中 [8,15]。Transformer 主干架構(gòu)帶來了另一種平衡。DiT 將圖像分塊與位置和時(shí)間標(biāo)記相結(jié)合,將去噪過程視為序列建模;U-ViT 和 MDT 分別證明了長跳躍連接和掩碼訓(xùn)練有助于提升穩(wěn)定性 [24,25]。在實(shí)際項(xiàng)目中,Transformer 能夠?qū)崿F(xiàn)更好的可擴(kuò)展性和分布外泛化能力,但代價(jià)是二次復(fù)雜度和內(nèi)存開銷。因此,許多團(tuán)隊(duì)在處理高分辨率任務(wù)時(shí)以 U-Net 為基礎(chǔ),而在多模態(tài)對齊或全局建模的均衡設(shè)計(jì)中采用 Transformer,這在視頻和 3D 任務(wù)中更為常見。從可控性的角度來看,主干架構(gòu)中最常用的三個(gè)關(guān)鍵機(jī)制是:交叉注意力(用于接入文本或語義序列)、歸一化調(diào)制(利用條件生成的縮放/偏置參數(shù)來控制通道)以及旁路控制分支(例如 ControlNet 的零卷積注入)。這三個(gè)關(guān)鍵機(jī)制的選擇取決于條件的形式:例如,語義類條件更適合交叉注意力,結(jié)構(gòu)類條件(邊緣、深度、姿態(tài))更適合空間對齊和旁路特征,而混合類條件通常結(jié)合使用 [11]。
3.2. 采樣加速與效率
為了提供對主干架構(gòu)進(jìn)展的結(jié)構(gòu)化概述,我們在圖 4 中展示了架構(gòu)的演進(jìn)過程,該圖描繪了從傳統(tǒng)的基于 CNN 的 U-Net 和基于 Transformer 的 DiT 向新興的 SSM 框架的轉(zhuǎn)變。
![]()
3.2.1. 速度與效率的突破
緩慢的采樣速度構(gòu)成了早期擴(kuò)散模型(如 DDPM)的核心限制。Song [7] 提出的去噪擴(kuò)散隱式模型(DDIM)代表了該領(lǐng)域最具影響力的工作之一。DDIM 表明,支撐 DDPM 的馬爾可夫鏈假設(shè)并非必不可少,其通過非馬爾可夫前向過程實(shí)現(xiàn)了更快的采樣。它引入了一個(gè)額外的參數(shù) η;當(dāng) η = 1 時(shí),采樣過程等價(jià)于 DDPM。當(dāng) η = 0 時(shí),它變?yōu)橐环N稱為隱式模型的確定性生成過程。這使得 DDIM 僅需數(shù)十步即可生成與 DDPM 千步采樣質(zhì)量相當(dāng)或更優(yōu)的圖像,生成速度提升了 10 至 50 倍,顯著增強(qiáng)了擴(kuò)散模型的實(shí)用性。盡管 DDIM 等技術(shù)實(shí)現(xiàn)了初步加速,但跨越數(shù)十步的迭代對于實(shí)時(shí)應(yīng)用而言仍然過于遲緩。近期研究的一個(gè)核心焦點(diǎn)是將生成速度推向極限,通過單步或少步過程實(shí)現(xiàn)高質(zhì)量輸出 [26]。Kim 等人 [26] 提出了一種稱為一致性模型(Consistency Models)的訓(xùn)練范式,旨在直接學(xué)習(xí)從任意噪聲點(diǎn)到生成樣本的一致性軌跡的終點(diǎn)。通過一種稱為一致性蒸餾(Consistency Distillation)的技術(shù),訓(xùn)練好的多步擴(kuò)散模型可以被蒸餾為能夠在單步內(nèi)生成高質(zhì)量圖像的模型。類似地,流匹配(Flow Matching)的理論框架將擴(kuò)散過程重新表述為常微分方程(ODE)。它專注于學(xué)習(xí)一條從噪聲分布到數(shù)據(jù)分布的“更直”的路徑,從而規(guī)避了傳統(tǒng)擴(kuò)散模型固有的彎曲、低效的采樣軌跡。通過學(xué)習(xí)這種優(yōu)化的映射,修正流模型能夠在最少步數(shù)內(nèi)實(shí)現(xiàn)高質(zhì)量生成,同時(shí)保持理論上的優(yōu)雅性與可解釋性 [27]。這些技術(shù)的成熟預(yù)示著擴(kuò)散模型將徹底擺脫“遲緩”的標(biāo)簽,將其應(yīng)用從離線內(nèi)容創(chuàng)作擴(kuò)展到交互式設(shè)計(jì)、實(shí)時(shí)渲染乃至更廣闊的領(lǐng)域。同年,Wang 等人 [28] 提出了一種名為 Diffusion-GAN 的新型 GAN 框架。該方法利用預(yù)訓(xùn)練的擴(kuò)散模型作為“教師”,通過對抗訓(xùn)練將教師模型的多步生成能力蒸餾至單步生成器(即“學(xué)生”模型)中。該方法在 ImageNet 等基準(zhǔn)測試上取得了出色的單步 FID 分?jǐn)?shù),標(biāo)志著單步生成質(zhì)量邁上了新高峰。
3.2.2. 采樣與加速
DDIM 將反向過程表示為確定性映射,使得僅需十幾步即可獲得良好的結(jié)果 [29]。隨后,PNDM、DEIS、EDM 以及 DPM-Solver 系列將常微分方程的數(shù)值方法引入擴(kuò)散采樣中,減少了誤差累積并降低了所需步數(shù) [30,31]。這些方法逐漸成為了視頻與高分辨率生成的通用加速器。當(dāng)單步生成仍然較慢時(shí),研究人員采用蒸餾方法,通過逐步合并兩步并循環(huán)多輪,將 50–100 步縮減至個(gè)位數(shù) [10]。盡管引導(dǎo)蒸餾(guided distillation)也可行,但它需要處理與引導(dǎo)強(qiáng)度和分布漂移相關(guān)的問題 [32]。在多模態(tài)場景中,一種常見做法是先使用高階求解器將步數(shù)減少至 10–20 步,然后再進(jìn)行蒸餾,這可以顯著降低質(zhì)量損失。一些研究提出將迭代過程壓縮至單步或少步的一致性模型中,該方向在圖像任務(wù)中已取得可行結(jié)果,但針對大分辨率與視頻的最佳實(shí)踐仍在演進(jìn)中。
3.2.3. 訓(xùn)練目標(biāo)、采樣間隔與權(quán)重
許多項(xiàng)目已將所有時(shí)間步的損失權(quán)重改為根據(jù)信噪比(SNR)或 sigma 分布進(jìn)行采樣。這是因?yàn)樵肼晿O高或極低的樣本要么太難、要么太易,而平均權(quán)重會導(dǎo)致網(wǎng)絡(luò)在不相關(guān)的區(qū)間浪費(fèi)學(xué)習(xí)能力。最小 SNR 加權(quán)與 EDM 的損失公式均在不同數(shù)據(jù)集上展現(xiàn)出一致的改進(jìn) [19]。步長與時(shí)間步的選擇也具有顯著影響。在大多數(shù)實(shí)踐中,前密后疏的步長分配更為穩(wěn)定;在 ODE 求解器中,末端密集段可以減少最終偽影;在 SDE 的 PC 采樣中,校正步數(shù)不宜過多,否則時(shí)間成本將迅速上升 [18]。這些經(jīng)驗(yàn)看似零散,但在多模態(tài)可控性與視頻編輯中,它們往往決定了能否在 10–20 步內(nèi)達(dá)到標(biāo)準(zhǔn)。在實(shí)現(xiàn)層面還有兩點(diǎn)常被忽視。第一點(diǎn)是指數(shù)移動平均(EMA)權(quán)重幾乎是一個(gè)必要條件,尤其在少步采樣與蒸餾場景中。第二點(diǎn)是混合精度與梯度裁剪可顯著減少 NaN(非數(shù)字)與溢出問題,尤其在強(qiáng)引導(dǎo)與大批量設(shè)置中。這些實(shí)踐并非算法層面的貢獻(xiàn),但它們往往決定了復(fù)現(xiàn)過程是否順利。
3.3. 可控生成機(jī)制
在本節(jié)中,我們回顧不同的可控生成機(jī)制。表 1 展示了可控生成機(jī)制的分類。
3.3.1. 條件生成與引導(dǎo)
![]()
![]()
3.3.2. 形式與目標(biāo)
可控性并非簡單地在模型外部添加另一層規(guī)則;相反,它將約束條件、偏好和先驗(yàn)知識集成到生成過程本身之中。語義、空間、身份和風(fēng)格是四種常見的高頻需求。它們對應(yīng)于不同的信息形式,并決定了不同的控制接口。
首先是語義控制。模型需要理解文本或類別,并在生成過程中保持語義一致性[9,17]。屬性不匹配和目標(biāo)缺失是常見的失敗模式,尤其在包含多個(gè)實(shí)體和長描述的場景中[37]。
其次是空間控制,包括布局、分割、邊緣、草圖、深度和姿態(tài),其要求明確“何處出現(xiàn)何物”。這些條件通常以圖像或網(wǎng)格的形式給出[11]。對齊精度與局部細(xì)節(jié)是空間控制的關(guān)鍵點(diǎn)[38]。
然后是身份控制,它要求綁定到特定的個(gè)體或?qū)ο螅⒃谛聢鼍爸斜3制渫庥^與幾何結(jié)構(gòu)。這些方法通常使用少量圖像進(jìn)行微調(diào)或?qū)W習(xí)新的詞嵌入[34,35]。過擬合與語言漂移是身份控制的兩大主要風(fēng)險(xiǎn)[39,40]。
最后是風(fēng)格控制,用戶希望在不破壞布局與主體的前提下遷移材質(zhì)、筆觸或色調(diào)。常見實(shí)現(xiàn)包括能量引導(dǎo)、潛在空間方向調(diào)整和小參數(shù)適配[41,42]。
要判斷某項(xiàng)生成是否具備可控性,通常需要同時(shí)關(guān)注三個(gè)關(guān)鍵點(diǎn):文本或條件的對齊程度、時(shí)空穩(wěn)定性,以及人眼的偏好與細(xì)節(jié)感知。單一指標(biāo)很少能解釋整個(gè)問題,這也是為什么學(xué)術(shù)界逐漸采用將指標(biāo)組與人工評估相結(jié)合這一實(shí)踐的實(shí)際原因[43]。
3.3.3. 控制機(jī)制
研究人員大致將控制機(jī)制分為三類。第一類是引導(dǎo)(guidance),第二類是條件注入(condition injection),第三類是對注意力與特征的顯式重寫。此外,研究人員還提出了個(gè)性化與低成本的微調(diào)方法。
首先是引導(dǎo)。Dhariwal 與 Nichol 提出了分類器引導(dǎo)(classifier guidance)[9],作者提供了一個(gè)對噪聲魯棒的分類器以提供梯度,并將該梯度添加到分?jǐn)?shù)函數(shù)中,從而獲得更強(qiáng)的條件對齊能力。無分類器引導(dǎo)(Classifier-Free Guidance)源于 Ho 與 Salimans 的方法,通常被稱為無分類器引導(dǎo)。作者僅訓(xùn)練一個(gè)網(wǎng)絡(luò),在訓(xùn)練期間以一定概率移除條件,同時(shí)線性組合條件輸出與無條件輸出,以平衡保真度與多樣性。
其次是條件注入與控制分支。Zhang 與 Agrawala [11] 提出了 ControlNet,作者將主干網(wǎng)絡(luò)中復(fù)制的卷積模塊作為控制分支,并通過零卷積(zero convolution)將分支特征注入主干網(wǎng)絡(luò),以支持邊緣、深度、法線、分割、姿態(tài)等多種條件輸入。該技術(shù)有助于在不破壞原始能力的前提下使訓(xùn)練更加穩(wěn)定。文本條件則采用交叉注意力機(jī)制。Radford 等人 [44] 提出了 CLIP,作者將文本與圖像嵌入到同一空間中,而潛在擴(kuò)散模型則將文本特征作為鍵/值(Keys/Values)。U-Net 的中間特征作為查詢(Queries),從而實(shí)現(xiàn)語義對齊。
然后是對注意力的控制與無需訓(xùn)練的編輯(training-free editing)。Hertz 等人 [12] 提出了用于圖像編輯的交叉注意力控制(cross-attention control)概念,作者直接替換或重寫注意力熱力圖,以實(shí)現(xiàn)無需修改權(quán)重的細(xì)粒度編輯,該方法可用于結(jié)構(gòu)保持與風(fēng)格替換。Meng 等人 [45] 提出了 SDEdit,作者首先向輸入添加適度噪聲,然后沿?cái)U(kuò)散軌跡進(jìn)行去噪,從而在修復(fù)與風(fēng)格化任務(wù)中獲得穩(wěn)定結(jié)果。
最后是個(gè)性化與參數(shù)高效微調(diào)。Ruiz 等人提出了 DreamBooth [34],作者將一個(gè)新概念通過同一詞語綁定到少量圖像上,保留主體的形狀與紋理,并使用文本控制場景。Gal 與 Alaluf 提出了文本反轉(zhuǎn)(Textual Inversion)[35],作者僅優(yōu)化一個(gè)新詞的嵌入向量,使少量圖像能夠?qū)W習(xí)對象風(fēng)格或特征。Hu 等人 [36] 提出了 LoRA,作者采用低秩分解進(jìn)行微調(diào),節(jié)省內(nèi)存與參數(shù),該方法已廣泛應(yīng)用于圖像、視頻與音頻擴(kuò)散模型的適配與部署。Tewel 等人 [40] 提出了 Perfusion,作者使用極小的秩 -1 更新來鎖定概念與風(fēng)格,以維持合成質(zhì)量并減少遺忘。
3.3.4. 評估與基準(zhǔn)測試
在通用質(zhì)量指標(biāo)方面,F(xiàn)ID(Fréchet Inception Distance)和 KID(Kernel Inception Distance)用于衡量整體分布的接近程度,而 IS(Inception Score)更側(cè)重于樣本多樣性 [43]。在對齊與可控性方面,CLIPScore 和文本檢索準(zhǔn)確率可以反映語義匹配程度,而區(qū)域控制可以使用掩碼內(nèi)的 CLIP 相似度以及目標(biāo)檢測或分割的準(zhǔn)確率進(jìn)行評估。對于姿態(tài)與深度控制,可以使用關(guān)鍵點(diǎn)誤差和深度相關(guān)性進(jìn)行評估。對于視頻,需要 FVD(Fréchet Video Distance)和幀間一致性,可以使用閃爍率(flicker rate)和光流畸變誤差進(jìn)行評估 [46]。對于 3D 與多視角一致性,可以使用 Chamfer 距離、IoU(交并比)和新視角一致性進(jìn)行評估 [47]。在人工評估方面,研究人員傾向于同時(shí)使用雙盲偏好測試和多維問卷來評估對齊度、細(xì)節(jié)、穩(wěn)定性和整體偏好,這在風(fēng)格化與編輯任務(wù)中尤為重要 [17,48]。
- 應(yīng)用
在本節(jié)中,我們回顧擴(kuò)散模型的一些重要應(yīng)用。表 2 總結(jié)了代表性擴(kuò)散模型的應(yīng)用領(lǐng)域。
![]()
4.1. 圖像恢復(fù)
如果在退化過程中出現(xiàn)卷積模糊、下采樣或掩碼缺失,可以將一致性約束納入采樣循環(huán)中,使觀測值與先驗(yàn)共同決定軌跡。DDRM 使用預(yù)訓(xùn)練的去噪網(wǎng)絡(luò)作為先驗(yàn),并為線性逆問題提供無監(jiān)督后驗(yàn)采樣,證明了數(shù)據(jù)一致性與先驗(yàn)去噪的可行性 [18]。DDNM 更進(jìn)一步,將重建分解為由觀測值決定的值域部分和由先驗(yàn)完成的零空間部分,無需再次訓(xùn)練模型。零樣本方法能夠處理超分辨率與去模糊問題 [56]。ILVR 通過低頻替換固定結(jié)構(gòu)對齊,允許高頻細(xì)節(jié)由先驗(yàn)填充 [57]。如果任務(wù)更側(cè)重于編輯而非嚴(yán)格求解,SDEdit 會在采樣中期注入弱噪聲,并沿引導(dǎo)提示收斂,從而無需重新訓(xùn)練模型即可實(shí)現(xiàn)穩(wěn)定修改 [45]。對于需要統(tǒng)一多任務(wù)的場景,Palette 將著色、恢復(fù)與解壓縮結(jié)合到一個(gè)條件框架中,展示了一個(gè)擴(kuò)散模型對應(yīng)多種恢復(fù)任務(wù)的可能性 [17]。GDP 將生成先驗(yàn)顯式建模為可采樣的后驗(yàn)分布,適應(yīng)線性、非線性與盲退化,涵蓋從去噪到多退化增強(qiáng)的廣泛需求 [55]。從實(shí)際觀察來看,訓(xùn)練好的通用圖像先驗(yàn)(例如基于 LDM 的權(quán)重)在遷移到存在分布偏移的數(shù)據(jù)(如遙感與醫(yī)學(xué)數(shù)據(jù))時(shí),可能會表現(xiàn)出風(fēng)格偏差或過度細(xì)節(jié)想象。在此類情況下,將一致性步驟前移并降低后期引導(dǎo)的強(qiáng)度,通常能在保留 LPIPS 視覺優(yōu)勢的同時(shí),穩(wěn)定 PSNR 或 SSIM 結(jié)果。在評估指標(biāo)方面,恢復(fù)任務(wù)仍依賴 PSNR 與 SSIM,而 LPIPS 與 FID 則用于展示感知質(zhì)量與分布接近程度 [43,58]。
4.2. 二維圖像生成
文本到圖像生成是擴(kuò)散模型最廣受認(rèn)可的應(yīng)用。Ramesh 等人 [49] 開發(fā)的 DALL-E 2、Saharia 等人 [17] 提出的 Imagen,以及 Rombach 等人 [8] 引入的 Stable Diffusion 等模型,能夠生成與用戶提供的任何文本描述相匹配的詳細(xì)且富有創(chuàng)意的圖像。這些模型通常采用預(yù)訓(xùn)練的文本編碼器(例如 CLIP 的文本編碼器)將輸入文本轉(zhuǎn)換為嵌入向量。該向量隨后通過交叉注意力機(jī)制作為條件輸入注入 U-Net,從而引導(dǎo)圖像生成過程。該技術(shù)的進(jìn)步不僅改變了數(shù)字藝術(shù)與內(nèi)容創(chuàng)作的格局,也為設(shè)計(jì)、廣告和娛樂行業(yè)提供了強(qiáng)大的工具。
首先是從類別到圖像的轉(zhuǎn)換。類別條件擴(kuò)散模型是通用圖像生成的基礎(chǔ)。ADM 與 -G 通過在 CIFAR 和 ImageNet 數(shù)據(jù)集上采用分類器引導(dǎo)與架構(gòu)修改,實(shí)現(xiàn)了與 GAN 相當(dāng)?shù)?FID 與 IS 指標(biāo) [9]。CDM 采用級聯(lián)生成方式逐步提升分辨率,使細(xì)節(jié)與結(jié)構(gòu)更加穩(wěn)定 [10]。在主干架構(gòu)層面,LDM 將去噪過程遷移至 VAE 潛在空間,顯著降低了內(nèi)存與算力需求 [8]。DiT 與 MDT 則展示了 Transformer 在長程依賴建模與可擴(kuò)展性方面的潛力 [16]。在實(shí)際訓(xùn)練中,CFG 權(quán)重、步數(shù)與調(diào)度之間的耦合性很強(qiáng)。較高的 CFG 傾向于提升類別對齊度與清晰度,但會壓縮多樣性,這在少步推理中尤為明顯 [9]。因此,許多實(shí)驗(yàn)將 CFG 設(shè)為隨時(shí)間變化的曲線,并加密最后幾步的求解精度,以減少尾部過沖偽影,并與 DPM-Solver 的使用方式對齊 [18]。
其次是從文本到圖像的轉(zhuǎn)換。文本條件生成已形成結(jié)合交叉注意力、潛在空間與引導(dǎo)的標(biāo)準(zhǔn)范式。GLIDE 與 Imagen 展示了深度語言表征對語義對齊的助益 [9,17]。VQ-Diffusion、Parti 與 Muse 則從離散令牌化、自注意力擴(kuò)展與掩碼建模等角度呈現(xiàn)了不同的效率方案 [59–61]。盡管文本很重要,空間約束同樣關(guān)鍵。GLIGEN 在大型模型上集成文本邊界框,使物體放置具備可控性 [62]。ControlNet 利用可訓(xùn)練的旁路分支與零卷積,將邊緣、深度、姿態(tài)等條件注入每一層,實(shí)現(xiàn)文本與結(jié)構(gòu)的聯(lián)合控制 [11]。T2I-Adapter 提供了更輕量的適配接口,便于多條件組合 [33]。這些方法顯著降低了復(fù)雜場景(如多物體、多關(guān)系)中屬性不匹配與目標(biāo)遺漏的概率 [63]。
安全與對齊也是實(shí)驗(yàn)必須考慮的維度之一。Safe Latent Diffusion 與自蒸餾安全訓(xùn)練展示了緩解不當(dāng)內(nèi)容生成的方法,但模型–令牌–過濾的三重組合仍是主流方案 [64]。在評估方面,CLIPScore 與文本檢索準(zhǔn)確率的監(jiān)測在語義上保持一致。FID 與 KID 反映分布質(zhì)量。人工評估則負(fù)責(zé)對"是否可信"等主觀維度進(jìn)行評判,三者結(jié)合能更好地覆蓋真實(shí)使用場景 [43]。
4.3. 三維模型/內(nèi)容生成
擴(kuò)散模型也被用于從文本或二維圖像生成三維模型。Poole 等人 [50] 提出了一種稱為分?jǐn)?shù)蒸餾采樣(Score Distillation Sampling, SDS)的技術(shù)。其核心概念是利用預(yù)訓(xùn)練的二維文本到圖像擴(kuò)散模型作為知識源。在三維表征(例如來自 NeRF 的渲染視圖)上,SDS 計(jì)算一種損失函數(shù),將二維擴(kuò)散模型中編碼的知識蒸餾至三維模型中。這引導(dǎo)三維模型朝著與文本描述一致的優(yōu)化方向演進(jìn)。因此,無需任何三維訓(xùn)練數(shù)據(jù)即可從文本生成高質(zhì)量三維資產(chǎn),為游戲開發(fā)、虛擬現(xiàn)實(shí)(VR)與元宇宙構(gòu)建提供了全新路徑。
三維數(shù)據(jù)稀缺,直接在體素、點(diǎn)云與網(wǎng)格上應(yīng)用擴(kuò)散模型會導(dǎo)致極高的計(jì)算成本。SDS 與 SJC 提供了解決方案,即將二維擴(kuò)散的噪聲殘差或雅可比鏈反向傳播至三維表征(如 NeRF 或 SDF),使渲染的多視角圖像逐漸逼近條件文本 [50]。Magic3D 采用稀疏網(wǎng)格與可微分渲染,分粗到細(xì)兩階段提升速度與細(xì)節(jié) [51]。Fantasia3D 解耦幾何與外觀,并引入法線與材質(zhì)建模,使材質(zhì)真實(shí)感更佳 [42]。
單圖像到三維的轉(zhuǎn)換同樣重要。Zero-1-to-3 在相機(jī)條件上對二維擴(kuò)散模型進(jìn)行微調(diào),用于新視角合成,并進(jìn)一步驅(qū)動三維優(yōu)化 [29]。在多視角一致性方面,SyncDreamer 學(xué)習(xí)跨視角的同步特征,與二維文本對及三維資產(chǎn)聯(lián)合訓(xùn)練以增強(qiáng)一致性 [65]。LAS-Diffusion 以 SDF 為中心,通過局部注意力與有符號距離場表征提升可控性與細(xì)節(jié) [66]。
三維評估通常聚焦于 Chamfer 距離、體素 IoU 與新視角一致性,而 GSO 等數(shù)據(jù)集提供了客觀標(biāo)準(zhǔn) [47]。基于 SDS 的優(yōu)化仍存在成本與穩(wěn)定性問題,例如因文本或風(fēng)格差異導(dǎo)致局部最優(yōu)或視角偽影。這些問題可通過更優(yōu)的渲染方法與幾何正則化逐步緩解。
4.4. 視頻生成與編輯
在圖像生成的基礎(chǔ)上,將擴(kuò)散模型擴(kuò)展至?xí)r間維度即可實(shí)現(xiàn)視頻生成。諸如 Sora(OpenAI)、Lumiere(Google)、Pika 和 Runway 等模型已展示出生成長達(dá)一分鐘、具有高分辨率、內(nèi)容連貫且動態(tài)流暢的視頻的能力。其核心挑戰(zhàn)在于有效建模時(shí)空一致性。一種常見方法是在 U-Net 架構(gòu)中融入時(shí)間模塊,例如 3D 卷積或時(shí)間注意力機(jī)制,從而同時(shí)處理空間與時(shí)間信息,確保生成視頻幀之間的連貫性。該技術(shù)預(yù)示著視頻制作、電影特效與虛擬世界構(gòu)建領(lǐng)域的范式轉(zhuǎn)變。
Li 等人 [38] 詳細(xì)介紹了一種稱為"Animate Anyone"的方法,該方法利用擴(kuò)散模型從靜態(tài)參考圖像與運(yùn)動序列中生成高度保真且時(shí)間連貫的角色動畫視頻,展示了擴(kuò)散模型在生成復(fù)雜動態(tài)內(nèi)容方面的先進(jìn)能力。
視頻生成的難點(diǎn)在于幀間一致性與運(yùn)動可解釋性。由于數(shù)據(jù)稀缺,許多系統(tǒng)選擇將圖像先驗(yàn)與輕量級時(shí)間層相結(jié)合的方法。MCVD 與 FDM 將擴(kuò)散應(yīng)用于預(yù)測與插值等條件任務(wù),驗(yàn)證了其在中等與短序列上的可行性 [67,68]。對于文本到視頻生成,Make-A-Video 與 Imagen Video 均采用級聯(lián)方法:先生成低分辨率基礎(chǔ)序列,再進(jìn)行空間或時(shí)間超分辨率處理,顯著提升了時(shí)間一致性 [69]。Dreamix 展示了視頻編輯的路徑,利用目標(biāo)文本與低分辨率參考對視頻擴(kuò)散模型進(jìn)行微調(diào),在保持外觀的同時(shí)改變語義 [70]。Latent Video Diffusion 將 LDM 的潛在空間方法遷移至視頻領(lǐng)域,節(jié)省內(nèi)存并使項(xiàng)目更易于部署 [71]。
條件控制在視頻中同樣重要。VideoComposer 將深度、草圖、光流等多種視覺條件集成到 U-Net 與潛在空間中,實(shí)現(xiàn)精細(xì)操控。ControlVideo 將 ControlNet 的空間控制擴(kuò)展至?xí)r間域且無需訓(xùn)練,通過跨幀交互減少抖動 [72]。實(shí)踐表明,共享初始噪聲、跨幀注意力以及"關(guān)鍵幀–插值–細(xì)化"流程有助于緩解閃爍問題。然而,身份漂移與長程依賴仍是視頻生成中持續(xù)涌現(xiàn)的挑戰(zhàn)。
評估通常采用 FVD 與 CLIP-SIM,觀察人眼是否感知到變化,因?yàn)榧兛陀^分?jǐn)?shù)無法完全捕捉閃爍與穩(wěn)定對比的主觀感受 [46]。
4.5. 音頻生成:從語音到音樂
盡管圖像與視頻生成聚焦于空間結(jié)構(gòu),音頻生成則需應(yīng)對高時(shí)間分辨率一維信號的復(fù)雜性。早期基于擴(kuò)散的音頻模型,如 DiffWave [54] 與 WaveGrad [73],專注于神經(jīng)聲碼器的作用,從以文本或語言特征為條件的梅爾頻譜圖中生成原始波形。這些模型在推理速度與合成質(zhì)量方面優(yōu)于 WaveNet 等傳統(tǒng)自回歸模型。
然而,從零開始生成復(fù)雜音頻(如音樂或環(huán)境音)需要對長程依賴進(jìn)行建模。受 Stable Diffusion 成功的啟發(fā),AudioLDM [53] 將潛在擴(kuò)散方法引入音頻領(lǐng)域。通過使用 VAE 學(xué)習(xí)梅爾頻譜圖的連續(xù)潛在表征,并將擴(kuò)散過程以對比語言–音頻預(yù)訓(xùn)練(CLAP)嵌入為條件,AudioLDM 實(shí)現(xiàn)了最先進(jìn)的零樣本文本到音頻生成。這種"頻譜圖即圖像"的范式使模型能夠利用圖像修復(fù)技術(shù)進(jìn)行音頻恢復(fù)與風(fēng)格遷移。
最近,研究重點(diǎn)已轉(zhuǎn)向長格式音樂生成與高保真文本到語音(TTS)。MusicLM [52] 將音頻生成視為分層序列到序列建模任務(wù),確保數(shù)分鐘音樂的連貫性。同時(shí),像 Stable Audio 這樣的模型通常利用專為音頻設(shè)計(jì)的下采樣因子自編碼器來處理極高的采樣率,從而在局部紋理質(zhì)量與全局音樂結(jié)構(gòu)之間取得平衡。
- 高效與輕量級擴(kuò)散模型
盡管擴(kuò)散模型具有卓越的生成質(zhì)量,但其在現(xiàn)實(shí)場景中的部署往往受到兩個(gè)固有瓶頸的阻礙:迭代去噪過程的高計(jì)算成本,以及重型主干網(wǎng)絡(luò)帶來的巨大內(nèi)存占用。這些限制對于邊緣設(shè)備與實(shí)時(shí)應(yīng)用而言尤為嚴(yán)苛。因此,"綠色擴(kuò)散"——即在不犧牲保真度的前提下追求效率——已成為一個(gè)關(guān)鍵的研究前沿。
在本節(jié)中,我們對輕量級擴(kuò)散模型的最新進(jìn)展進(jìn)行全面綜述。我們將這些加速技術(shù)歸類為三大戰(zhàn)略支柱:
- 采樣加速:聚焦于先進(jìn)的常微分方程(ODE)求解器與調(diào)度策略,旨在將推理步數(shù)從數(shù)百步減少至數(shù)十步甚至個(gè)位數(shù)。
- 架構(gòu)壓縮:采用網(wǎng)絡(luò)剪枝、量化與結(jié)構(gòu)搜索等技術(shù),以最小化參數(shù)量與內(nèi)存使用。
- 知識蒸餾:利用教師–學(xué)生框架,將多步擴(kuò)散軌跡壓縮至更少的步驟,從而實(shí)現(xiàn)快速推理。
為了對這些效率技術(shù)形成結(jié)構(gòu)化理解,我們在圖 5 中呈現(xiàn)了輕量級策略的分類體系,該體系將當(dāng)前方法歸類為采樣加速、架構(gòu)壓縮與數(shù)值優(yōu)化。以下子節(jié)將討論表 3 中總結(jié)的這些方法論如何應(yīng)對計(jì)算效率與生成性能之間的權(quán)衡。
![]()
![]()
5.1. 結(jié)構(gòu)效率與主干優(yōu)化
實(shí)現(xiàn)輕量化的最直接途徑是重構(gòu)腫的 U-Net 主干網(wǎng)絡(luò)。研究表明,通過引入混合架構(gòu)或?qū)S镁矸e,可以在保持生成質(zhì)量的同時(shí)顯著降低計(jì)算負(fù)載。Liu 與 Sun [74] 在通用圖像生成背景下提出了 MobileDiT 架構(gòu)。他們未使用傳統(tǒng)卷積,而是選擇 MobileViT 模塊作為核心組件。該設(shè)計(jì)十分巧妙:利用輕量級卷積處理局部細(xì)節(jié),并利用 Transformer 捕捉全局結(jié)構(gòu)。為防止訓(xùn)練崩潰,他們還引入了 adaLN-Zero(自適應(yīng)層歸一化)模塊以穩(wěn)定信號。結(jié)果令人印象深刻:該模型在 ImageNet 上取得了 2.15 的 FID 分?jǐn)?shù),參數(shù)量極低,且在生成效果上甚至超越了參數(shù)量更大的 StyleGAN-XL。
針對性結(jié)構(gòu)剪枝在特定任務(wù)中更為激進(jìn)。Cai 等人 [75] 針對偽裝目標(biāo)檢測開發(fā)了 L-DiffCOD。他們采用 PVTv2-B1 作為編碼器主干,并將所有標(biāo)準(zhǔn)卷積替換為深度可分離卷積。該操作使浮點(diǎn)運(yùn)算次數(shù)(FLOPs)降低了 47.45%,參數(shù)量減少了 75%,從而能夠在嵌入式設(shè)備上實(shí)時(shí)識別偽裝目標(biāo)。這一點(diǎn)也在網(wǎng)絡(luò)安全領(lǐng)域得到了 Li 等人 [79] 的驗(yàn)證。為了在邊緣節(jié)點(diǎn)合成惡意流量數(shù)據(jù),他們同樣采用了深度可分離卷積技術(shù)。實(shí)驗(yàn)數(shù)據(jù)表明,該模型的乘加運(yùn)算次數(shù)(MACs)僅為基線模型的 20.39%,但仍能訓(xùn)練出準(zhǔn)確率達(dá) 92.34% 的分類器,這證明了輕量級模型足以捕捉復(fù)雜的流量特征。
在遙感圖像超分辨率方面,An 等人 [78] 完全摒棄了 U-Net。他們設(shè)計(jì)的 LWTDM 模型采用了一種基于交叉注意力的高效編碼器–解碼器結(jié)構(gòu)。通過引入輕量級嵌入模塊,他們避免了深層網(wǎng)絡(luò)的堆疊。為進(jìn)一步加速,他們結(jié)合 DDIM 跳步采樣將推理步數(shù)壓縮至 200 步以內(nèi),滿足了衛(wèi)星數(shù)據(jù)處理的時(shí)效性要求。這些結(jié)構(gòu)優(yōu)化在大幅降低參數(shù)量與浮點(diǎn)運(yùn)算次數(shù)的同時(shí),有效保持了生成質(zhì)量與任務(wù)精度,為擴(kuò)散模型在移動端、衛(wèi)星及嵌入式設(shè)備等資源受限環(huán)境中的實(shí)時(shí)部署奠定了基礎(chǔ)。
5.2. 量化與頻域?qū)W習(xí)
當(dāng)結(jié)構(gòu)優(yōu)化達(dá)到瓶頸時(shí),降低數(shù)據(jù)精度或轉(zhuǎn)換處理域是另一條有效路徑。在語義通信中,Grassucci 等人 [76] 面臨嚴(yán)重的帶寬限制。他們提出了 Q-GESCO 框架,采用訓(xùn)練后量化(PTQ)將模型權(quán)重壓縮至 8 位。為了解決低位寬引起的累積誤差,他們創(chuàng)新性地使用了噪聲感知訓(xùn)練與時(shí)間步校準(zhǔn)。這使得內(nèi)存占用減少了 75%,且接收端重建的圖像在存在信道噪聲的情況下依然保持清晰。
自動駕駛領(lǐng)域的 FedDifftraj 模型由 Gao 等人 [80] 提出,專注于數(shù)據(jù)傳輸。在聯(lián)邦學(xué)習(xí)框架中,車載端的模型在上傳至服務(wù)器前進(jìn)行量化。這不僅節(jié)省了寶貴的車聯(lián)網(wǎng)(IoV)帶寬,還通過參數(shù)模糊化增強(qiáng)了用戶軌跡隱私的保護(hù)。
對于超大型醫(yī)學(xué)圖像,Wilms 等人 [81] 通過改變“戰(zhàn)場”避免了算力不足的問題。他們使用小波包變換處理 3D 腦部 MRI。該方法無損地降低了圖像的空間分辨率,并將計(jì)算轉(zhuǎn)移至頻域。這使得原本需要高端集群訓(xùn)練的 3D 條件擴(kuò)散模型能夠在單塊消費(fèi)級 GPU 上運(yùn)行,并生成可解釋的“反事實(shí)圖像”以輔助醫(yī)生。
在本節(jié)中,我們探討了架構(gòu)優(yōu)化之外的兩條關(guān)鍵路徑:利用訓(xùn)練后量化降低數(shù)值精度,可大幅減少顯存占用與通信帶寬,并增強(qiáng)聯(lián)邦學(xué)習(xí)中的隱私保護(hù)。同時(shí),采用小波包變換等信號域轉(zhuǎn)換方法降低高維數(shù)據(jù)的空間分辨率,使得在消費(fèi)級硬件上訓(xùn)練大規(guī)模 3D 醫(yī)學(xué)成像模型成為可能。這些策略證明,在數(shù)值與頻域?qū)用娴膬?yōu)化是突破邊緣計(jì)算資源瓶頸的有效手段。
5.3. 生成增強(qiáng)的輕量級范式
這是一種系統(tǒng)級的輕量化方法:利用強(qiáng)大的擴(kuò)散模型在云端創(chuàng)建數(shù)據(jù),賦能終端的小型模型。Tao 等人 [77] 在指靜脈識別中展示了這一思路。指靜脈數(shù)據(jù)通常難以獲取,導(dǎo)致識別模型容易過擬合。他們利用擴(kuò)散模型生成海量逼真的指靜脈圖像進(jìn)行數(shù)據(jù)增強(qiáng)。最終,在終端部署了一個(gè)僅含 2.15M 參數(shù)的雙分支輕量級網(wǎng)絡(luò)。該網(wǎng)絡(luò)集成了 E-MHSA(改進(jìn)的多頭自注意力)模塊,以極低的算力實(shí)現(xiàn)了高精度識別。
Li 等人 [82] 在戰(zhàn)場意圖識別中也采用了這一策略。他們專門開發(fā)了基于 Wasserstein 距離的 WDiffusion 模型,用于生成多元時(shí)間序列數(shù)據(jù)。這些合成數(shù)據(jù)被用于訓(xùn)練一個(gè)極簡的 GRU(門控循環(huán)單元)網(wǎng)絡(luò)。該方法表明,高質(zhì)量的合成數(shù)據(jù)可以彌補(bǔ)輕量級模型容量小的不足,使其泛化能力顯著提升。
Wang 等人 [83] 在病理學(xué)領(lǐng)域使用輕量級模型進(jìn)行圖像修復(fù)。他們構(gòu)建了一個(gè)專門設(shè)計(jì)的輕量級 Transformer 去噪網(wǎng)絡(luò),用于去除組織學(xué)圖像中的折疊與氣泡偽影。與傳統(tǒng) CNN 相比,Transformer 能更好地理解細(xì)胞的全局排列,從而以更少的參數(shù)實(shí)現(xiàn)更高質(zhì)量的圖像恢復(fù)。
在本節(jié)中,我們闡述了系統(tǒng)級的輕量化策略,即利用擴(kuò)散模型生成高質(zhì)量合成數(shù)據(jù)以解決數(shù)據(jù)稀缺問題,進(jìn)而訓(xùn)練并賦能端到端的極簡模型(如 GRU 或輕量級 Transformer)。通過“數(shù)據(jù)轉(zhuǎn)化為算力”的理念,該范式證明海量逼真的合成樣本能夠彌補(bǔ)輕量級網(wǎng)絡(luò)容量小的短板,使其在指靜脈識別與戰(zhàn)場意圖判斷等任務(wù)中,以極低的參數(shù)量實(shí)現(xiàn)出色的泛化能力與識別精度。
- 挑戰(zhàn)與局限性
盡管擴(kuò)散模型已徹底改變了生成式人工智能,但其從學(xué)術(shù)研究向普適化部署的過渡也暴露出關(guān)鍵瓶頸。這些挑戰(zhàn)不僅僅是工程層面的障礙,更涉及計(jì)算效率、法律框架與社會倫理之間的復(fù)雜交織。本節(jié)將對這些局限性的三個(gè)主要維度進(jìn)行批判性分析。
6.1. 計(jì)算成本與環(huán)境可持續(xù)性
與單次前向傳播的 GAN 或 VAE 相比,擴(kuò)散模型最顯著的技術(shù)缺陷在于其固有的迭代推理過程,該過程需要評估神經(jīng)網(wǎng)絡(luò)數(shù)十至數(shù)百次以求解概率流常微分方程(ODE)或隨機(jī)微分方程(SDE)。盡管快速求解器(例如 DPM-Solver)與蒸餾技術(shù)的最新進(jìn)展已緩解了這一問題,但高分辨率生成仍然計(jì)算成本高昂,嚴(yán)重阻礙了視頻會議或交互式游戲等對毫秒級延遲有強(qiáng)制要求的實(shí)時(shí)應(yīng)用。
這種計(jì)算負(fù)擔(dān)不僅限于延遲問題,更引發(fā)了深刻的"綠色人工智能"困境:眾所周知,基礎(chǔ)模型的訓(xùn)練會排放大量二氧化碳,但推理階段的累積能源成本卻常被忽視,且更具隱蔽性。正如 Luccioni 等人 [84] 所強(qiáng)調(diào)的,隨著這些模型被部署至數(shù)百萬用戶,日常生成任務(wù)的能源消耗遠(yuǎn)超初始訓(xùn)練成本,對全球可持續(xù)發(fā)展目標(biāo)構(gòu)成了嚴(yán)峻挑戰(zhàn)。
此外,微調(diào)甚至部署最先進(jìn)模型所需的嚴(yán)格硬件條件造成了顯著的"算力鴻溝",實(shí)際上將研究能力集中于資金充足的行業(yè)實(shí)驗(yàn)室,而邊緣化了無法獲得高性能 GPU 基礎(chǔ)設(shè)施的學(xué)術(shù)界與獨(dú)立研究者。
6.2. 知識產(chǎn)權(quán)、版權(quán)與數(shù)據(jù)來源
擴(kuò)散模型的訓(xùn)練范式以不加區(qū)分地抓取網(wǎng)絡(luò)上海量圖像為特征,這引發(fā)了關(guān)于知識產(chǎn)權(quán)(IP)法與創(chuàng)作者權(quán)利的深刻危機(jī)。盡管支持者常以"合理使用"(fair use)為辯護(hù),聲稱這些模型學(xué)習(xí)的是類似于人類靈感的抽象表征,但實(shí)證證據(jù)呈現(xiàn)了相互矛盾的現(xiàn)實(shí):具體而言,Carlini 等人 [85] 表明,擴(kuò)散模型傾向于記憶并復(fù)現(xiàn)訓(xùn)練數(shù)據(jù)。這種現(xiàn)象通常由對重復(fù)樣本的過擬合驅(qū)動,導(dǎo)致生成受保護(hù)作品的近乎相同副本,從而構(gòu)成潛在的版權(quán)侵權(quán)。
除了精確復(fù)制帶來的法律復(fù)雜性外,該技術(shù)還通過風(fēng)格模仿造成重大經(jīng)濟(jì)風(fēng)險(xiǎn):模型能夠高保真地模仿在世藝術(shù)家的獨(dú)特美學(xué)風(fēng)格,使用戶無需向原創(chuàng)者支付報(bào)酬即可生成無限衍生作品。
因此,學(xué)術(shù)界正積極開發(fā)技術(shù)對策,范圍涵蓋從對抗性防御工具(如 Glaze [86]——通過施加人眼不可見的擾動來干擾風(fēng)格學(xué)習(xí))到數(shù)據(jù)來源標(biāo)準(zhǔn)(如 C2PA 與不可見水印);然而,這些歸屬方法在面對常見變換時(shí)的魯棒性仍是一個(gè)未解決的挑戰(zhàn)。
6.3. 偏見、安全與濫用
由于擴(kuò)散模型本質(zhì)上是對海量訓(xùn)練語料庫條件分布的近似,它們不可避免地會繼承并常常放大未加篩選的互聯(lián)網(wǎng)內(nèi)容中固有的偏見與毒性。這一現(xiàn)象在社會刻板印象的放大中尤為明顯:例如,Bianchi 等人 [87] 表明,文本到圖像模型經(jīng)常表現(xiàn)出嚴(yán)重的職業(yè)性別偏見(例如,默認(rèn)將高地位職業(yè)描繪為男性)與種族同質(zhì)化,從而在媒體與廣告部署中延續(xù)表征性傷害。
此外,潛在危害不僅限于被動偏見,更延伸至主動的惡意利用。在缺乏魯棒安全防護(hù)的情況下,這些生成工具可能被武器化,用于生成不適合工作場合(NSFW)的圖像、仇恨言論以及高度逼真的深度偽造(Deepfakes),這些內(nèi)容通過虛假信息活動對政治穩(wěn)定構(gòu)成重大威脅,并通過非自愿內(nèi)容侵犯個(gè)人隱私。
應(yīng)對這些風(fēng)險(xiǎn)呈現(xiàn)出復(fù)雜的安全–效用權(quán)衡:盡管當(dāng)前的緩解策略依賴于訓(xùn)練數(shù)據(jù)過濾或事后輸出檢查(例如基于 CLIP 的安全過濾器),但這些措施在面對對抗性攻擊時(shí)仍然脆弱。復(fù)雜的"越獄"提示詞往往能夠繞過限制,而過于激進(jìn)的過濾則可能帶來"對齊稅"(alignment tax)——削弱模型的多樣性,并使其對良性請求失去響應(yīng)能力。
- 未來研究方向
擴(kuò)散模型的快速演進(jìn)預(yù)示著其正從專用圖像生成器向通用人工智能的基礎(chǔ)構(gòu)建模塊轉(zhuǎn)變。我們確定了三個(gè)將塑造下一代生成式模型的關(guān)鍵方向。
7.1. 可擴(kuò)展架構(gòu):從 Transformer 到狀態(tài)空間模型
盡管擴(kuò)散 Transformer(DiT)已成功取代 U-Net 成為高保真生成的主力,但它們面臨一個(gè)瓶頸:自注意力機(jī)制相對于序列長度的二次計(jì)算復(fù)雜度(O(n2))。這對生成長視頻或高分辨率 3D 體素構(gòu)成了重大挑戰(zhàn)。最近,狀態(tài)空間模型(SSM),尤其是 Mamba [88],已成為一種極具吸引力的替代方案。Mamba 引入了一種選擇性掃描機(jī)制,在保持 Transformer 建模能力的同時(shí)實(shí)現(xiàn)了線性擴(kuò)展(O(n))。將 Mamba 集成到擴(kuò)散主干網(wǎng)絡(luò)中,為高效處理極長上下文提供了潛力。未來的研究可能會集中于混合架構(gòu),將注意力的全局尋址能力與 SSM 的高效性相結(jié)合,從而在單次前向傳播中實(shí)現(xiàn)長達(dá)數(shù)分鐘的視頻或完整音樂作品的生成。
7.2. 推理與生成的融合(LLM + 擴(kuò)散)
當(dāng)前擴(kuò)散模型的一個(gè)主要局限是缺乏語義推理能力;它們基于統(tǒng)計(jì)相關(guān)性生成像素,而非基于對世界的理解。相反,大語言模型(LLM)擅長推理,但缺乏原生的感官輸出。Visual ChatGPT-3.5 [89] 等早期工作通過將 LLM 作為控制器來調(diào)用擴(kuò)散模型作為外部工具,彌合了這一差距。然而,該領(lǐng)域正朝著原生多模態(tài)融合的方向發(fā)展。未來的模型可能會在統(tǒng)一的令牌空間中運(yùn)行,其中視覺和音頻數(shù)據(jù)被量化(通過 VQ-VAE 或類似技術(shù))并與文本交錯(cuò)排列。這將使單一基礎(chǔ)模型能夠理解復(fù)雜的多步指令、執(zhí)行空間推理,并生成一致的多模態(tài)輸出,從而有效模糊“理解”與“創(chuàng)造”之間的界限。
7.3. 邁向世界模擬器與涌現(xiàn)能力
縮放定律(Scaling laws)表明,增加模型規(guī)模與數(shù)據(jù)量會催生涌現(xiàn)能力。在視頻擴(kuò)散的背景下,模型開始充當(dāng)“世界模擬器”。通過觀察海量視頻數(shù)據(jù),這些模型在沒有顯式監(jiān)督的情況下隱式地學(xué)習(xí)物理定律、物體恒存性與 3D 幾何。未來的研究可能會利用這一特性服務(wù)于具身人工智能與機(jī)器人技術(shù)。智能體可以在擴(kuò)散生成的世界模擬器內(nèi)進(jìn)行訓(xùn)練,從而替代依賴手工構(gòu)建的模擬環(huán)境,該模擬器能夠預(yù)測未來狀態(tài)及對動作的反應(yīng)。這代表了一種范式轉(zhuǎn)變:從為人類消費(fèi)生成媒體內(nèi)容,轉(zhuǎn)向?yàn)闄C(jī)器學(xué)習(xí)與科學(xué)模擬生成數(shù)據(jù)。
- 結(jié)論
本文對擴(kuò)散模型進(jìn)行了全面綜述,追溯了其從理論新奇事物到現(xiàn)代生成式人工智能骨干架構(gòu)的演進(jìn)歷程。我們綜合了實(shí)現(xiàn)高保真生成的核心原理,并對可控性與多模態(tài)合成的多樣化機(jī)制進(jìn)行了分類。我們分析的核心主題是向效率轉(zhuǎn)變的必然趨勢:盡管早期研究不惜代價(jià)地優(yōu)先追求生成質(zhì)量,但擴(kuò)散模型的未來在于"綠色人工智能"——使這些強(qiáng)大的模型變得可及且可持續(xù)。
通過對輕量級架構(gòu)、求解器加速與知識蒸餾的詳細(xì)綜述,可以明顯看出,在邊緣設(shè)備上部署擴(kuò)散模型不僅可行,而且正在快速推進(jìn)。
展望未來,擴(kuò)散模型與推理能力(大語言模型)及高效架構(gòu)(狀態(tài)空間模型)的融合,預(yù)示著構(gòu)建綜合性"世界模擬器"的發(fā)展軌跡。然而,實(shí)現(xiàn)這一愿景不僅需要在計(jì)算效率方面取得技術(shù)突破,還需要針對版權(quán)、偏見與安全等倫理挑戰(zhàn)提出魯棒的解決方案。
我們希望本綜述能為旨在彌合高性能生成與實(shí)際資源受限部署之間差距的研究人員提供一份有價(jià)值的路線圖。
原文鏈接:https://www.mdpi.com/2076-3417/16/5/2482
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.