網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 | 20步也能穩住畫質,這個擴散加速方法不一樣

0
分享至



作者介紹:本文的共同第一作者為崔奔雷(阿里巴巴)和何少軒(阿里巴巴實習生、浙江大學)主要研究領域為多模態理解與生成,通訊作者洪海文(阿里巴巴)和趙洲(浙江大學)主要研究領域分別為多模態大語言模型、語音理解生成等方向。

近年來,擴散模型已成為圖像、音頻、視頻等多模態生成的核心技術路線,并在工業界得到廣泛應用。但在實際落地中仍存在關鍵瓶頸:工業級推理預算通常只有 20–30 步,在這一約束下,許多加速方法仍會出現紋理錯亂、顏色漂移、軌跡偏離等問題,影響生成質量與穩定性。

這一問題也限制了生成技術在理解側訓練中的大規模應用,而這對于補充安全場景中的高危稀缺樣本、構造生產環境下的對抗變異樣本至關重要。高危圖片和視頻往往傳播快、危害大,但樣本數量有限,因此需要借助生成技術大規模合成相關數據,以提升審核模型的識別能力。

同時,AI 時代用戶生成變異樣本的成本大幅降低,使內容安全面臨更強的對抗壓力。因此,需要在管控側引入生成技術,構造對抗訓練樣本,提升審核模型的魯棒性。然而,對于這類大規模工業應用而言,擴散模型過高的推理時延仍然不可接受。如何在有限步數預算下兼顧生成質量與推理效率,已成為工業級擴散落地的核心挑戰。

針對這一挑戰,阿里安全 AGI 實驗室 - 御風大模型團隊聯合浙江大學提出了一種全新的擴散加速方法 ——TC-Padé(Trajectory-Consistent Padé Approximation)。該方法基于 Padé 逼近構建殘差預測框架,在無需訓練、即插即用的前提下,實現對擴散采樣過程的高效加速,并在低步數設置下依然保持穩定、高質量的生成效果。實驗表明,TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務上都取得了出色表現。例如,在 FLUX.1-dev 上可實現 2.88× 加速,在 Wan2.1 視頻生成模型上可實現 1.72× 加速,同時顯著優于已有緩存類加速方法。基于以上加速方法,御風大模型團隊得以產出大量高質量冷門風險訓練樣本,大幅度提升模型對風險的視覺理解能力,賦能百項以上廣泛業務場景。

該研究論文已被 CVPR 2026 錄用。



  • 論文標題:TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
  • 論文鏈接:https://arxiv.org/pdf/2603.02943
  • Github 地址:https://github.com/Alibaba-YuFeng/TC_Pade

一、研究背景

擴散模型的生成質量雖然已經達到很高水平,但其推理效率始終是落地應用中的核心制約因素。由于擴散采樣依賴多步迭代去噪,一個樣本通常需要經歷數十次甚至上百次網絡前向計算,這使得模型在實時交互、批量生成和資源受限場景中面臨較高的時延與成本。

為降低這一開銷,近年來出現了多類擴散加速方法,其中一類重要思路是特征緩存(feature caching)。這類方法利用相鄰時間步之間特征變化較小的性質,減少重復計算,從而實現 “免訓練、可插拔” 的推理加速。現有方法主要包括兩種路線:

(1)基于復用的方法:直接緩存并復用中間特征;

(2)基于預測的方法:根據歷史特征變化趨勢預測未來特征。

盡管這些方法在較高采樣步數(如 50 步)下能夠取得一定加速效果,但在工業場景更常見的 20~30 步低步數采樣中,其局限性會明顯暴露出來。隨著時間步間隔變大,特征之間的相似性快速下降:

(1)復用類方法容易因緩存特征與當前狀態不匹配而產生偏差;

(2)多項式外推類方法則容易因誤差積累導致軌跡漂移。

如下圖所示,在低步數設置下,已有加速方法往往會帶來明顯的畫質下降,而 TC-Padé 能夠在實現更高加速比的同時,保持更好的視覺一致性。



圖 1 相較于已有緩存加速方法,TC-Padé 在 20 步采樣下依然能夠保持更穩定的紋理與色彩表現

為何現有方法在低步數下容易失效?低步數采樣意味著:相鄰推理步之間的時間跨度更大,特征演化不再平滑。這會帶來兩個直接問題。第一,傳統緩存復用方法默認相鄰時間步特征 “足夠相似”,但在低步數場景下,這一假設很容易被打破,導致緩存信息與當前狀態錯位,從而影響生成質量。第二,基于泰勒展開的外推方法雖然能夠在局部做近似,但泰勒多項式本質上更適合小范圍、平滑變化的趨勢建模。

當時間間隔增大、特征變化更復雜時,就容易出現外推誤差放大、采樣軌跡偏移的問題。論文通過 PCA 可視化進一步表明,已有方法在加速采樣過程中往往無法保持與原始采樣軌跡的一致性,而 TC-Padé 更接近原始軌跡,體現出更強的穩定性。



圖 2 不同緩存方法在 20 步采樣設置下的軌跡一致性對比,TC-Padé 更接近原始軌跡,體現出更強的穩定性

二、研究方法:TC-Padé 核心創新

針對上述問題,本文提出了 TC-Padé,從 “預測對象”“預測形式” 和 “采樣階段策略” 三個層面重新設計擴散緩存加速框架,核心包括以下兩點:

1、創新一:基于) Padé 逼近的軌跡一致性殘差預測

與直接預測原始特征不同,TC-Padé 首先將建模對象轉向殘差表示(residual representation)。殘差刻畫的是層間特征增量,相較于原始特征通常具有更高的時間連續性和更穩定的變化規律,因此更適合做跨時間步預測。

殘差定義如下:



其中,x_{t} l 和 x_{t} r 分別表示時間步 t 下不同層的特征表示,R_{t} l:r 表示對應層間殘差。

在此基礎上,TC-Padé 使用 Padé 逼近替代傳統的泰勒多項式展開。Padé 逼近采用 “分子多項式 / 分母多項式” 的有理函數形式,能夠更好地描述非線性變化、漸近行為和階段切換,因此在低步數、大跨度時間間隔下具有更好的穩定性。其一般形式為:



在本文中,為平衡效果與開銷,采用了低階 Padé 型預測器,對當前殘差進行預測:



進一步可恢復當前時刻輸出特征:



這一設計避免了直接在高維原始特征空間進行預測,使模型能夠更聚焦于結構更穩定的殘差動態,從而有效降低低步數采樣中的誤差累積問題。

2、創新二:面向去噪階段差異的步感知預測策略

擴散模型在不同采樣階段的動態特性并不相同:早期階段,噪聲高,結構變化劇烈;中期階段,整體結構逐漸穩定,適合進行軌跡預測;后期階段,主要進行細節修復與紋理優化。現有方法通常采用統一策略處理整個去噪過程,難以適應不同階段的變化特點。為此,TC-Padé 提出了一種去噪步感知(step-aware)預測策略,針對不同階段采用不同的殘差更新方式:



其中,T 為總去噪步數。這一策略使 TC-Padé 能夠在采樣早期避免過度外推,在中期充分發揮 Padé 逼近的優勢,并在后期捕捉更細粒度的變化趨勢,從而提升整體加速過程的穩定性與生成質量。

3、創新三:自適應軌跡穩定性判別機制

除了預測方式的設計外,TC-Padé 還引入了一個軌跡穩定性指標(Trajectory Stableness Indicator, TSI),用于判斷當前時間段是否適合跳過計算、直接使用預測結果。其定義為:



當軌跡變化平穩時,模型可安全地跳過部分計算并采用預測;當軌跡不穩定時,則恢復完整計算,以保證生成質量。這樣就實現了在穩定區間盡可能加速,在關鍵變化區間保留精細計算的自適應推理機制。



圖 3 在每個緩存區間內,系統通過軌跡穩定性指標動態判斷是執行完整計算還是進行殘差預測

三、實驗亮點:低步數下依然保持高質量與高速度

(一)圖像生成任務:更快的同時保持更高保真度

在文本到圖像生成任務中,TC-Padé 在 FLUX.1-dev 上展現出非常突出的效率 — 質量平衡能力。實驗結果表明:

(1)TC-Padé(fast)實現 2.88× 加速

(2)在 FID、CLIP Score 等指標上保持與原始模型接近的性能

(3)在 PSNR、SSIM、LPIPS 等保真度指標上明顯優于其他緩存類方法

相比之下,已有方法雖然在部分設置下可以進一步壓縮 FLOPs,但往往伴隨顯著的畫質下降,甚至出現無法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結構與語義一致性。



表 1 方法在實現高達 2.88× 加速的同時,依然保持高質量圖像生成效果

(二)視頻生成任務:在時序生成中同樣有效

視頻生成對一致性要求更高,任何預測偏差都可能在時間維度被進一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優異結果:

(1)1.72× 推理加速,1.74× FLOPs 降低

(2)VBench-2.0 總分僅較原始 20 步基線小幅下降

(3)在 PSNR、SSIM、LPIPS 等指標上顯著優于泰勒預測類方法

這說明 TC-Padé 不僅適用于靜態圖像生成,也能夠較好適配視頻場景中的復雜時空動態。



表 2 在視頻生成任務中的效果對比。相較于其他方法,TC-Padé 在保證視頻內容穩定性的同時實現了更高效率

(三)類別條件圖像生成:兼顧樣本保真度與多樣性

在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務中,TC-Padé 同樣表現穩定:

(1)1.46× 時延加速,1.64× FLOPs 降低

(2)FID 優于對比的緩存加速方法

(3)Precision 與 Recall 保持更好平衡

這表明 TC-Padé 不僅適用于文本條件生成任務,也能在標準視覺生成基準上保持較強競爭力。



表 3 TC-Padé 在 DiT-XL/2 上的定量結果,展示了其在類別條件圖像生成任務中的穩定泛化能力

(四)消融實驗:關鍵設計帶來穩定收益

論文進一步通過消融實驗驗證了 TC-Padé 各組成模塊的有效性。

1、殘差緩存粒度分析:實驗比較了不同緩存粒度,包括 double-stream、single-stream 和 entire block。結果顯示,在整個 block 粒度上進行殘差緩存與預測時效果最佳,能夠在速度和質量之間取得更優平衡。

2、穩定性閾值分析:通過調整軌跡穩定性閾值 θ,可以靈活控制加速比與質量之間的權衡。實驗顯示,θ=0.7 時可獲得最高 2.88× 加速,而 θ=1.0 則在質量和效率之間表現出更均衡的綜合效果。

3、與量化技術兼容:TC-Padé 還具有良好的工程兼容性,可與量化等其他推理優化技術疊加使用。實驗顯示,在結合量化后,其整體時延下降可進一步擴大,體現出良好的實際部署潛力。

四、總結

TC-Padé 針對擴散模型低步數采樣中 “加速容易、穩定很難” 的核心問題,提出了一套兼顧理論與實踐的新方案。通過基于 Padé 逼近的殘差預測、步感知預測策略以及軌跡穩定性自適應判別機制,該方法在無需訓練的條件下顯著提升了擴散推理效率,并在多個任務上保持了高質量生成效果。對于追求低延遲、高吞吐、可落地部署的擴散模型應用而言,TC-Padé 提供了一種具有現實價值的高效加速思路,也為未來擴散模型推理優化打開了新的方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
63歲李玲玉游西沙群島!她看上去好年輕,以后不幫兒子兒媳帶寶寶

63歲李玲玉游西沙群島!她看上去好年輕,以后不幫兒子兒媳帶寶寶

阿訊說天下
2026-04-24 13:53:20
《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
伊朗國防部:伊朗仍留存了大部分導彈能力

伊朗國防部:伊朗仍留存了大部分導彈能力

財聯社
2026-04-25 05:04:43
A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

云鵬敘事
2026-04-26 00:00:07
分手當晚,26歲澳大利亞百萬富翁豪華酒店勒頸韓裔網紅女友

分手當晚,26歲澳大利亞百萬富翁豪華酒店勒頸韓裔網紅女友

紅星新聞
2026-04-25 12:45:37
7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

阿庫財經
2026-04-25 12:50:08
他比西門慶還風流霸道,卻也混上了梁山,就連武松也不是他的對手

他比西門慶還風流霸道,卻也混上了梁山,就連武松也不是他的對手

耳東文史
2026-04-26 00:03:08
終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

夜深愛雜談
2026-03-13 22:02:43
為個人健康考慮,西班牙女足國腳葆拉-托馬斯24歲宣布退役

為個人健康考慮,西班牙女足國腳葆拉-托馬斯24歲宣布退役

懂球帝
2026-04-25 11:15:51
山姆“爆雷”,3億中產的“天塌了”!

山姆“爆雷”,3億中產的“天塌了”!

笑熬漿糊111
2026-04-26 00:05:15
四川女籃絕境奪冠!客場擊敗山西 誰是最大功臣? 數據不說謊!

四川女籃絕境奪冠!客場擊敗山西 誰是最大功臣? 數據不說謊!

小徐講八卦
2026-04-26 05:35:45
“世紀之戰!童錦程VS小酷PK!榜一竟然900多億元?童錦程致電官方!”

“世紀之戰!童錦程VS小酷PK!榜一竟然900多億元?童錦程致電官方!”

新浪財經
2026-04-26 04:48:09
罵了十年中超水貨,如今聯賽連個能進球的都找不到,我們全罵錯了

罵了十年中超水貨,如今聯賽連個能進球的都找不到,我們全罵錯了

圣西羅的太陽
2026-04-25 12:42:40
拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

今朝牛馬
2026-04-07 22:43:23
賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

嘴角上翹
2026-04-26 03:57:43
出人意料,ESPN專家團12人全部預測火箭晉級,如今湖人3-0領先

出人意料,ESPN專家團12人全部預測火箭晉級,如今湖人3-0領先

懂球帝
2026-04-25 15:09:12
歷史雜記|誰把劉松林(劉思齊)投進監獄?

歷史雜記|誰把劉松林(劉思齊)投進監獄?

老正時空
2026-04-25 19:22:31
內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

新京報
2026-04-26 07:26:05
50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

小南看車
2026-04-25 23:08:49
馬云預言又應驗了!不出意外,2026年起中國房地產或迎來3大轉變

馬云預言又應驗了!不出意外,2026年起中國房地產或迎來3大轉變

混沌錄
2026-04-22 15:46:07
2026-04-26 08:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

教育
藝術
親子
家居
軍事航空

教育要聞

90后科學老師用塑料桶手搓4米高水火箭!

藝術要聞

毛澤東寫小字,太瀟灑了

親子要聞

總感覺她們兩是上輩子的情人!

家居要聞

自然肌理 溫潤美學

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版