網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中科大&智象未來：強(qiáng)模型打底、輕模型精修，重塑視頻超分體驗(yàn)丨CVPR 2026

2026-06-12 11:35:32　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

PS-SR：兼顧速度、細(xì)節(jié)與穩(wěn)定性，讓低清畫面更可信。

作者丨鄭佳美

編輯丨馬曉寧

在生成式 AI 進(jìn)入視頻生產(chǎn)鏈之后，視頻增強(qiáng)正在從后期修補(bǔ)工具，變成內(nèi)容生產(chǎn)、內(nèi)容分發(fā)和機(jī)器視覺理解中的基礎(chǔ)能力。

現(xiàn)實(shí)需求已經(jīng)不只是讓畫面變清楚，而是要在電商直播中看清商品質(zhì)感，在工業(yè)巡檢中識(shí)別裂紋和儀表讀數(shù)，在遠(yuǎn)程協(xié)作中保留設(shè)計(jì)細(xì)節(jié)，在文博數(shù)字化中盡量還原影像紋理。

隨著 4K 級(jí)高清內(nèi)容逐漸成為視頻平臺(tái)、智能電視、大屏顯示和專業(yè)制作流程中的常見需求，低清素材如何被穩(wěn)定放大到更高分辨率，同時(shí)保留紋理、邊緣和運(yùn)動(dòng)連續(xù)性，也成為視頻增強(qiáng)技術(shù)必須面對(duì)的問題。

難點(diǎn)在于，視頻增強(qiáng)不能只追求銳度。傳統(tǒng)單步模型速度快，但細(xì)節(jié)往往保守；多步擴(kuò)散模型細(xì)節(jié)豐富，但推理成本高，難以大規(guī)模落地。更復(fù)雜的是，視頻不是單張圖片，每一幀清楚還不夠，幀與幀之間還要穩(wěn)定，否則就會(huì)出現(xiàn)閃爍、跳動(dòng)和細(xì)節(jié)漂移。

在這樣的背景下，中國(guó)科學(xué)技術(shù)大學(xué)與智象未來研究團(tuán)隊(duì)提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。

這項(xiàng)研究沒有簡(jiǎn)單地在單步和多步之間二選一，而是讓強(qiáng)大的 base model 先恢復(fù)整體結(jié)構(gòu)，再讓輕量 draft model 補(bǔ)充細(xì)節(jié)，并通過頻域更新約束生成范圍，讓模型盡量增強(qiáng)紋理而不改寫主體內(nèi)容。

它真正回應(yīng)的問題是：當(dāng)視頻增強(qiáng)進(jìn)入大規(guī)模應(yīng)用時(shí)，系統(tǒng)能不能既足夠快，又足夠穩(wěn)，還能生成可信細(xì)節(jié)。PS-SR 探索的偽單步擴(kuò)散路徑，為高質(zhì)量視頻增強(qiáng)提供了一種更接近實(shí)際部署的方案，也為內(nèi)容平臺(tái)、智能視覺系統(tǒng)和生成式視頻工具提供了新的技術(shù)參考。

項(xiàng)目地址：https://waq2001.github.io/PS-SR-page/

像單步一樣快，像多步一樣細(xì)

實(shí)驗(yàn)結(jié)果方面，PS-SR 在畫質(zhì)、速度、穩(wěn)定性三方面較均衡，核心優(yōu)勢(shì)是接近單步模型的速度，同時(shí)具備多步擴(kuò)散模型級(jí)別的細(xì)節(jié)表現(xiàn)，主要提升體現(xiàn)在紋理更清楚、結(jié)構(gòu)更穩(wěn)定、幀間抖動(dòng)更少，適用場(chǎng)景包括合成退化視頻和真實(shí)互聯(lián)網(wǎng)低質(zhì)視頻

與其他方法相比，PS-SR 相比 STAR、SeedVR 速度明顯更快，相比 DLoRAL、SeedVR2、DOVE 細(xì)節(jié)更自然、結(jié)構(gòu)偏移更少。

重建質(zhì)量表現(xiàn)上，UDM10、SPMCS、YouHQ40 的整體重建指標(biāo)靠前，結(jié)構(gòu)一致性較強(qiáng)，低頻內(nèi)容保留較好，輸入視頻主體信息變化較小，高質(zhì)量輸出更接近真實(shí)高清視頻。

真實(shí)視頻表現(xiàn)上，VideoLQ 是無高清參考的真實(shí)低質(zhì)視頻，PS-SR 在人臉區(qū)域能讓五官邊緣更穩(wěn)定、細(xì)節(jié)不過度扭曲。

時(shí)間一致性表現(xiàn)上，PS-SR 的幀間連續(xù)性優(yōu)于對(duì)比方法，視頻閃爍減少，局部紋理跳動(dòng)減少，運(yùn)動(dòng)區(qū)域更平滑，播放觀感更穩(wěn)定，關(guān)鍵原因是基礎(chǔ)視頻擴(kuò)散模型中的 motion prior 被保留。

主觀評(píng)價(jià)結(jié)果顯示，參與者更傾向選擇 PS-SR，偏好原因是清晰度、自然感、連續(xù)性綜合更好，視覺優(yōu)勢(shì)不是單純銳化，而是結(jié)構(gòu)保真 + 細(xì)節(jié)增強(qiáng)，用戶感知重點(diǎn)集中在人臉自然度、物體邊緣、視頻流暢度。

消融實(shí)驗(yàn)結(jié)果顯示，去掉 VSD 后生成質(zhì)量下降，畫面細(xì)節(jié)不夠豐富，去掉對(duì)抗損失后真實(shí)感下降，紋理表現(xiàn)變?nèi)酰サ粝袼乇O(jiān)督后局部區(qū)域還原能力下降，去掉頻域更新后細(xì)節(jié)可能更“銳”，但結(jié)構(gòu)更容易偏移，完整 PS-SR 在細(xì)節(jié)、穩(wěn)定性、輸入一致性之間更平衡。

速度結(jié)果顯示，PS-SR 采用 1 次 base model 推理 + 3 次 draft model 細(xì)化，推理耗時(shí)接近單步方法，計(jì)算開銷明顯低于多步擴(kuò)散方法，實(shí)用價(jià)值是更適合實(shí)際視頻增強(qiáng)部署。

參數(shù)分析結(jié)果顯示，采樣步數(shù)較少時(shí)結(jié)構(gòu)保真更強(qiáng)，但細(xì)節(jié)不足。采樣步數(shù)較多時(shí)細(xì)節(jié)更豐富，但內(nèi)容偏移風(fēng)險(xiǎn)增加，最終設(shè)置為 T = 4，細(xì)化強(qiáng)度較低時(shí)畫面穩(wěn)定，但不夠清晰，細(xì)化強(qiáng)度較高時(shí)畫面更銳，但可能改變結(jié)構(gòu)，最終設(shè)置為 α = 0.6，draft model 剪枝過少時(shí)速度提升有限，draft model 剪枝過多時(shí)細(xì)節(jié)生成能力不足，最終設(shè)置為剪掉 20 個(gè) DiT block。

這些結(jié)果也解釋了 PS-SR 為什么采用“強(qiáng)模型打底，輕模型精修”的設(shè)計(jì)：它不是單純?cè)黾油评聿襟E來?yè)Q取畫質(zhì)，也不是為了速度壓縮到只剩一次生成，而是在結(jié)構(gòu)恢復(fù)、細(xì)節(jié)補(bǔ)充和計(jì)算成本之間尋找平衡。下面進(jìn)一步拆解研究團(tuán)隊(duì)如何搭建和驗(yàn)證這一流程。

強(qiáng)模型打底，輕模型精修

整體來看，研究的實(shí)驗(yàn)?zāi)康陌?yàn)證 PS-SR 的視頻超分能力，驗(yàn)證“偽單步”框架的速度優(yōu)勢(shì)，驗(yàn)證多步細(xì)化帶來的細(xì)節(jié)提升，驗(yàn)證頻域更新對(duì)結(jié)構(gòu)穩(wěn)定性的作用，驗(yàn)證真實(shí)低質(zhì)視頻中的泛化能力。

數(shù)據(jù)準(zhǔn)備階段使用 YouHQ 高質(zhì)量視頻片段作為訓(xùn)練數(shù)據(jù)，通過 RealESRGAN 退化流程構(gòu)造低質(zhì)輸入，合成測(cè)試集包括 UDM10、SPMCS、YouHQ40，真實(shí)測(cè)試集為 VideoLQ，數(shù)據(jù)覆蓋人物、車輛、動(dòng)物、街景、互聯(lián)網(wǎng)低質(zhì)視頻。

輸入處理階段以低質(zhì)量視頻作為輸入，通過 VAE encoder 編碼，進(jìn)入 latent space 表示空間，目的在于降低視頻處理成本，便于擴(kuò)散模型生成。

base model 階段的模型來源是 Wan2.1 視頻擴(kuò)散基礎(chǔ)模型，微調(diào)方式為 LoRA，主要任務(wù)是一次性恢復(fù)全局結(jié)構(gòu)，重點(diǎn)內(nèi)容包括畫面布局、主體形狀、低頻語(yǔ)義信息，執(zhí)行次數(shù)只執(zhí)行 1 次，設(shè)計(jì)目的在于避免大模型多步推理造成高成本。

base model 訓(xùn)練包括 latent space 訓(xùn)練、VSD 約束、對(duì)抗訓(xùn)練、pixel space 微調(diào)和 patch 訓(xùn)練，其中 latent space 訓(xùn)練用于學(xué)習(xí)低質(zhì)視頻到高質(zhì)視頻的整體映射，VSD 約束用于讓單步輸出接近多步擴(kuò)散模型的質(zhì)量分布，對(duì)抗訓(xùn)練用于增強(qiáng)視覺真實(shí)感，pixel space 微調(diào)用于提升局部區(qū)域質(zhì)量，patch 訓(xùn)練通過隨機(jī)裁剪局部區(qū)域減少顯存壓力。

訓(xùn)練目標(biāo)是全局結(jié)構(gòu)準(zhǔn)確 + 局部細(xì)節(jié)清晰；draft model 階段的模型來源是 base model 的輕量剪枝版本，結(jié)構(gòu)變化是移除部分 DiT block，主要任務(wù)是后續(xù)高頻細(xì)節(jié)補(bǔ)充，重點(diǎn)內(nèi)容包括邊緣、紋理、局部清晰度，執(zhí)行次數(shù)為多次輕量細(xì)化，設(shè)計(jì)目的在于用較小計(jì)算量模擬多步擴(kuò)散的細(xì)節(jié)生成能力。

draft model 特征增強(qiáng)階段將 base model 特征傳遞給 draft model，融合方式為對(duì)應(yīng)層特征拼接，后續(xù)處理通過 FC layer 恢復(fù)維度，作用是讓輕量模型獲得強(qiáng)模型的表達(dá)信息，好處是剪枝后仍保持細(xì)節(jié)生成能力。

draft model 訓(xùn)練以中間 latent 狀態(tài)作為輸入，輸出細(xì)化方向，訓(xùn)練損失為 L2 loss + pixel loss，不使用 VSD 以減少訓(xùn)練復(fù)雜度，不使用對(duì)抗損失以避免過度追求分布對(duì)齊，訓(xùn)練重點(diǎn)是高頻細(xì)節(jié)恢復(fù)。

頻域更新規(guī)則相當(dāng)于給細(xì)節(jié)增強(qiáng)加了一道邊界。模型會(huì)先在像素空間中把畫面從 RGB 轉(zhuǎn)到 YUV，并重點(diǎn)處理亮度信息：上一輪結(jié)果中的整體結(jié)構(gòu)和低頻內(nèi)容被保留下來，當(dāng)前 draft model 預(yù)測(cè)出的高頻紋理則被補(bǔ)充進(jìn)去。

這樣做的好處是，模型不是重新改寫整幅畫面，而是在原有結(jié)構(gòu)上增加細(xì)節(jié)，從而減少語(yǔ)義漂移，讓紋理更豐富，同時(shí)讓主體形狀保持穩(wěn)定。

完整推理流程依次為低質(zhì)視頻輸入、VAE 編碼、base model 單步恢復(fù)、draft model 第 1 次細(xì)化、頻域更新、draft model 第 2 次細(xì)化、頻域更新、draft model 第 3 次細(xì)化、頻域更新、VAE 解碼、高質(zhì)量視頻輸出。

對(duì)比實(shí)驗(yàn)設(shè)置包括多步擴(kuò)散方法 STAR、SeedVR，單步擴(kuò)散方法 DLoRAL、SeedVR2、DOVE，對(duì)比維度包括畫質(zhì)、細(xì)節(jié)、結(jié)構(gòu)一致性、時(shí)間穩(wěn)定性、速度，對(duì)比方式包括量化指標(biāo) + 視覺案例 + 人工評(píng)價(jià)。

評(píng)價(jià)內(nèi)容包括重建類指標(biāo)用于判斷結(jié)構(gòu)是否接近 GT，感知類指標(biāo)用于判斷畫面是否自然、清晰，無參考指標(biāo)用于判斷真實(shí)視頻中的視覺質(zhì)量，時(shí)間一致性指標(biāo)用于判斷幀間是否穩(wěn)定，主觀評(píng)價(jià)用于判斷人眼觀看偏好。

分析實(shí)驗(yàn)包括模塊消融、步數(shù)分析、剪枝分析、強(qiáng)度分析和長(zhǎng)視頻討論，其中模塊消融分析 VSD、對(duì)抗損失、像素監(jiān)督、頻域更新，步數(shù)分析不同 T 的效果，剪枝分析不同 draft model 規(guī)模，強(qiáng)度分析不同 α 的細(xì)節(jié)增強(qiáng)程度，長(zhǎng)視頻討論重疊切片與融合策略。

從看清視頻，到看懂世界

總的來說，這項(xiàng)研究更重要的價(jià)值不只是提出一種視頻超分方法，而是回應(yīng)了普通人日常觀看視頻時(shí)最直接的痛點(diǎn)，也就是低清、模糊、壓縮嚴(yán)重、細(xì)節(jié)丟失和播放不穩(wěn)定。

偽單步框架的意義在于它并不是真正只做 1 步，而是讓視覺體驗(yàn)和速度體驗(yàn)接近單步，同時(shí)在內(nèi)部保留輕量多步細(xì)化，大模型負(fù)責(zé)關(guān)鍵一步，小模型負(fù)責(zé)后續(xù)修補(bǔ)，從而降低計(jì)算量，并保留細(xì)節(jié)生成能力。

base model 的意義在于提供全局結(jié)構(gòu)基礎(chǔ)，保證主體形狀不亂，保證語(yǔ)義內(nèi)容不偏，保證低頻信息穩(wěn)定，相當(dāng)于先把整體輪廓建立準(zhǔn)確。draft model 的意義在于以低成本補(bǔ)充細(xì)節(jié)，模擬多步擴(kuò)散的細(xì)化過程，提升邊緣、紋理、局部清晰度，避免每一步都使用大模型，相當(dāng)于在穩(wěn)定輪廓上繼續(xù)補(bǔ)充紋理。

頻域更新的意義在于把結(jié)構(gòu)和細(xì)節(jié)分開處理，低頻負(fù)責(zé)整體內(nèi)容，高頻負(fù)責(zé)紋理細(xì)節(jié)，只更新高頻可以減少內(nèi)容改寫，保留低頻可以增強(qiáng)輸入輸出一致性，關(guān)鍵價(jià)值是防止越修越偏。

對(duì)畫質(zhì)提升來說，PS-SR 能讓細(xì)節(jié)增強(qiáng)更自然，人臉區(qū)域更可信，物體邊緣更清楚，背景紋理更豐富，畫面不容易假銳化，結(jié)果更接近真實(shí)高清視頻。對(duì)視頻穩(wěn)定性來說，它提升的不只是單幀清晰度，還能減少幀間閃爍，讓運(yùn)動(dòng)變化更平滑，讓觀看體驗(yàn)更舒服，這一點(diǎn)對(duì)真實(shí)視頻應(yīng)用尤其重要。

從效率的角度來看，大模型只運(yùn)行關(guān)鍵一步，輕量模型承擔(dān)重復(fù)細(xì)化，推理速度接近單步方法，計(jì)算成本遠(yuǎn)低于完整多步擴(kuò)散，更利于部署在視頻增強(qiáng)系統(tǒng)中。

實(shí)際應(yīng)用上，這項(xiàng)研究可用于互聯(lián)網(wǎng)低清視頻增強(qiáng)、老視頻修復(fù)、短視頻平臺(tái)畫質(zhì)提升、監(jiān)控視頻清晰化、壓縮視頻修復(fù)和長(zhǎng)視頻分段增強(qiáng)。

對(duì)后續(xù)研究來說，強(qiáng)模型 + 輕模型協(xié)作范式、頻域約束生成思路可以遷移到視頻去噪、去模糊、去壓縮偽影，也能啟發(fā)其他生成任務(wù)中的低成本多步細(xì)化，對(duì)實(shí)時(shí)高保真視頻生成具有參考價(jià)值。

總體來看，研究形成了一個(gè)面向視頻超分的效率質(zhì)量折中方案，一個(gè)減少擴(kuò)散模型推理成本的結(jié)構(gòu)設(shè)計(jì)，一個(gè)控制語(yǔ)義漂移的頻域細(xì)化機(jī)制，以及一個(gè)更接近實(shí)際部署需求的視頻增強(qiáng)框架。

去哪看 CVPR 核心【演講/論文】詳解？

為了讓國(guó)內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時(shí)差地掌握本屆 CVPR 2026 的完整干貨，雷峰網(wǎng)已全面上線【CVPR 2026 深度專區(qū)】。

專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續(xù)更新前方記者的第一手會(huì)議動(dòng)態(tài)。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個(gè)五年！

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.