无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

視頻版Vision-Banana來了?大一統框架UniVidX刷新視頻任務SOTA

0
分享至



近日,由香港科技大學 MMLab 及合作團隊完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被計算機圖形學頂級會議 SIGGRAPH 2026 正式接收。



  • 論文地址:https://arxiv.org/pdf/2605.00658
  • 代碼:https://github.com/houyuanchen111/UniVidX
  • 項目主頁:https://huggingface.co/houyuanchen/UniVidX



圖 1:該圖系統性展示了 UniVidX 在多模態視頻生成中的統一建模能力,覆蓋 Text→X、X→X 及 Text&X→X 三類核心范式。上半部分為 UniVid-Intrinsic,支持逆向渲染、重打光、Intrinsic 生成等任務;下半部分為 UniVid-Alpha,支持 RGBA 生成、視頻摳圖與視頻 inpainting 等任務。結果表明,單一框架即可覆蓋原本需要多個獨立模型完成的復雜視頻圖形任務。

該工作提出了一個面向多模態視頻生成與理解的一體化統一框架 UniVidX,在多項視頻圖形任務上達到或刷新當前最優性能,標志著視頻擴散模型在通用化方向上的重要進展。



圖 2:該圖展示了 UniVidX 的核心結構,包括隨機條件掩碼、解耦門控 LoRA 以及跨模態自注意力。不同模態在訓練中被動態劃分為條件或目標,從而實現全方向生成能力。通過共享注意力機制與模塊化參數適配,模型在保證一致性的同時有效避免模態間干擾。

長期以來,視頻圖形學與視頻生成領域的發展呈現出明顯的任務割裂。不同問題往往依賴獨立建模,例如視頻逆向渲染、視頻重打光、視頻摳圖、視頻 inpainting 以及文生視頻等任務,通常需要分別訓練專用模型來完成。

這種以固定輸入——輸出映射為核心的建模方式,限制了模型對復雜真實場景的適應能力,也阻礙了跨任務知識的共享與遷移。在實際應用中,視頻內容往往涉及多種模態與多種操作的組合,傳統方法難以提供統一且高效的解決路徑。



圖 3:該圖對比了 UniVid-Intrinsic 與現有方法在 Intrinsic 生成任務中的表現。相比基線方法存在的模態錯位與細節缺失,UniVidX 在 RGB、反照率與法線之間保持了更高的一致性。結果表明,該方法能夠穩定生成具有物理一致性的多模態視頻序列。

針對這一問題,UniVidX 從建模范式上進行了系統性重構。該框架的核心思想,是將不同視頻圖形任務統一為多模態條件生成問題,使任意模態既可以作為輸入條件,也可以作為生成目標,從而實現「任意模態到任意模態」的統一建模能力。在這一統一空間中,RGB 視頻、法線、反照率、光照、Alpha 通道以及前景背景等信息不再彼此割裂,而是通過共享的生成機制進行協同建模。



圖 4:該圖展示了 UniVidX 在 Intrinsic 生成和 RGBA 生成任務中的定量評測。無論在用戶評分還是時間一致性指標上,UniVidX 均優于現有方法。值得注意的是,該方法可實現多層分解生成,體現出更強的統一建模能力。

為了實現這一統一能力,UniVidX 在模型結構與訓練機制上提出了一系列關鍵設計。

首先,通過隨機條件掩碼機制,模型在訓練過程中不斷改變輸入與輸出模態的劃分,從而學習全方向的生成關系,而非固定映射。這一機制使模型具備更強的泛化能力,可以適應多樣化的任務需求。

其次,通過解耦門控 LoRA,模型為不同模態分配獨立參數空間,并在對應模態作為生成目標時動態激活,從而有效避免不同模態之間的參數干擾,同時保留預訓練擴散模型的原始生成能力。

此外,跨模態自注意力機制通過在不同模態之間共享信息,實現了幾何、光照與語義層面的統一約束,顯著提升了生成結果的一致性與穩定性。



圖 5:該表系統比較了 UniVid-Intrinsic 與多種代表性方法在反照率、光照、法線及正向渲染任務上的性能。UniVidX 在 PSNR、SSIM 及 LPIPS 等指標上整體領先。結果驗證了統一框架在多任務場景中的綜合優勢。

在具體實現上,研究團隊基于該框架構建了兩個代表性模型,用于覆蓋不同類型的視頻圖形任務。UniVid-Intrinsic 面向 Intrinsic,可統一處理 RGB、反照率、輻照度和法線等模態,支持文本到 Intrinsic 生成、視頻逆向渲染、正向渲染以及視頻重打光等任務。

與此同時,UniVid-Alpha 面向視頻層級分解與合成,統一建模混合視頻、前景、背景與 Alpha 通道,支持視頻摳圖、視頻 inpainting 以及前景與背景替換等關鍵應用。兩個模型在統一框架下共同支持 Text→X、X→X 以及 Text&X→X 三類生成范式,總計覆蓋十五類典型視頻任務,驗證了該方法的廣泛適用性。



圖 6:該圖展示了不同方法在逆向渲染和正向渲染任務中的視覺效果。相比其他方法存在的偽影與細節丟失,UniVidX 生成結果更接近真實分布。尤其在光照一致性與幾何細節方面,表現出更高的穩定性與精度。

值得關注的是,UniVidX 在數據效率方面表現出顯著優勢。實驗結果表明,即使在不足千條視頻的數據規模下,模型仍能夠在多個任務上達到或超過現有最優方法,并在真實場景與分布外數據上保持良好的泛化能力。這一現象表明,該方法并非依賴大規模任務數據進行學習,而是通過合理的結構設計與訓練策略,有效激活并利用了預訓練視頻擴散模型中蘊含的動態世界先驗。



圖 7:該表展示了 UniVidX 在真實世界 MAW 數據集上的反照率估計性能。盡管僅在合成數據上訓練,模型仍取得最佳強度誤差指標,并在色度誤差上保持競爭力。結果表明該方法具備良好的跨域泛化能力。

在系統評測方面,UniVidX 在多個關鍵任務中取得領先表現。在視頻逆向渲染與正向渲染任務中,模型在 PSNR、SSIM 及感知指標上整體優于現有擴散模型方法;在法線估計任務中,在顯著減少訓練數據規模的情況下仍達到接近甚至優于專用模型的性能;在視頻摳圖任務中,作為無需額外輔助信息的模型,其結果超過多種依賴 mask 輸入的方法。同時,在文本驅動生成任務中,模型在視覺質量、語義一致性以及跨模態一致性方面均獲得更高評價,且在時間一致性方面顯著優于圖像級方法。



圖 8:該表對比了 UniVidX 與多種專用法線估計方法的性能。盡管訓練數據規模顯著更小,UniVidX 仍達到接近甚至優于部分專用模型的精度。該結果體現了利用擴散先驗進行統一建模的高數據效率優勢。

從更高層面來看,UniVidX 的價值不僅體現在單項任務性能的提升上,更體現在其系統能力的整合與擴展。由于所有模態共享統一的生成框架,不同任務可以在同一模型內部靈活組合,從而支持更加復雜的視頻編輯與內容生成流程。

例如,可以先進行視頻逆向渲染獲取物理屬性,再基于文本進行重打光或材質編輯;也可以通過 Alpha 分解實現視頻 inpainting 與背景替換。這種多模態可組合的能力,使 UniVidX 從單一模型擴展為面向復雜應用的統一視頻圖形引擎。



圖 9:該表展示了 UniVid-Alpha 在視頻摳圖任務上的定量表現。作為無需輔助 mask 輸入的方法,UniVidX 在 MAD、MSE 等關鍵指標上優于多種現有方法。結果說明擴散模型先驗能夠有效替代傳統顯式分割信號。

總體而言,UniVidX 的提出標志著視頻擴散模型正在從單一任務工具向通用視頻圖形基礎模型轉變。該工作驗證了一個重要方向:在具備強大預訓練先驗的前提下,通過合理的多模態建模機制,可以將傳統圖形學中的分解、估計、生成與編輯任務統一到同一框架中。這一進展不僅為視頻生成與理解提供了新的技術路徑,也為自動駕駛仿真、具身智能、影視制作等領域的實際應用奠定了重要基礎。

作者介紹


本文第一作者為南京大學本科生陳厚源,即將入學香港科技大學 MMLab 開展研究。本文通訊作者為香港科技大學 MMLab 饒安逸老師。值得一提的是,斯坦福大學博士生 Lvmin Zhang 也是本文作者之一,他此前曾與饒安逸老師合作完成 ControlNet、IC-Light 等代表性工作,其中 ControlNet 曾獲 ICCV Marr Prize。此外,清華大學趙昊老師也為該工作提供了重要指導,共同推動了項目的完成。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方官宣特朗普訪華,英媒提醒:現在的中國,是更強大可怕的對手

中方官宣特朗普訪華,英媒提醒:現在的中國,是更強大可怕的對手

面包夾知識
2026-05-11 16:25:09
蘋果 iPhone Air 又降價,再次刷新歷史!

蘋果 iPhone Air 又降價,再次刷新歷史!

XCiOS俱樂部
2026-05-10 20:23:44
快訊/愷樂二度懷孕「是雙胞胎」! 母親節喜曬超音波:謝謝選我當媽媽

快訊/愷樂二度懷孕「是雙胞胎」! 母親節喜曬超音波:謝謝選我當媽媽

ETtoday星光云
2026-05-11 12:18:03
水谷隼:日本隊要想戰勝中國隊,必須要好好研究孫穎莎

水谷隼:日本隊要想戰勝中國隊,必須要好好研究孫穎莎

懂球帝
2026-05-10 22:57:36
《GTA6》雙平臺畫質引熱議!評論區玩家已吵翻

《GTA6》雙平臺畫質引熱議!評論區玩家已吵翻

游民星空
2026-05-11 17:05:22
“莫氏雞煲”爆火后,千萬美食博主劉雨鑫再探"全佛山最靚的雞",生意爆滿客流翻3倍,老板發聲:還沒做好火的準備,勸網友別跑那么遠來吃

“莫氏雞煲”爆火后,千萬美食博主劉雨鑫再探"全佛山最靚的雞",生意爆滿客流翻3倍,老板發聲:還沒做好火的準備,勸網友別跑那么遠來吃

極目新聞
2026-05-10 18:52:07
物理老師用道具冒充金條測密度后道歉

物理老師用道具冒充金條測密度后道歉

三言科技
2026-05-11 18:20:07
打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

細說職場
2026-04-28 10:39:02
從風塵女子到海盜女王:逐漸遺忘的一個中國女人,被西方尊為偉人

從風塵女子到海盜女王:逐漸遺忘的一個中國女人,被西方尊為偉人

文史達觀
2026-05-09 18:24:16
打過科興疫苗的朋友,最近一定要提高警惕!千萬不要被騙!

打過科興疫苗的朋友,最近一定要提高警惕!千萬不要被騙!

網絡易不易
2026-05-10 11:34:41
《地獄老師》重啟版上線Netflix,時隔30年回歸

《地獄老師》重啟版上線Netflix,時隔30年回歸

影視情報室
2026-05-10 10:03:33
別不信!央國企裁員,最先安全的不是95后,是45歲這批“老油條”

別不信!央國企裁員,最先安全的不是95后,是45歲這批“老油條”

職場資深秘書
2026-04-28 22:32:48
內娛嘴親爛了也沒他倆眼神動人!道哥實錘:這才是真CP感

內娛嘴親爛了也沒他倆眼神動人!道哥實錘:這才是真CP感

可樂談情感
2026-05-11 20:53:09
馬斯克硬剛法國司法:用法語爆粗辱罵法官,這次真鬧大了!

馬斯克硬剛法國司法:用法語爆粗辱罵法官,這次真鬧大了!

新歐洲
2026-05-10 16:06:11
科學家首拍抹香鯨撞頭:200年傳說被證實

科學家首拍抹香鯨撞頭:200年傳說被證實

理性之光啊
2026-05-11 10:54:42
杭州夏天平均時長140天!今日剛入夏,就被熱到了……

杭州夏天平均時長140天!今日剛入夏,就被熱到了……

都市快報橙柿互動
2026-05-11 15:15:05
他離開司令員崗位,生活急轉直下,為了改善生活,讓兒女南下打拼

他離開司令員崗位,生活急轉直下,為了改善生活,讓兒女南下打拼

微野談寫作
2026-05-10 13:00:08
回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

素衣讀史
2026-03-31 15:11:31
步行者老板道歉:我承擔全部責任,沒想到只有第5順位

步行者老板道歉:我承擔全部責任,沒想到只有第5順位

林子說事
2026-05-11 08:57:23
141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

素衣讀史
2026-05-11 21:36:46
2026-05-11 22:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12970文章數 142648關注度
往期回顧 全部

科技要聞

黃仁勛:你們趕上了一代人一次的大機會

頭條要聞

重慶一57歲女醫生駕奔馳釀車禍 操作不當致2死6傷

頭條要聞

重慶一57歲女醫生駕奔馳釀車禍 操作不當致2死6傷

體育要聞

梁靖崑:可能是最后一屆了,想讓大家記住這個我

娛樂要聞

“孕婦墜崖案”王暖暖稱被霸凌協商解約

財經要聞

宗馥莉罷免銷售負責人 部分業務將外包

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

手機
教育
旅游
公開課
軍事航空

手機要聞

姜超吐槽手機圈果味太重:紅魔11S Pro透明機身跑水冷 業內獨一份

教育要聞

最被QS2027看好的幾所學校!

旅游要聞

臨沂醉美花海!五月臨沂必打卡,錯過等1年!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:伊朗的回應“完全不可接受”

無障礙瀏覽 進入關懷版