網易首頁 > 網易號 > 正文 申請入駐

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

0
分享至



當 Sora 讓世界看到了 AI 生成視頻的驚艷效果,一個更深層的問題浮出水面:如何讓生成的視頻不只是「看起來像」,而是真正理解并遵循物理世界的規律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰。當生成時長從幾秒擴展到幾分鐘,模型不僅要畫面逼真,更要在長時間尺度上保持結構、行為與物理規律的一致性。然而,誤差累積與語義漂移往往導致長視頻出現畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關鍵瓶頸。

圍繞這一挑戰,上海人工智能實驗室聯合復旦大學、南京大學、南洋理工大學 S-Lab 等單位提出了LongVie 2—— 一個能夠生成長達5 分鐘高保真、可控視頻的世界模型框架



LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻

  • 論文:https://arxiv.org/pdf/2512.13604
  • 項目主頁:https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型?

一個理想的視頻世界模型,不應只是「生成得更久」,而應同時具備以下三項核心能力:

  • 全面可控性(Comprehensive Controllability):能夠在長時間生成過程中穩定響應多種控制信號,保持場景結構與運動意圖不漂移;
  • 長期視覺保真(Long-term Fidelity):隨著時間推進,畫面質量不發生明顯退化,不出現紋理崩塌或細節丟失;
  • 長程上下文一致性(Long-context Consistency):跨片段、跨時間保持語義、身份與物理規律的一致,避免「換世界式」斷裂。

現有世界模型的瓶頸在哪里?

本文系統調研了當前主流的視頻世界模型,發現一個共同問題:隨著生成時長的增加,模型的可控性、視覺保真度與時間一致性會同步下降。



現有模型在長時間生成時的退化問題

LongVie 2:三階段遞進式訓練

為系統性解決上述挑戰,LongVie 2 設計了一套逐層遞進的三階段訓練策略,從控制、穩定性到時間一致性層層強化:



LongVie 2 三階段訓練流程

階段一:Dense & Sparse 多模態控制

通過引入稠密信號(如深度圖)與稀疏信號(如關鍵點軌跡),為模型提供穩定且可解釋的世界約束。這使生成過程不再完全依賴隱式記憶,從源頭提升長程可控性。

階段二:退化感知訓練(Degradation-aware Training)

長視頻生成中,質量衰減幾乎不可避免。LongVie 2 的核心創新在于:在訓練階段主動「制造困難」——



退化感知訓練示意圖

  • 利用 VAE 的多次 encode-decode 模擬重建誤差;
  • 通過 加噪 + Diffusion 去噪 構造退化圖像。

以此作為訓練信號,使模型學會在不完美輸入下保持穩定生成,顯著增強長期視覺保真度。

階段三:歷史上下文建模

在生成過程中顯式引入歷史片段信息,并通過針對性 loss 約束相鄰片段的銜接,使跨片段過渡更加自然順暢,有效緩解長視頻中的語義斷裂與邏輯跳變問題。



三階段訓練效果對比

一圖看懂 LongVie 2 框架

通過多模態控制、退化感知訓練與歷史上下文建模的協同設計,LongVie 2 將長視頻生成從「片段拼接」提升為持續演化的世界建模過程:



LongVie 2 整體框架

從左至右,LongVie 2 首先將跨片段的稠密(深度)與稀疏(關鍵點)控制視頻做全局歸一化,并為所有片段采用統一的噪聲初始化。隨后在每一片段生成時,將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型,逐步生成完整的長視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進行了對比。結果顯示,LongVie 2 在可控性方面表現顯著優于現有方法:



與現有方法的可控性對比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實驗也充分驗證了三階段訓練的有效性:



消融實驗結果

LongVGenBench

首個可控超長視頻評測基準

當前缺乏面向可控長視頻生成的標準化評測。為此,本文提出LongVGenBench—— 首個專為超長視頻生成設計的基準數據集,包含100 個時長超過 1 分鐘的高分辨率視頻,覆蓋真實世界與合成環境的多樣場景,旨在推動該方向的系統研究與公平評測。

定量評估與用戶主觀測評結果顯示,LongVie 2 在多項指標上達到SOTA 水平,并獲得最高用戶偏好度:





定量評測結果與用戶研究

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3-1!利物浦終結對苦主3連敗 3連勝后升第4 領先8分+歐冠席位穩了

3-1!利物浦終結對苦主3連敗 3連勝后升第4 領先8分+歐冠席位穩了

我愛英超
2026-04-26 00:04:14
巴薩豪取西甲9連勝!最快7天后奪冠,11戰赫塔費不敗,連刷4紀錄

巴薩豪取西甲9連勝!最快7天后奪冠,11戰赫塔費不敗,連刷4紀錄

奧拜爾
2026-04-26 00:08:30
打虎!伍浩被查

打虎!伍浩被查

新京報
2026-04-25 17:24:34
張軍被帶走傳聞多日,多種跡象表明情況嚴重,任職高校撤掉其信息

張軍被帶走傳聞多日,多種跡象表明情況嚴重,任職高校撤掉其信息

米修體育
2026-04-25 09:38:35
消息人士:伊朗外長或在未來率團返回伊斯蘭堡

消息人士:伊朗外長或在未來率團返回伊斯蘭堡

新華社
2026-04-25 23:25:26
4200萬人斷繳社保,年輕人和靈活就業群體斷繳率最高,均超30%!

4200萬人斷繳社保,年輕人和靈活就業群體斷繳率最高,均超30%!

燈錦年
2026-04-25 15:52:24
4名主播同日宣布離開東方甄選,均提到不適應公司新變化,都感謝了俞敏洪

4名主播同日宣布離開東方甄選,均提到不適應公司新變化,都感謝了俞敏洪

極目新聞
2026-04-25 18:36:08
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
美國發出宣戰書!美軍集結到位,21國要求本國公民立即從伊朗撤離

美國發出宣戰書!美軍集結到位,21國要求本國公民立即從伊朗撤離

史政先鋒
2026-04-25 14:47:45
消息人士:伊朗立場比第一輪談判時更加強硬

消息人士:伊朗立場比第一輪談判時更加強硬

新華社
2026-04-25 19:05:13
長沙公園驚現 “老年服務圈”!低價剛需服務,姑娘邊服務邊嘮嗑

長沙公園驚現 “老年服務圈”!低價剛需服務,姑娘邊服務邊嘮嗑

社會日日鮮
2026-04-25 19:09:27
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
河北偷狗女子社會性死亡:人被拘了,名聲臭了,更惡心的還在后面

河北偷狗女子社會性死亡:人被拘了,名聲臭了,更惡心的還在后面

社會日日鮮
2026-04-25 19:02:51
良品鋪子墜入深淵:連虧兩年、股東出逃、債務暴雷,困局難破

良品鋪子墜入深淵:連虧兩年、股東出逃、債務暴雷,困局難破

深潛atom
2026-04-24 10:08:58
斯凱奇,在三亞交上「專業」答卷 !

斯凱奇,在三亞交上「專業」答卷 !

跑步俠
2026-02-05 16:46:15
社保嚴查全面收緊!無數中小企業,正在為十年前的小聰明買單

社保嚴查全面收緊!無數中小企業,正在為十年前的小聰明買單

芳姐侃社會
2026-04-25 18:32:12
美國被曝考慮“懲罰”西班牙 桑切斯:支持盟友須遵守國際法

美國被曝考慮“懲罰”西班牙 桑切斯:支持盟友須遵守國際法

環球網資訊
2026-04-25 14:06:16
特朗普吹大了,中國說到做到,一塊H200芯片都不買,美國開始急了

特朗普吹大了,中國說到做到,一塊H200芯片都不買,美國開始急了

普陀動物世界
2026-04-25 17:13:08
五一前后,盡量不要買這“3菜2果”,販子自己都不吃,看完長見識

五一前后,盡量不要買這“3菜2果”,販子自己都不吃,看完長見識

阿龍美食記
2026-04-25 14:05:22
天助曼聯:0-1,英超第4遭英超第2掀翻,維拉無緣反超曼聯升至第3

天助曼聯:0-1,英超第4遭英超第2掀翻,維拉無緣反超曼聯升至第3

側身凌空斬
2026-04-25 21:21:39
2026-04-26 03:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

數碼
藝術
健康
旅游
公開課

數碼要聞

聯發科亮相2026北京車展:主動式智能體座艙解決方案

藝術要聞

最適合作為抖音總部的大樓,它在福建莆田!

干細胞如何讓燒燙傷皮膚"再生"?

旅游要聞

美猴王VS水蜜桃,連云港、無錫文旅“雙向奔赴”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版