亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

川大雷印杰團(tuán)隊(duì)論文:用現(xiàn)實(shí)物理規(guī)律「重寫」視頻生成方式丨CVPR 2026

0
分享至


基于事件鏈與關(guān)鍵幀機(jī)制,提升時(shí)序與因果一致性。

作者丨鄭佳美

編輯丨岑 峰

想象這樣一些常見卻又微妙的場景:一勺蜂蜜緩慢倒入熱茶,本應(yīng)拉出細(xì)長連續(xù)的絲狀流動(dòng),但很多生成視頻卻會(huì)突然斷裂甚至憑空消失;一塊冰在室溫下逐漸融化,真實(shí)過程應(yīng)該是邊緣先軟化、體積變化、最終消散,而生成結(jié)果卻常常直接從完整變成消失;一個(gè)玻璃球落入水中,本應(yīng)經(jīng)歷接觸水面、減速下沉、逐漸穩(wěn)定的過程,但模型卻可能只給出一個(gè)結(jié)果畫面。

這些現(xiàn)象并不罕見,也正是當(dāng)前視頻生成技術(shù)最容易讓人出戲的地方。畫面看起來像,但過程不對(duì),缺乏因果關(guān)系,也缺乏真實(shí)世界中那種連續(xù)演化的邏輯。

隨著視頻生成模型的發(fā)展,從 OpenAI Sora 到 Kling 等系統(tǒng)不斷刷新視覺質(zhì)量的上限,行業(yè)已經(jīng)基本解決了清晰度和風(fēng)格的問題,卻逐漸暴露出更深層的瓶頸,即模型缺乏對(duì)物理規(guī)律的理解能力。

現(xiàn)有方法更多依賴數(shù)據(jù)驅(qū)動(dòng)的模式匹配,本質(zhì)上是在生成看起來合理的結(jié)果,而不是在模擬真實(shí)發(fā)生的過程,這也導(dǎo)致在流體、熱變化以及多物體交互等場景中表現(xiàn)明顯不足。

在這樣的背景下,來自四川大學(xué)的雷印杰團(tuán)隊(duì)提出了一項(xiàng)新的研究工作《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。這項(xiàng)研究不再直接從文本生成視頻,而是嘗試讓模型先理解物理過程本身,將復(fù)雜現(xiàn)象拆分為一系列具有因果關(guān)系的事件,并結(jié)合物理規(guī)律進(jìn)行約束,再逐步生成視頻內(nèi)容。

通過這種方式,目標(biāo)不再只是讓畫面看起來真實(shí),而是讓變化過程本身也符合現(xiàn)實(shí)世界的運(yùn)行邏輯,從而在更深層次上提升視頻生成的可信度和一致性。


論文地址:https://arxiv.org/pdf/2603.09094

01


更加符合「真實(shí)世界」的方式

在實(shí)驗(yàn)結(jié)果方面,研究團(tuán)隊(duì)首先在 PhyGenBench 數(shù)據(jù)集上進(jìn)行了系統(tǒng)評(píng)估。這個(gè)數(shù)據(jù)集包含 160 條物理描述,覆蓋力學(xué)、光學(xué)、熱學(xué)和材料四類典型物理場景。

整體性能上,研究方法取得了 0.66 的得分,而此前最優(yōu)方法 PhysHPO 為 0.61,實(shí)現(xiàn)了 0.05 的絕對(duì)提升,對(duì)應(yīng)約 8.19% 的相對(duì)提升。同時(shí),與基礎(chǔ)視頻生成模型相比優(yōu)勢更加明顯,例如 Kling 為 0.49,Gen-3 為 0.51,CogVideoX 為 0.45,而研究方法達(dá)到 0.66,相當(dāng)于提升約 0.15 到 0.21,整體相對(duì)提升超過 30%,說明性能提升幅度非常顯著。

在分領(lǐng)域結(jié)果上,研究方法在四個(gè)方向分別取得了不同成績。力學(xué)方向?yàn)?0.67,相比此前約 0.55 提升了 0.12;光學(xué)方向?yàn)?0.72,相比 0.68 提升了 0.04,熱學(xué)方向?yàn)?0.65,相比 0.58 提升了 0.07;材料方向?yàn)?0.60,雖然低于最高值 0.65,但仍保持接近水平。從整體來看,在四個(gè)物理領(lǐng)域中有三個(gè)取得第一,綜合表現(xiàn)最強(qiáng)。


進(jìn)一步的細(xì)粒度分析中,研究團(tuán)隊(duì)將能力拆分為物理現(xiàn)象識(shí)別能力和物理順序正確性兩個(gè)指標(biāo)。在力學(xué)場景中,研究方法的物理現(xiàn)象識(shí)別為 0.79,物理順序?yàn)?0.79,而對(duì)比方法 DiffPhy 分別為 0.73 和 0.53,順序正確性從 0.53 提升到 0.79,提升幅度達(dá)到 0.26。

在光學(xué)場景中,研究方法分別為 0.84 和 0.85,對(duì)比方法為 0.83 和 0.66,順序提升為 0.19。在熱學(xué)場景中,研究方法為 0.78 和 0.69,對(duì)比方法為 0.70 和 0.58,順序提升為 0.11。可以看出,最顯著的提升集中在物理過程順序這一指標(biāo)上,說明模型在時(shí)間順序和因果邏輯方面的能力得到明顯增強(qiáng)。


在 VideoPhy 數(shù)據(jù)集上,研究方法同樣表現(xiàn)出良好的泛化能力。這個(gè)數(shù)據(jù)集包含 688 條更貼近真實(shí)應(yīng)用的提示,涵蓋固體與固體、固體與液體以及液體與液體之間的復(fù)雜交互。評(píng)價(jià)指標(biāo)為同時(shí)滿足語義一致性和物理合理性的比例,即語義正確且物理正確。

研究方法取得 49.3% 的結(jié)果,而此前最優(yōu)方法約為 45.9%,提升 3.4%。與基礎(chǔ)模型相比,CogVideoX 為 39.6%,研究方法提升了 9.7%。在不同交互類型中,提升最明顯的是流體相關(guān)場景,例如液體流動(dòng)、蜂蜜倒入等連續(xù)變化過程,整體提升超過 10%,說明在處理連續(xù)物理動(dòng)態(tài)方面具有明顯優(yōu)勢。


為了進(jìn)一步驗(yàn)證方法的有效性,研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。在去掉物理公式模塊后,性能從 0.66 下降到 0.62,下降 0.04,約 6%。去掉事件分解模塊后,結(jié)果降至 0.59,下降 0.07,約 11%。去掉文本漸進(jìn)生成模塊后,結(jié)果為 0.64,下降 0.02,約 3%。而去掉關(guān)鍵幀生成模塊后,性能降至 0.55,下降 0.11,約 17%,是影響最大的部分。這說明事件鏈結(jié)構(gòu)和關(guān)鍵幀機(jī)制在整個(gè)方法中起到最核心作用。


此外,研究團(tuán)隊(duì)還分析了事件數(shù)量對(duì)性能的影響。當(dāng)事件數(shù)量為 1 到 3 時(shí),由于信息不足,性能下降;當(dāng)事件數(shù)量為 4 時(shí),性能達(dá)到最佳;當(dāng)增加到 5 到 6 時(shí),由于誤差在關(guān)鍵幀和推理過程中逐步累積,性能反而下降。這說明事件數(shù)量存在一個(gè)最優(yōu)范圍,過少無法表達(dá)完整過程,過多會(huì)引入不穩(wěn)定性。


02


從一句話,到一整個(gè)物理過程

為了得到滿意的實(shí)驗(yàn)結(jié)果,研究團(tuán)隊(duì)首先進(jìn)行了統(tǒng)一的實(shí)驗(yàn)設(shè)置。視頻生成模型采用 CogVideoX-5B,生成視頻的分辨率為 1360×768,每個(gè)視頻包含 161 幀。在語言推理部分,使用的模型為 GPT-OSS-20B,在圖像編輯階段使用 Qwen-Image 模型,用于生成關(guān)鍵幀并引導(dǎo)后續(xù)視頻生成過程。

在具體流程上,整個(gè)過程按照多個(gè)步驟逐步進(jìn)行。首先輸入文本描述,例如“蜂蜜倒入杯中”。隨后模型對(duì)文本進(jìn)行理解,自動(dòng)識(shí)別其中涉及的物理規(guī)律,例如判斷屬于流體力學(xué)范疇,并識(shí)別出包含體積變化和連續(xù)流動(dòng)等特征。在完成物理規(guī)律識(shí)別之后,系統(tǒng)會(huì)從知識(shí)庫中檢索與這一過程相對(duì)應(yīng)的物理公式,用于后續(xù)推理和約束。


在此基礎(chǔ)上,研究團(tuán)隊(duì)構(gòu)建事件鏈結(jié)構(gòu),即通過 PECR 模塊將完整物理過程拆分為多個(gè)連續(xù)事件。例如將“蜂蜜倒入杯中”這一過程分解為開始倒入、接觸杯子、液體逐漸堆積以及液面上升等階段。

每一個(gè)事件不僅包含對(duì)應(yīng)的語義描述,還包含物理參數(shù)信息,例如高度和體積變化,同時(shí)還包括場景關(guān)系信息,例如不同物體之間的上下關(guān)系。通過這種方式,將原本連續(xù)的物理過程轉(zhuǎn)化為離散的事件序列,從而為后續(xù)建模提供清晰的結(jié)構(gòu)。


接下來進(jìn)入語義提示生成階段。模型會(huì)為每一個(gè)事件生成對(duì)應(yīng)的描述語句,然后再將這些描述整合為一個(gè)完整的句子,通常采用“首先、然后、最后”等表達(dá)形式,從而形成具有因果邏輯的整體語義提示,保證事件之間的順序關(guān)系清晰一致。

隨后進(jìn)行視覺提示生成,即關(guān)鍵幀生成階段。針對(duì)每一個(gè)事件生成一張對(duì)應(yīng)圖像,并通過圖像編輯方式逐步對(duì)畫面進(jìn)行修改,同時(shí)控制變化幅度,例如液體高度的增加量。這種方式能夠避免完全隨機(jī)生成,使視覺變化更加穩(wěn)定且符合物理過程。

在關(guān)鍵幀生成完成之后,系統(tǒng)會(huì)在相鄰關(guān)鍵幀之間插入中間幀,通過插值方式構(gòu)建連續(xù)過渡,再將這些信息輸入擴(kuò)散模型,最終生成完整視頻。


在對(duì)比實(shí)驗(yàn)部分,研究團(tuán)隊(duì)采用統(tǒng)一設(shè)置進(jìn)行評(píng)估,包括使用相同的文本輸入、相同的數(shù)據(jù)集以及相同的評(píng)價(jià)指標(biāo)。在此基礎(chǔ)上,將研究方法與不同類型模型進(jìn)行對(duì)比,包括普通視頻生成模型如 Kling 和 Gen-3,以及物理增強(qiáng)模型如 DiffPhy 和 PhysHPO,從而保證實(shí)驗(yàn)結(jié)果具有公平性和可比性。

03


從生成畫面,到模擬現(xiàn)實(shí)

這項(xiàng)研究的意義,其實(shí)可以從一個(gè)很直觀的變化來理解。以往的視頻生成更像是在“拼畫面”,模型只需要讓結(jié)果看起來像真實(shí)世界即可,但一旦仔細(xì)觀察過程,就會(huì)發(fā)現(xiàn)很多不合理之處。例如液體不會(huì)連續(xù)流動(dòng),物體運(yùn)動(dòng)缺乏前后關(guān)系,甚至出現(xiàn)違背常識(shí)的變化。這些問題本質(zhì)上源于模型缺乏因果關(guān)系、時(shí)間邏輯以及對(duì)物理規(guī)律的理解,使得視頻雖然“像”,卻不“真”。

研究團(tuán)隊(duì)在此基礎(chǔ)上帶來的改變,是把視頻生成從簡單的畫面合成,轉(zhuǎn)變?yōu)閷?duì)過程本身的建模。原本是從文本直接生成一段圖像序列,現(xiàn)在變成先構(gòu)建一條具有因果關(guān)系的事件鏈,再基于這條事件鏈生成視頻。

這樣的變化意味著模型不再只是輸出結(jié)果,而是開始“經(jīng)歷過程”,在結(jié)構(gòu)上自然引入時(shí)間順序和前后邏輯,使視頻更接近現(xiàn)實(shí)世界的演化方式。

這種能力提升的關(guān)鍵在于三個(gè)方面的結(jié)合。首先是物理約束能力,通過引入物理公式,讓生成過程不再隨意變化,而是受到現(xiàn)實(shí)規(guī)律的限制。其次是因果結(jié)構(gòu)建模能力,通過事件鏈明確每一步應(yīng)該如何發(fā)生,保證順序正確。最后是視覺錨點(diǎn)能力,通過關(guān)鍵幀約束中間過程,使畫面變化更加連續(xù)和穩(wěn)定。這三者共同作用,使模型從“生成看起來合理的結(jié)果”,邁向“模擬真實(shí)發(fā)生的過程”。

當(dāng)然,這一變化對(duì)普通人的影響其實(shí)非常直接。未來在短視頻創(chuàng)作中,用戶只需要輸入一個(gè)簡單描述,就可以生成更真實(shí)、更連貫的動(dòng)態(tài)內(nèi)容,不再出現(xiàn)違和感;在教育場景中,可以用視頻直觀展示復(fù)雜的物理過程,例如液體流動(dòng)、光線傳播或物體運(yùn)動(dòng),讓抽象概念變得可視化;在游戲和虛擬世界中,環(huán)境中的變化也會(huì)更加符合現(xiàn)實(shí)規(guī)律,提高沉浸感;甚至在自動(dòng)駕駛和機(jī)器人訓(xùn)練中,這種更真實(shí)的模擬能力也有助于模型更好地理解現(xiàn)實(shí)環(huán)境。

從更長遠(yuǎn)的角度來看,這項(xiàng)研究把視頻生成從視覺任務(wù)提升為物理過程建模問題,為構(gòu)建更接近真實(shí)世界的智能系統(tǒng)提供了基礎(chǔ)。

不過研究團(tuán)隊(duì)也指出,目前方法在面對(duì)多個(gè)物理規(guī)律同時(shí)作用的復(fù)雜場景時(shí)仍然存在困難,例如牛頓擺與水爆炸同時(shí)發(fā)生的情況,模型容易失效。這也說明在組合物理推理方面仍有明顯提升空間,也為后續(xù)研究指明了方向。

04


推動(dòng)生成走向「因果」的他們

這篇論文的通訊作者雷印杰,現(xiàn)為四川大學(xué)教授、博士生導(dǎo)師,同時(shí)入選國家級(jí)青年人才項(xiàng)目,長期從事人工智能相關(guān)研究工作。

在個(gè)人經(jīng)歷方面,雷印杰具有系統(tǒng)的學(xué)術(shù)培養(yǎng)背景,分別于 2006 年、2009 年和 2013 年在西南交通大學(xué)、四川大學(xué)和澳大利亞西澳大學(xué)獲得本科、碩士和博士學(xué)位。

2013 年 12 月進(jìn)入四川大學(xué)電子信息學(xué)院,從事教學(xué)與科研工作,隨后在 2017 年 9 月起擔(dān)任四川大學(xué)電子信息學(xué)院副院長。在此過程中,還入選四川省特聘專家、四川省學(xué)術(shù)和技術(shù)帶頭人后備人選,并獲得四川杰出青年科學(xué)基金支持。

在研究方向上,雷印杰主要聚焦人工智能領(lǐng)域相關(guān)問題。科研工作方面,他長期主持和參與國家級(jí)科研項(xiàng)目及企業(yè)合作項(xiàng)目,研究內(nèi)容涵蓋人工智能、計(jì)算機(jī)視覺以及多模態(tài)理解等方向,在學(xué)術(shù)研究與工程應(yīng)用之間形成了較好的結(jié)合。


參考鏈接:https://eie.scu.edu.cn/info/1044/13503.htm


未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA新轉(zhuǎn)播合同首季:76億賭局開局即爆

NBA新轉(zhuǎn)播合同首季:76億賭局開局即爆

體育硬核說
2026-04-18 23:34:44
不卑微!一新生坦誠告知室友家窮,聚餐不必叫自己,宿舍衛(wèi)生全包

不卑微!一新生坦誠告知室友家窮,聚餐不必叫自己,宿舍衛(wèi)生全包

火山詩話
2026-04-17 09:22:03
1.7萬/平成交!珠城公寓被瘋狂買入,租售比驚人...

1.7萬/平成交!珠城公寓被瘋狂買入,租售比驚人...

廣州樓市發(fā)布
2026-04-18 20:12:40
長沙50億身家大佬被曝私生子!曾被留置調(diào)查,如今業(yè)績壓力山大了

長沙50億身家大佬被曝私生子!曾被留置調(diào)查,如今業(yè)績壓力山大了

火山詩話
2026-04-18 07:58:57
泰國潑水節(jié)7天交通事故共致242死,中國游客回憶:有人額頭受傷被擔(dān)架抬走,當(dāng)?shù)啬ν熊囀⑿校糠纸值朗謸頂D

泰國潑水節(jié)7天交通事故共致242死,中國游客回憶:有人額頭受傷被擔(dān)架抬走,當(dāng)?shù)啬ν熊囀⑿校糠纸值朗謸頂D

極目新聞
2026-04-18 10:45:22
雖敗,卻贏得尊重!中超新軍1:3憾負(fù)申花,6輪不敗+7球登射手王!

雖敗,卻贏得尊重!中超新軍1:3憾負(fù)申花,6輪不敗+7球登射手王!

話體壇
2026-04-18 22:31:47
氣溫回暖,猝死的人越來越多?醫(yī)生強(qiáng)調(diào):寧睡到中午,也別做5事

氣溫回暖,猝死的人越來越多?醫(yī)生強(qiáng)調(diào):寧睡到中午,也別做5事

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-04-14 23:52:04
別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這長相能迷倒誰?

別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這長相能迷倒誰?

攬星河的筆記
2026-04-17 19:10:35
華住會(huì)APP上面的差評(píng),笑死我了,網(wǎng)友:雖表達(dá)很差勁但很有代入感

華住會(huì)APP上面的差評(píng),笑死我了,網(wǎng)友:雖表達(dá)很差勁但很有代入感

另子維愛讀史
2026-04-18 19:35:28
公積金使用范圍再擴(kuò)容

公積金使用范圍再擴(kuò)容

界面新聞
2026-04-18 09:55:49
國內(nèi)暴跌35%,全球大跌19.1%,為什么大家都不買小米手機(jī)了?

國內(nèi)暴跌35%,全球大跌19.1%,為什么大家都不買小米手機(jī)了?

科技松鼠
2026-04-16 16:00:08
美媒:以總理對(duì)特朗普“禁止”轟炸黎巴嫩帖文感震驚

美媒:以總理對(duì)特朗普“禁止”轟炸黎巴嫩帖文感震驚

新華社
2026-04-18 11:53:02
002708,重要收購!

002708,重要收購!

證券時(shí)報(bào)e公司
2026-04-18 20:38:40
朱迅抗癌20年首曝真相:7次手術(shù),每天只吃七分飽,堅(jiān)決不碰燙食

朱迅抗癌20年首曝真相:7次手術(shù),每天只吃七分飽,堅(jiān)決不碰燙食

觀魚聽雨
2026-04-17 22:29:40
切記,半夜醒來千萬不要看時(shí)間!

切記,半夜醒來千萬不要看時(shí)間!

環(huán)球網(wǎng)資訊
2026-04-16 07:56:25
早已殺青卻播出無望的7部劇,禁播理由個(gè)個(gè)離譜,最后一部太可惜

早已殺青卻播出無望的7部劇,禁播理由個(gè)個(gè)離譜,最后一部太可惜

小Q侃電影
2026-04-18 21:54:04
江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

書畫相約
2026-04-14 07:21:03
新疆多地遭遇強(qiáng)沙塵暴,數(shù)十米高沙墻撲面而來,“天瞬間就黑了”,多趟列車受影響晚點(diǎn)或停運(yùn)

新疆多地遭遇強(qiáng)沙塵暴,數(shù)十米高沙墻撲面而來,“天瞬間就黑了”,多趟列車受影響晚點(diǎn)或停運(yùn)

極目新聞
2026-04-18 11:59:30
八千里路云和月:田家泰好算計(jì)!原來這才是萬福一家被收留的原因

八千里路云和月:田家泰好算計(jì)!原來這才是萬福一家被收留的原因

情感大頭說說
2026-04-18 15:41:42
莫氏雞煲被投訴!

莫氏雞煲被投訴!

東莞好生活
2026-04-18 19:08:16
2026-04-19 00:07:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

數(shù)碼
親子
手機(jī)
房產(chǎn)
游戲

數(shù)碼要聞

首款雷電5認(rèn)證四盤位M.2固態(tài)硬盤盒,OWC發(fā)布Express 4M2 Ultra

親子要聞

退燒藥怎么用?90%家長都搞錯(cuò)了

手機(jī)要聞

榮耀600系列參數(shù)、外觀全曝光

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

讓老粥批直呼“計(jì)劃有變”的歲獸代理人,到底是什么東西?

無障礙瀏覽 進(jìn)入關(guān)懷版