无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

賦予視頻生成「視覺思維鏈」:VChain顯式建模時空規(guī)劃與狀態(tài)演變

0
分享至



當視頻生成模型在視覺保真度上不斷突破時,一個核心瓶頸正變得愈發(fā)清晰:模型是否真正理解了真實世界?能否推理出合理的演變過程?

在具身智能、影視制作以及物理仿真等應用場景中,要求模型不僅要生成 “平滑的像素”,更要實現(xiàn) “邏輯連貫的演化”。這種對物理規(guī)律與因果關(guān)系的建模能力,是當前基于大數(shù)據(jù)驅(qū)動的端到端生成模型面臨的長期挑戰(zhàn)。

那么,我們能否將多模態(tài)大模型(MLLM)的推理能力,作為一種 “外腦” 注入到視頻生成過程中呢?

來自南洋理工大學(NTU)的研究團隊在ACL 2026 (Findings)發(fā)表了VChain。這一框架試圖將大型多模態(tài)模型(如 GPT-4o)的視覺推理能力引入視頻生成,以提升視頻在邏輯與物理規(guī)律上的連貫性。



  • 論文: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
  • 作者:黃子琪 (Ziqi Huang), 于寧 (Ning Yu), Gordon Chen, 邱浩楠 (Haonan Qiu), Paul Debevec, 劉子緯 (Ziwei Liu)
  • 論文地址: https://arxiv.org/abs/2510.05094
  • 項目主頁: https://eyeline-labs.github.io/VChain

背景

視頻生成的 “常識缺失”

現(xiàn)有的視頻生成模型往往表現(xiàn)出一種 “物理不及格” 的狀態(tài):球可以反物理地滾動,羽毛可能比石頭下落得更快。原因在于,目前的模型擅長模仿 “樣子”(視覺模式),卻不懂 “道理”(物理因果)。

雖然 GPT-4o 等多模態(tài)大模型在視覺推理上表現(xiàn)出色,但直接生成視頻成本極高。VChain 的核心思路是 “讓專業(yè)的人做專業(yè)的事”:引入一個在推理階段工作的框架,利用 LMM 進行邏輯推演,轉(zhuǎn)而 “指導” 視頻模型進行創(chuàng)作。



為了解決這個問題,研究者們提出了VChain,一個在推理階段工作的框架,VChain 的核心思路是 “讓專業(yè)的人做專業(yè)的事”:利用 LMM 進行邏輯推演,轉(zhuǎn)而指導視頻模型進行內(nèi)容創(chuàng)作。

方法

三步走的 VChain 框架 - “視覺思維鏈”

VChain 的實現(xiàn)流程非常優(yōu)雅,主要分為三個階段,全部在推理時完成,無需對視頻模型進行重新訓練,非常高效。



1. 視覺思維推理 (Visual Thought Reasoning)

面對 “將濃硫酸倒在木桌上” 這類指令,VChain 首先調(diào)用 LMM 進行 “頭腦風暴”,推演事件的因果鏈并生成關(guān)鍵圖像幀。這些幀被稱為 “視覺思維鏈 (Chain of Visual Thoughts)”,它將抽象邏輯轉(zhuǎn)化為具體的視覺步驟。

這個過程是迭代的,LMM 會一步步地思考:“首先,一杯硫酸在桌子上方;然后,硫酸開始傾倒;接著,液體接觸到桌面;最后,桌面被腐蝕變黑。” 并為每一步生成對應的圖像。



2. 推理時稀疏調(diào)優(yōu) (Sparse Inference-Time Visual-State Adaptation)

有了這些包含邏輯關(guān)系的關(guān)鍵幀(視覺思維)后,VChain 并不會用它們來生成所有視頻幀。相反,它只在這些 “關(guān)鍵時刻” 對預訓練好的視頻生成器進行微調(diào)。

具體來說,它將這些關(guān)鍵幀和對應的文本描述配對,作為稀疏的監(jiān)督信號,通過 LoRA 高效地調(diào)整視頻生成模型的參數(shù)。這種方式只在幾個關(guān)鍵點上進行 “校準”,大大降低了計算開銷。

3. 視頻采樣 (Video Sampling)

經(jīng)過稀疏調(diào)優(yōu)后,視頻生成模型就領(lǐng)會了整個事件的 “大綱”。最后,VChain 將所有步驟的文本描述連接成一個完整的長提示,輸入給調(diào)優(yōu)后的模型,從而生成一個連貫、流暢且符合邏輯的完整視頻。

實驗效果

從 “貌合神離” 到 “形神兼?zhèn)洹?/strong>

那么,VChain 的效果究竟如何呢?

在定性對比中,我們可以看到,對于 “保齡球撞擊球瓶” 這個場景,現(xiàn)有模型生成的視頻中,球瓶幾乎不動或只是輕微抖動,完全沒有發(fā)生真實的碰撞。而經(jīng)過提示增強后,雖然有了互動,但動態(tài)效果非常不自然,甚至出現(xiàn)了偽影。

相比之下,如果給同樣的模型加上 VChain 框架,生成的視頻則完全符合物理規(guī)律:球以合理的力量撞擊球瓶,球瓶被擊倒的過程連貫且真實。物體的幾何形狀和材質(zhì)在整個過程中都保持得很好。



在定量評估中,VChain 在各項指標上也達到或超過了現(xiàn)有方法。在針對物理規(guī)律常識推理因果邏輯的專項測評中,VChain 顯著優(yōu)于現(xiàn)有方法。



研究者們還通過消融實驗證明了 VChain 每個組成部分的重要性。如果去掉 “視覺思維”,模型雖然知道要生成第一人稱視角的視頻,但無法捕捉到正確的 “接球” 視覺模式。如果去掉 “稀疏調(diào)優(yōu)”,直接用關(guān)鍵幀進行插值,則會導致嚴重的圖像扭曲和偽影。只有將兩者結(jié)合,才能得到最連貫、最真實的結(jié)果。



VChain 巧妙的地方在于它是一種 “即插即用” 的推理時框架,它沒有去大動干戈地訓練一個全新的視頻模型,也不依賴額外的數(shù)據(jù),而是通過 “LMM” 賦能;這為未來多模態(tài)模型的協(xié)同工作提供了一個范例。

深度思考

視頻生成范式的 “推理革命”

基于論文附錄的探討,VChain 展示了視頻推理與生成的兩種潛在趨勢:

1. 從 “語義指引” 到 “具象視覺推理” 的跨越

過去的研究多依賴 LLM 生成文字腳本或簡單的布局信息。然而,文本在傳達 “復雜的物理形變” 時存在表達盲區(qū)。

VChain 證明了:對于視頻生成任務,推理過程也需要 “去符號化” 并直接進入視覺空間。 只有通過具備空間與材質(zhì)約束的圖像錨點,才能有效修正生成器內(nèi)心錯誤的物理先驗,實現(xiàn)邏輯與像素的統(tǒng)一。

2. 推理者 - 渲染者 (Reasoner-Renderer)” 協(xié)作新范式

VChain 提出了一種模塊化的協(xié)作路徑,將復雜的邏輯判斷(由 MLLM,也就是 Reasoner 來完成)與底層的視覺渲染(由擴散變壓器架構(gòu),或者更廣義的 Renderer 來完成)進行解耦。

當視頻生成逐漸被視為 “世界模型” 的一種實現(xiàn)形式,我們不應只滿足于畫面的精美。只要多模態(tài)大模型的常識以及邏輯推理能力上限依然高于視覺生成模型,這種將推理能力引導至生成過程的范式,就為未來多模態(tài)模型的協(xié)同工作提供了一個可參考的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2026必知:強奸、通奸、嫖娼,法律定性與處罰全解讀

2026必知:強奸、通奸、嫖娼,法律定性與處罰全解讀

周哥一影視
2026-05-19 14:15:11
研究發(fā)現(xiàn):體質(zhì)好的人,一般有6個特征,能占4個,就很不錯

研究發(fā)現(xiàn):體質(zhì)好的人,一般有6個特征,能占4個,就很不錯

蜉蝣說
2026-05-19 21:58:27
“體制內(nèi)都不敢這么喝!”大學生每天一杯瑞幸被舉報,哭訴反被嘲

“體制內(nèi)都不敢這么喝!”大學生每天一杯瑞幸被舉報,哭訴反被嘲

妍妍教育日記
2026-05-19 16:26:29
庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認過去

庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認過去

鶴羽說個事
2026-05-18 22:54:43
緊致熟韻人妻天花板|腰臀比例封神,氛圍感拉滿

緊致熟韻人妻天花板|腰臀比例封神,氛圍感拉滿

只要高興就好
2026-05-20 10:13:34
美國真實版“善有善報”:男子歸還中獎彩票,2個月后自己中了彩票頭獎

美國真實版“善有善報”:男子歸還中獎彩票,2個月后自己中了彩票頭獎

華人生活網(wǎng)
2026-05-19 04:39:47
有點皮,勒沃庫森官方發(fā)布趣圖把角球阿森納改成恭喜阿森納

有點皮,勒沃庫森官方發(fā)布趣圖把角球阿森納改成恭喜阿森納

懂球帝
2026-05-20 07:39:00
“20cm”漲停!300069,跨界商業(yè)航天,QFII精準埋伏

“20cm”漲停!300069,跨界商業(yè)航天,QFII精準埋伏

數(shù)據(jù)寶
2026-05-20 10:50:10
A股:今天,5月20日,股市情況不太對勁,行情或開始加速了!

A股:今天,5月20日,股市情況不太對勁,行情或開始加速了!

明心
2026-05-20 11:33:02
自盡前,她跪請丈夫:一定將孩子撫養(yǎng)成人!自盡時,丈夫躺床裝睡

自盡前,她跪請丈夫:一定將孩子撫養(yǎng)成人!自盡時,丈夫躺床裝睡

興趣知識
2026-05-20 00:41:43
“童顏巨乳”小姐姐來襲!

“童顏巨乳”小姐姐來襲!

文刀萬
2026-05-17 17:06:53
離開北京前,魯比奧著急立規(guī)矩,臺灣問題,中方說不松口就不松口

離開北京前,魯比奧著急立規(guī)矩,臺灣問題,中方說不松口就不松口

聞識
2026-05-19 17:25:55
歐盟審查步步緊逼!中企海外遭突襲扣押,中方亮劍反制捍衛(wèi)尊嚴

歐盟審查步步緊逼!中企海外遭突襲扣押,中方亮劍反制捍衛(wèi)尊嚴

健身狂人
2026-05-20 14:16:12
韓國西瓜大漲價,單個西瓜賣到136元

韓國西瓜大漲價,單個西瓜賣到136元

界面新聞
2026-05-19 12:46:17
張藝謀也沒想到,養(yǎng)了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

張藝謀也沒想到,養(yǎng)了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

混沌錄
2026-05-14 15:58:14
1986年陳永貴病逝,追悼會規(guī)格成難題,鄧小平只說了一句話,全場安靜

1986年陳永貴病逝,追悼會規(guī)格成難題,鄧小平只說了一句話,全場安靜

寄史言志
2026-01-04 16:34:31
極目幫辦|本人同名跨境匯款功能突遭匯豐銀行限制,銀行回應:客戶匯款資金用途信息不一致

極目幫辦|本人同名跨境匯款功能突遭匯豐銀行限制,銀行回應:客戶匯款資金用途信息不一致

極目新聞
2026-05-20 15:06:01
55年被評為中將,他認為軍銜太低:簽字署名全帶著中將,發(fā)泄不滿

55年被評為中將,他認為軍銜太低:簽字署名全帶著中將,發(fā)泄不滿

勇哥讀史
2026-05-20 15:06:03
商務部:美方承諾解決或?qū)嵸|(zhì)性推動解決中國部分農(nóng)產(chǎn)品非關(guān)稅壁壘和市場準入問題,中方恢復符合要求的美輸華牛肉企業(yè)注冊、恢復自美國相關(guān)州進口禽類產(chǎn)品

商務部:美方承諾解決或?qū)嵸|(zhì)性推動解決中國部分農(nóng)產(chǎn)品非關(guān)稅壁壘和市場準入問題,中方恢復符合要求的美輸華牛肉企業(yè)注冊、恢復自美國相關(guān)州進口禽類產(chǎn)品

界面新聞
2026-05-20 11:46:47
24人被擊斃,菲軍方開火,菲副總統(tǒng)被彈劾,杜特爾特家族開始反擊

24人被擊斃,菲軍方開火,菲副總統(tǒng)被彈劾,杜特爾特家族開始反擊

流史歲月
2026-05-19 17:00:03
2026-05-20 17:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13043文章數(shù) 142651關(guān)注度
往期回顧 全部

科技要聞

一文看懂谷歌I/O2026:谷歌打響智能體大戰(zhàn)

頭條要聞

楊梅被"一刀切"禁入 福建楊梅協(xié)會會長懇求給果農(nóng)生路

頭條要聞

楊梅被"一刀切"禁入 福建楊梅協(xié)會會長懇求給果農(nóng)生路

體育要聞

不再美麗的阿森納,終于成為英超冠軍

娛樂要聞

王菲“沒事兒”,成年人學不來的松弛

財經(jīng)要聞

白酒榜|汾酒營收凈利雙增 口子窖"造富"

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態(tài)度原創(chuàng)

健康
數(shù)碼
房產(chǎn)
游戲
教育

專家:別把PRP當作“自體干細胞”

數(shù)碼要聞

國風創(chuàng)作神器!華為自研音悅家App發(fā)布:一臺華為平板搞定編曲/錄音/混音

房產(chǎn)要聞

別被中介帶了節(jié)奏,你的房子可能比你想的值錢

《樂高蝙蝠俠:黑暗騎士之遺》IGN8分好評!

教育要聞

5月22日至23日補報名! 山東夏季學考(合格考)

無障礙瀏覽 進入關(guān)懷版