賦予視頻生成「視覺思維鏈」：VChain顯式建模時空規(guī)劃與狀態(tài)演變

2026-05-20 16:07:48　來源: 機器之心Pro

天津舉報

分享至

當視頻生成模型在視覺保真度上不斷突破時，一個核心瓶頸正變得愈發(fā)清晰：模型是否真正理解了真實世界？能否推理出合理的演變過程？

在具身智能、影視制作以及物理仿真等應用場景中，要求模型不僅要生成 “平滑的像素”，更要實現(xiàn) “邏輯連貫的演化”。這種對物理規(guī)律與因果關(guān)系的建模能力，是當前基于大數(shù)據(jù)驅(qū)動的端到端生成模型面臨的長期挑戰(zhàn)。

那么，我們能否將多模態(tài)大模型（MLLM）的推理能力，作為一種 “外腦” 注入到視頻生成過程中呢？

來自南洋理工大學（NTU）的研究團隊在ACL 2026 (Findings)發(fā)表了VChain。這一框架試圖將大型多模態(tài)模型（如 GPT-4o）的視覺推理能力引入視頻生成，以提升視頻在邏輯與物理規(guī)律上的連貫性。

論文: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
作者：黃子琪 (Ziqi Huang), 于寧 (Ning Yu), Gordon Chen, 邱浩楠 (Haonan Qiu), Paul Debevec, 劉子緯 (Ziwei Liu)
論文地址: https://arxiv.org/abs/2510.05094
項目主頁: https://eyeline-labs.github.io/VChain

背景

視頻生成的 “常識缺失”

現(xiàn)有的視頻生成模型往往表現(xiàn)出一種 “物理不及格” 的狀態(tài)：球可以反物理地滾動，羽毛可能比石頭下落得更快。原因在于，目前的模型擅長模仿 “樣子”（視覺模式），卻不懂 “道理”（物理因果）。

雖然 GPT-4o 等多模態(tài)大模型在視覺推理上表現(xiàn)出色，但直接生成視頻成本極高。VChain 的核心思路是 “讓專業(yè)的人做專業(yè)的事”：引入一個在推理階段工作的框架，利用 LMM 進行邏輯推演，轉(zhuǎn)而 “指導” 視頻模型進行創(chuàng)作。

為了解決這個問題，研究者們提出了VChain，一個在推理階段工作的框架，VChain 的核心思路是 “讓專業(yè)的人做專業(yè)的事”：利用 LMM 進行邏輯推演，轉(zhuǎn)而指導視頻模型進行內(nèi)容創(chuàng)作。

方法

三步走的 VChain 框架 - “視覺思維鏈”

VChain 的實現(xiàn)流程非常優(yōu)雅，主要分為三個階段，全部在推理時完成，無需對視頻模型進行重新訓練，非常高效。

1. 視覺思維推理 (Visual Thought Reasoning)

面對 “將濃硫酸倒在木桌上” 這類指令，VChain 首先調(diào)用 LMM 進行 “頭腦風暴”，推演事件的因果鏈并生成關(guān)鍵圖像幀。這些幀被稱為 “視覺思維鏈 (Chain of Visual Thoughts)”，它將抽象邏輯轉(zhuǎn)化為具體的視覺步驟。

這個過程是迭代的，LMM 會一步步地思考：“首先，一杯硫酸在桌子上方；然后，硫酸開始傾倒；接著，液體接觸到桌面；最后，桌面被腐蝕變黑。” 并為每一步生成對應的圖像。

2. 推理時稀疏調(diào)優(yōu) (Sparse Inference-Time Visual-State Adaptation)

有了這些包含邏輯關(guān)系的關(guān)鍵幀（視覺思維）后，VChain 并不會用它們來生成所有視頻幀。相反，它只在這些 “關(guān)鍵時刻” 對預訓練好的視頻生成器進行微調(diào)。

具體來說，它將這些關(guān)鍵幀和對應的文本描述配對，作為稀疏的監(jiān)督信號，通過 LoRA 高效地調(diào)整視頻生成模型的參數(shù)。這種方式只在幾個關(guān)鍵點上進行 “校準”，大大降低了計算開銷。

3. 視頻采樣 (Video Sampling)

經(jīng)過稀疏調(diào)優(yōu)后，視頻生成模型就領(lǐng)會了整個事件的 “大綱”。最后，VChain 將所有步驟的文本描述連接成一個完整的長提示，輸入給調(diào)優(yōu)后的模型，從而生成一個連貫、流暢且符合邏輯的完整視頻。

實驗效果

從 “貌合神離” 到 “形神兼?zhèn)洹?/strong>

那么，VChain 的效果究竟如何呢？

在定性對比中，我們可以看到，對于 “保齡球撞擊球瓶” 這個場景，現(xiàn)有模型生成的視頻中，球瓶幾乎不動或只是輕微抖動，完全沒有發(fā)生真實的碰撞。而經(jīng)過提示增強后，雖然有了互動，但動態(tài)效果非常不自然，甚至出現(xiàn)了偽影。

相比之下，如果給同樣的模型加上 VChain 框架，生成的視頻則完全符合物理規(guī)律：球以合理的力量撞擊球瓶，球瓶被擊倒的過程連貫且真實。物體的幾何形狀和材質(zhì)在整個過程中都保持得很好。

在定量評估中，VChain 在各項指標上也達到或超過了現(xiàn)有方法。在針對物理規(guī)律、常識推理及因果邏輯的專項測評中，VChain 顯著優(yōu)于現(xiàn)有方法。

研究者們還通過消融實驗證明了 VChain 每個組成部分的重要性。如果去掉 “視覺思維”，模型雖然知道要生成第一人稱視角的視頻，但無法捕捉到正確的 “接球” 視覺模式。如果去掉 “稀疏調(diào)優(yōu)”，直接用關(guān)鍵幀進行插值，則會導致嚴重的圖像扭曲和偽影。只有將兩者結(jié)合，才能得到最連貫、最真實的結(jié)果。

VChain 巧妙的地方在于它是一種 “即插即用” 的推理時框架，它沒有去大動干戈地訓練一個全新的視頻模型，也不依賴額外的數(shù)據(jù)，而是通過 “LMM” 賦能；這為未來多模態(tài)模型的協(xié)同工作提供了一個范例。

深度思考

視頻生成范式的 “推理革命”

基于論文附錄的探討，VChain 展示了視頻推理與生成的兩種潛在趨勢：

1. 從 “語義指引” 到 “具象視覺推理” 的跨越

過去的研究多依賴 LLM 生成文字腳本或簡單的布局信息。然而，文本在傳達 “復雜的物理形變” 時存在表達盲區(qū)。

VChain 證明了：對于視頻生成任務，推理過程也需要 “去符號化” 并直接進入視覺空間。只有通過具備空間與材質(zhì)約束的圖像錨點，才能有效修正生成器內(nèi)心錯誤的物理先驗，實現(xiàn)邏輯與像素的統(tǒng)一。

2. 推理者 - 渲染者 (Reasoner-Renderer)” 協(xié)作新范式

VChain 提出了一種模塊化的協(xié)作路徑，將復雜的邏輯判斷（由 MLLM，也就是 Reasoner 來完成）與底層的視覺渲染（由擴散變壓器架構(gòu)，或者更廣義的 Renderer 來完成）進行解耦。

當視頻生成逐漸被視為 “世界模型” 的一種實現(xiàn)形式，我們不應只滿足于畫面的精美。只要多模態(tài)大模型的常識以及邏輯推理能力上限依然高于視覺生成模型，這種將推理能力引導至生成過程的范式，就為未來多模態(tài)模型的協(xié)同工作提供了一個可參考的方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點推薦

獨家丨他辭去終身職位、帶團隊回國，要攻下半導體最卡脖子的環(huán)節(jié)

DeepTech深科技 2026-05-20 13:58:05
0 跟貼 0

世界模型的門檻，谷歌可能邁過去了

鈦媒體APP 2026-05-18 15:14:36
16 跟貼 16

ICML 2026 | 只用少量Thinking Tokens，大模型依然能深度思考

機器之心Pro 2026-05-18 18:13:02
0 跟貼 0

小伙為了游戲通關(guān)，自制出物理外掛，用游標卡尺做數(shù)據(jù)采集器！

湯姆搞笑 2026-05-19 13:13:39
1 跟貼 1

中俄元首簽署聯(lián)合聲明

央視新聞 2026-05-20 14:30:22
1039 跟貼 1039

北航/新國立提出AmbiSuR，重塑高保真3D幾何重建

機器之心Pro 2026-05-19 14:16:45
0 跟貼 0

谷歌做了個論文專用版nano banana！頂會級Figure直出

機器之心Pro 2026-02-05 15:52:42
1 跟貼 1

郭翔宇：大眾需要重新正視房產(chǎn)的保值屬性，中國房地產(chǎn)將全面進入全新發(fā)展模式丨對話五道口

紅星資本局 2026-05-19 19:48:15
1907 跟貼 1907

緩解“AI數(shù)據(jù)荒”！一家出行平臺居然有具身智能的“黃金數(shù)據(jù)礦”

新智元 2026-05-18 15:10:36
0 跟貼 0

孩子吃的零食掉在地上，螞蟻吃了全死了！網(wǎng)友評論揭秘真相

星視頻 2026-05-19 17:46:38
1408 跟貼 1408

HyperEyes：并行多模態(tài)搜索智能體的效率革命

機器之心Pro 2026-05-19 18:49:37
0 跟貼 0

日賺3609萬的京滬高鐵，又漲價？

中國新聞周刊 2026-05-20 07:36:05
1456 跟貼 1456

從賣token到賣結(jié)果，這些公司開始讓AI背KPI了

機器之心Pro 2026-05-19 12:12:30
0 跟貼 0

短劇推薦！丹麥網(wǎng)友：邏輯在哪？不過還是挺有趣的

為了更好 2026-05-20 06:07:56
0 跟貼 0

LLM近期重大架構(gòu)進化一覽：從Gemma 4到DeepSeek V4

機器之心Pro 2026-05-19 12:15:50
13 跟貼 13

女孩首次穿新奇絲襪，視覺沖擊感拉滿，瞬間震驚全校師生

墨林電影 2026-05-16 07:54:39
1 跟貼 1

這款推理AVG把"別人怎么看你"做成了核心玩法，能行嗎？

別打我我投降 2026-05-20 13:41:33
0 跟貼 0

231江蘇卷！2020高考數(shù)學 17 函數(shù)的實際應用函數(shù)建模

我服子佩 2026-05-19 13:51:30
3 跟貼 3

520，遇見國產(chǎn)「新模王」Qwen3.7-Max！

機器之心Pro 2026-05-20 14:29:30
0 跟貼 0

不止棒子國搶文化，越南偷文化的邏輯更離譜？聽聽清華老師的分析

于令 2026-05-17 04:38:05
0 跟貼 0

NUS、牛津等聯(lián)合發(fā)布音視頻智能綜述：系統(tǒng)梳理大模型時代的AVI全景圖

新智元 2026-05-20 12:33:15
0 跟貼 0

夢幻：法系糾結(jié)法傷法結(jié)，物理卻無視穿刺狂暴？核心2點講透

夢幻天真 2026-05-17 19:13:38
0 跟貼 0

西班牙成為歐盟中最大的俄羅斯天然氣進口國

財聯(lián)社 2026-05-19 21:24:28
172 跟貼 172

上海一大學生暴躁反應擾亂課堂教學校方：已開展調(diào)查，會出通報

封面新聞 2026-05-20 15:16:28
303 跟貼 303

湖北孝感市境內(nèi)一個荒謬傳說：大悟山金頂寺來源之背離人性的邏輯

近史談 2026-05-20 15:16:42
0 跟貼 0

CBA半決賽｜京滬大戰(zhàn)外籍裁判全面更換

北青網(wǎng)-北京青年報 2026-05-20 15:41:29
0 跟貼 0

告別「單線程」思維，智能體進化出了原生的并行推理大腦

機器之心Pro 2026-05-19 11:34:54
1 跟貼 1

ICML 2026｜OFA-TAD邁向one-for-all通用異常檢測新范式

機器之心Pro 2026-05-20 16:11:50
0 跟貼 0

被曝花20億，Anthropic收購Agent工具企業(yè)，斷供谷歌OpenAI

智東西 2026-05-19 20:33:35
0 跟貼 0

2比0勝澳大利亞，U17國足闖入亞洲杯決賽，中國足球的春天真要來了

文匯報 2026-05-20 07:12:10
77 跟貼 77

印度“高燒不退”

新民晚報 2026-05-20 15:47:21
1 跟貼 1

女子為治一顆痘2個月狂涂幾十種藥膏臉上爛出"黑洞"

極目新聞 2026-05-19 17:05:39
433 跟貼 433

耿同學：學術(shù)打假專挑有人才“帽子”的人

新京報 2026-05-20 09:46:03
167 跟貼 167

物理老師做實驗，讓學生頭頂飛花，知識以奇怪方式進入腦子！

松鼠的搞笑日記 2026-05-19 13:53:26
1 跟貼 1

人人手搓App時代來了！騰訊吐司和螞蟻靈光PK：誰更適合普通人？

雷科技 2026-05-18 21:32:56
16 跟貼 16

女生化黃黑皮妝容夯爆了，羚羊公主？網(wǎng)友：建模真的就不能復制粘貼嘛

重慶焦點 2026-05-20 15:22:45
0 跟貼 0

游戲開發(fā)者的"視覺魔術(shù)"：一張圖拆穿分層騙局的真相

別打我我投降 2026-05-20 14:42:46
0 跟貼 0

專訪靈御智能：商業(yè)化是先手棋 ROI 是第一準則數(shù)據(jù)是終極護城河

具身研習社 2026-05-20 14:59:57
0 跟貼 0

進階專題概覽——信息、計算與物理的大融合 | 量子場論第十二講

集智俱樂部 2026-05-20 16:16:19
0 跟貼 0

STTT：同濟大學李婧/楊長青/夏璐合作發(fā)現(xiàn)脂肪肝治療新靶點，并開發(fā)納米療法

生物世界 2026-05-20 16:59:05
0 跟貼 0

2026必知：強奸、通奸、嫖娼，法律定性與處罰全解讀
周哥一影視
2026-05-19 14:15:11

研究發(fā)現(xiàn)：體質(zhì)好的人，一般有6個特征，能占4個，就很不錯
蜉蝣說
2026-05-19 21:58:27

“體制內(nèi)都不敢這么喝！”大學生每天一杯瑞幸被舉報，哭訴反被嘲
妍妍教育日記
2026-05-19 16:26:29

庫頁島有“三不”：不屬于中國、不像俄羅斯、不承認過去
鶴羽說個事
2026-05-18 22:54:43

緊致熟韻人妻天花板｜腰臀比例封神，氛圍感拉滿
只要高興就好
2026-05-20 10:13:34

美國真實版“善有善報”：男子歸還中獎彩票，2個月后自己中了彩票頭獎
華人生活網(wǎng)
2026-05-19 04:39:47

有點皮，勒沃庫森官方發(fā)布趣圖把角球阿森納改成恭喜阿森納
懂球帝
2026-05-20 07:39:00

“20cm”漲停！300069，跨界商業(yè)航天，QFII精準埋伏
數(shù)據(jù)寶
2026-05-20 10:50:10

A股：今天，5月20日，股市情況不太對勁，行情或開始加速了！
明心
2026-05-20 11:33:02

自盡前，她跪請丈夫：一定將孩子撫養(yǎng)成人！自盡時，丈夫躺床裝睡
興趣知識
2026-05-20 00:41:43

“童顏巨乳”小姐姐來襲！
文刀萬
2026-05-17 17:06:53

離開北京前，魯比奧著急立規(guī)矩，臺灣問題，中方說不松口就不松口
聞識
2026-05-19 17:25:55

歐盟審查步步緊逼！中企海外遭突襲扣押，中方亮劍反制捍衛(wèi)尊嚴
健身狂人
2026-05-20 14:16:12

韓國西瓜大漲價，單個西瓜賣到136元
界面新聞
2026-05-19 12:46:17

張藝謀也沒想到，養(yǎng)了27年的陳婷，竟會親手摘掉張藝謀妻子的認證
混沌錄
2026-05-14 15:58:14

1986年陳永貴病逝，追悼會規(guī)格成難題，鄧小平只說了一句話，全場安靜
寄史言志
2026-01-04 16:34:31

極目幫辦｜本人同名跨境匯款功能突遭匯豐銀行限制，銀行回應:客戶匯款資金用途信息不一致
極目新聞
2026-05-20 15:06:01

55年被評為中將，他認為軍銜太低：簽字署名全帶著中將，發(fā)泄不滿
勇哥讀史
2026-05-20 15:06:03

商務部：美方承諾解決或?qū)嵸|(zhì)性推動解決中國部分農(nóng)產(chǎn)品非關(guān)稅壁壘和市場準入問題，中方恢復符合要求的美輸華牛肉企業(yè)注冊、恢復自美國相關(guān)州進口禽類產(chǎn)品
界面新聞
2026-05-20 11:46:47

24人被擊斃，菲軍方開火，菲副總統(tǒng)被彈劾，杜特爾特家族開始反擊
流史歲月
2026-05-19 17:00:03

2026-05-20 17:12:49

機器之心Pro

專業(yè)的人工智能媒體

13043文章數(shù) 142651關(guān)注度

往期回顧全部

科技要聞

一文看懂谷歌I/O2026：谷歌打響智能體大戰(zhàn)

曾痛罵AI是垃圾的卡帕西，為何加盟Anthropic

馬斯克敗訴，法院判他起訴OpenAI太晚了

AMD蘇姿豐訪華稱未來5年將有50億人每日使用AI

蘋果WWDC26定檔6月9日凌晨：iOS27將亮相

頭條要聞

楊梅被"一刀切"禁入福建楊梅協(xié)會會長懇求給果農(nóng)生路

特朗普：美國也應該擁有一個"像中國那樣"的大宴會廳

北約外長會或成"討說法"現(xiàn)場：歐洲要魯比奧給個解釋

搞了17年的英國高鐵2號線再次超支延期：速度還降了

身家320億元時尚大亨墜崖身亡其子被捕:3次勘察現(xiàn)場

頭條要聞

楊梅被"一刀切"禁入福建楊梅協(xié)會會長懇求給果農(nóng)生路

特朗普：美國也應該擁有一個"像中國那樣"的大宴會廳

北約外長會或成"討說法"現(xiàn)場：歐洲要魯比奧給個解釋

搞了17年的英國高鐵2號線再次超支延期：速度還降了

身家320億元時尚大亨墜崖身亡其子被捕:3次勘察現(xiàn)場

體育要聞

不再美麗的阿森納，終于成為英超冠軍

尼克斯22分逆轉(zhuǎn)加時1-0騎士布倫森38分哈登15分6失誤

曼城絕平送阿森納鎖定英超冠軍這一刻等了整整22年

挺進決賽！U17國足2比0完勝澳大利亞，將與日本隊爭冠！

淚目！76歲溫格祝賀阿森納：冠軍永不止步 5大功勛舊將+首相道賀

娛樂要聞

王菲“沒事兒”，成年人學不來的松弛

戛納電影節(jié)“大爆粗口”“抵制AI”已成浪潮

郭晶晶、尼格買提進牛棚

山東、東北：我們何時有自己的《阿嬤的情書》？

年輕人的愛情片還是應該由年輕導演來拍

財經(jīng)要聞

白酒榜|汾酒營收凈利雙增口子窖"造富"

全球最暢銷橄欖油造假20年

發(fā)改委：推動科技自立自強、產(chǎn)業(yè)鏈自主可控

韓國三星電子工會明日啟動全面罷工

收評：科創(chuàng)50指數(shù)低開高走漲超3% 半導體產(chǎn)業(yè)鏈延續(xù)強勢

汽車要聞

煥新極氪009上市41.38萬起齊家版讓MPV回歸家庭

配置全家桶全新海獅05這次升級全在點上

試駕與眾07：首搭CEA架構(gòu) 德味操控+聰明大腦

40.98萬起！充電5分鐘純電續(xù)航420km 騰勢N9閃充版勝算有多少？

德味操控+聰明大腦，與眾07不輸新勢力

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

數(shù)碼

房產(chǎn)

游戲

教育

專家：別把PRP當作“自體干細胞”

外出踏青、郊游，千萬警惕這種蟲子！

千滾水、隔夜水到底能喝嗎？真相來了！

外賣這樣吃，便利又健康！很多人不知道

中疾控發(fā)布春夏呼吸道疾病防護指南

數(shù)碼要聞

國風創(chuàng)作神器！華為自研音悅家App發(fā)布：一臺華為平板搞定編曲/錄音/混音

酷冷至尊8款新品蓄勢待發(fā)，V8 Ace 3DHP接近上市

百元投影儀性價比之王！哈趣H3 Pro評測：400CVIA到底夠不夠用

聯(lián)想舉辦天禧AI 4.0發(fā)布會：端邊云一體化架構(gòu)落地消費端

房產(chǎn)要聞

別被中介帶了節(jié)奏，你的房子可能比你想的值錢

扎心！海南28家上市公司超半數(shù)在虧錢，最掙錢的居然是…

7516元/㎡，161套一次全甩！海口住宅最低價出現(xiàn)了！

突發(fā)！海口重磅調(diào)規(guī)！碧桂園要解套；新埠島要起飛了！

《樂高蝙蝠俠：黑暗騎士之遺》IGN8分好評！

小心你的盤！骨灰級老玩家玩游戲幾千小時玩到裂開

坤哥“官宣”！R星大作全新實體版包裝和日期來了

索尼回歸獨占！PC玩家反應冷淡：PC又不缺好游戲

教育要聞

5月22日至23日補報名！山東夏季學考（合格考）

普渡大學校長蔣濛出任美國西北大學第18任校長

新傳考研名詞解釋：性別研究

人手一份！全網(wǎng)瘋傳的大學俄語四級模擬題安排了！

湖北體育職業(yè)學院：“慢遞”傳心育體育心

手機 / 數(shù)碼

房產(chǎn) / 家居

賦予視頻生成「視覺思維鏈」：VChain顯式建模時空規(guī)劃與狀態(tài)演變

一文看懂谷歌I/O2026：谷歌打響智能體大戰(zhàn)

楊梅被"一刀切"禁入 福建楊梅協(xié)會會長懇求給果農(nóng)生路

楊梅被"一刀切"禁入 福建楊梅協(xié)會會長懇求給果農(nóng)生路

不再美麗的阿森納，終于成為英超冠軍

王菲“沒事兒”，成年人學不來的松弛

白酒榜|汾酒營收凈利雙增 口子窖"造富"

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態(tài)度原創(chuàng)

專家：別把PRP當作“自體干細胞”

國風創(chuàng)作神器！華為自研音悅家App發(fā)布：一臺華為平板搞定編曲/錄音/混音

別被中介帶了節(jié)奏，你的房子可能比你想的值錢

《樂高蝙蝠俠：黑暗騎士之遺》IGN8分好評！

5月22日至23日補報名！ 山東夏季學考（合格考）

楊梅被"一刀切"禁入福建楊梅協(xié)會會長懇求給果農(nóng)生路

楊梅被"一刀切"禁入福建楊梅協(xié)會會長懇求給果農(nóng)生路

白酒榜|汾酒營收凈利雙增口子窖"造富"

煥新極氪009上市41.38萬起齊家版讓MPV回歸家庭

5月22日至23日補報名！山東夏季學考（合格考）