无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

SIGGRAPH 2026 | 無需訓練,一段單目視頻解鎖任意運鏡與子彈時間

0
分享至



本文第一作者曹巍為伊利諾伊大學厄巴納 - 香檳分校(UIUC)信息科學博士生,師從劉垚垚教授,研究方向為 3D/4D 重建與可控視頻生成,現于 Stability AI 研究實習。本碩畢業于慕尼黑工業大學,已在 SIGGRAPH、CVPR、TPAMI、CoRL 等頂級會議與期刊發表多篇論文。本文由 UIUC、賓大與 Netflix Eyeline Labs 合作完成,并獲 CVPR 2026 Workshop on Generative Models for Computer Vision 最佳論文獎。



給定一段普通單目視頻,FreeOrbit4D 可沿任意指定相機軌跡「重拍」整個動態場景,包括影視級的「子彈時間」環繞鏡頭。


《黑客帝國》那個經典的「子彈時間」鏡頭,當年要上百臺相機圍成一圈才拍得出來。二十多年后的今天,影視工業做自由視角回放,依然離不開昂貴的多相機陣列。


那么,能不能只用一段普通的單目視頻 —— 手機隨手拍的那種 —— 就讓相機「飛」到場景的側面、背面,甚至繞著主角轉一整圈?


來自 UIUC、賓夕法尼亞大學和 Eyeline Labs 的研究團隊給出的答案是:可以,而且不需要訓練任何模型。他們提出的 FreeOrbit4D,通過「前景補全的 4D 重建」為視頻生成提供幾何支架,在 120°、甚至 180° 的大角度視角變化下,依然能生成幾何穩定、時序連貫的重運鏡視頻。

該工作已被ACM SIGGRAPH 2026接收,并剛剛摘得CVPR 2026 Workshop on Generative Models for Computer Vision 最佳論文獎。



  • 論文:FreeOrbit4D: Training-Free Arbitrary Camera Redirection for Monocular Videos via Foreground-Complete 4D Reconstruction
  • arXiv:https://arxiv.org/abs/2601.18993
  • 代碼:https://github.com/VVeiCao/FreeOrbit4D
  • 主頁:https://freeorbit4d.vision.ischool.illinois.edu/ (含可交互 4D 在線 demo)


三個看點

  1. 完全免訓練。 整套框架不訓練、不微調任何模型,由現成預訓練模型與經典幾何算法組合而成,自然也不需要昂貴稀缺的 4D 配對數據,單張 NVIDIA A40 即可跑通全流程。
  2. 大角度運鏡不崩壞。 在 120°/180° 大角度軌跡上,VBench 六項指標拿下五項第一;用戶研究中運鏡準確度 4.5 分(5 分制),大幅領先次優方法的 3.5 分。
  3. 顯式 4D 表示「白送」一串應用。 編輯一幀即可全片傳播、直接縮放或合成 4D 幾何、為下一代 4D 模型生成訓練數據,都順手可做。


為什么「重新運鏡」這么難?


這個任務叫相機重定向:給定單目源視頻和一條用戶指定的相機軌跡,生成同一動態場景在新軌跡下的視頻。它的本質困難在于 ——嚴重病態。一段單目視頻只是動態 3D 世界的一條「窄縫」,只記錄了某個視角、某個時刻可見的表面。要從任意視角回放整個場景,模型必須從這極有限的觀測中,恢復出幾何一致、運動連貫的完整 4D 世界。



現有方法大致兩條路線。隱式控制(如 ReCamMaster)把相機軌跡編碼成可學習的嵌入或文本提示,控制力卻很「軟」:文本描述不了復雜軌跡,學到的條件經常不聽指揮,而且訓練要靠昂貴的配對數據。顯式變形(如 TrajectoryCrafter、GEN3C、EX-4D)先估深度、再把可見像素「搬」到新視角,相機控制精確了,但單目視頻里只有可見表面 —— 相機一轉到側后方,被遮擋區域就成了大片空洞,只能靠生成模型憑空腦補,結果往往是幾何扭曲和語義漂移。一句話:隱式「指哪不打哪」,顯式「轉過去就穿幫」。


方法:把「看不見的那一半」補出來


FreeOrbit4D 的核心思想很直接:與其讓生成模型憑空腦補,不如顯式地把完整 4D 幾何重建出來,再用它作結構支架引導生成。這就像電影特效 —— 先把演員完整掃成 3D 替身(哪怕只拍到正面),放回舞臺準確位置,再讓虛擬攝影機沿任意軌跡重拍。



實現的關鍵,是一個重要觀察:「重建動態場景」和「補全物體幾何」是兩個本質不同的任務—— 前者要時序一致的場景級推理,后者要對物體形狀的多視角理解,強行用一個模型同時做、兩件都做不好。于是流程被解耦為三步:


①解耦 4D 重建。在全局場景空間,用動態感知前饋網絡把視頻提升成統一點云,再用 SAM2 掩碼拆出靜態背景與「只有可見面」的部分前景;同時在規范物體空間,把摳出的前景序列喂給物體中心的多視角視頻擴散模型,合成 4 路相隔 90° 的環繞視頻,由 VGGT 從 5 個視角重建出幾何完整的前景點云 —— 被遮擋的「另一半」就這樣補了出來。


②對應感知對齊。兩套前景點云源自同一幀源圖,同一像素對應同一表面點,由此直接得到稠密 3D–3D 對應,無需特征匹配。對齊時只用全局點云確定物體「放哪、多大」,完整幾何形狀原樣保留,再用雙向卡爾曼濾波平滑運動軌跡,消除單目深度的逐幀抖動。最終得到統一的前景完整 4D 代理。


③幾何條件生成。沿目標軌跡渲染 4D 代理,得到每幀深度圖;深度圖連同源視頻首幀(外觀參考)一起輸入深度條件的視頻擴散模型,即可生成既嚴格跟隨相機軌跡、又忠實源視頻外觀的目標視頻。全流程不訓練任何新模型,模塊化設計還意味著任一上游模型升級,整個系統都能「免費」受益。



方法實拍:源視頻(左)→ 沿目標軌跡渲染的深度支架(中)→ 深度條件生成的重運鏡視頻(右)。


實驗:大角度軌跡下全面領先

團隊在 DAVIS 真實視頻、網絡視頻以及合成視頻上評測,目標軌跡含 120°、180° 極端偏轉 —— 正是現有方法最易「翻車」的區間。



街舞序列對比(快速肢體運動 + 復雜人群背景)。基線普遍出現肢體模糊、重影、幾何畸變與語義漂移;FreeOrbit4D(綠框)全程保持銳利細節與穩定幾何。


自動指標:VBench 六項中五項第一。



其中語義一致性差距尤為明顯:DINO-SIM 達 0.65,比次優(0.47)高出近 40%—— 相機轉到大角度后,畫面里的「他」依然是源視頻里的「他」。



用戶研究:運鏡準確度 4.5 vs 3.5。一個有意思的發現是,自動指標其實「看不出」相機有沒有聽話 —— 某些基線偏離了軌跡、丟了幾何,分數卻還不錯。于是團隊請 20 位參與者在 10 個序列上打分(1–5):FreeOrbit4D 在總體偏好(4.6)、運鏡準確度(4.5)、時序穩定性(4.5)三項全面領先,運鏡準確度比次優方法整整高出 1 分。消融實驗進一步證實:去掉多視角生成或卡爾曼濾波,指標都會明顯下降。


不止運鏡:顯式 4D 的「副產品」


由于中間產物是一份顯式、可編輯的 4D 點云,一系列應用變得順理成章。


外觀編輯傳播 —— 改一幀參考圖(斑馬紋、動漫風),4D 代理就能把編輯一致地傳到所有新視角:



4D 幾何操控—— 直接縮放點云、或跨場景把另一段視頻重建的物體合成進來(下圖把另一段視頻里重建的駱駝合成進當前場景):



4D 數據生成—— 還可把海量單目視頻轉成帶完整幾何、多視角一致的 4D 數據,為破解高質量 4D 數據稀缺這一瓶頸提供新思路。


局限與展望


論文也坦誠討論了局限:流程假設單一主導前景與大致靜態背景,多物體重度互遮擋仍有挑戰;作為模塊化系統,上游分割或多視角合成的誤差會向下傳導(但也意味可隨時替換更強組件);多階段流程質量優先,單張 A40 處理 45 幀約需 50 分鐘,實時化是未來方向。


從上百臺相機的陣列,到一段手機視頻就能任意重新運鏡,FreeOrbit4D 展示了一條與「堆數據、訓大模型」不同的路線:把經典 3D 視覺的幾何推理,作為生成模型的結構支架—— 重建管「對不對」,生成管「像不像」,各司其職,反而在最病態的大角度場景下取得了最穩定的結果。目前代碼已開源,主頁提供可交互 demo,歡迎上手體驗。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
森保一:會派出最強陣容迎戰瑞典,梅西的表現已超越我的理解

森保一:會派出最強陣容迎戰瑞典,梅西的表現已超越我的理解

蘭亭墨未干
2026-06-25 11:00:59
開拓者新帥諾里合同引爭議!活塞主帥吐槽:公然冒犯教練群體價值

開拓者新帥諾里合同引爭議!活塞主帥吐槽:公然冒犯教練群體價值

羅說NBA
2026-06-25 06:03:16
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
同學聚會我坐角落,班花數落我沒出息,我的司機現身后她臉色蒼白

同學聚會我坐角落,班花數落我沒出息,我的司機現身后她臉色蒼白

小月故事
2026-06-18 15:33:49
北大女碩士:辭職了,在新疆擺攤

北大女碩士:辭職了,在新疆擺攤

視覺志
2026-06-25 11:48:59
特殊島:希望加入中國大陸或與臺灣省合并,但絕不會承諾日本!

特殊島:希望加入中國大陸或與臺灣省合并,但絕不會承諾日本!

星星會墜落
2026-06-23 02:56:13
李金羽:跟C羅相比,我啥也不是,但我在工作時還是挺認真的

李金羽:跟C羅相比,我啥也不是,但我在工作時還是挺認真的

懂球帝
2026-06-25 09:55:31
特朗普:委內瑞拉強震造成慘重死亡

特朗普:委內瑞拉強震造成慘重死亡

新華社
2026-06-25 11:57:04
郭小平任中共成都市金牛區委書記

郭小平任中共成都市金牛區委書記

愛看頭條
2026-06-25 15:23:46
大案紀實:1.4億!珠峰向導投毒騙保,四千登山客成提款機

大案紀實:1.4億!珠峰向導投毒騙保,四千登山客成提款機

橘仔看世界
2026-06-24 19:50:07
湖人成了萬人嫌,得知加盟,新秀滿臉不悅,球迷:就差點名東契奇

湖人成了萬人嫌,得知加盟,新秀滿臉不悅,球迷:就差點名東契奇

我就是一個說球的
2026-06-24 20:15:40
回國了我才敢說:委內瑞拉,是我去過的所有國家中,最被看輕的!

回國了我才敢說:委內瑞拉,是我去過的所有國家中,最被看輕的!

跳跳歷史
2026-06-24 07:18:08
恕我直言,漢語是阻礙中國人客觀對待食物的最大障礙

恕我直言,漢語是阻礙中國人客觀對待食物的最大障礙

食味藝文志
2026-06-24 21:16:01
56歲王菲狀態太好,陪同謝霆鋒去西安開演唱會,合體亮相太甜了!

56歲王菲狀態太好,陪同謝霆鋒去西安開演唱會,合體亮相太甜了!

娛樂團長
2026-06-25 13:36:05
大碼模特現實里到底多大?

大碼模特現實里到底多大?

飛娛日記
2026-05-12 08:27:55
高市早苗出席APEC拒中方會面,態度錯誤找錯對象

高市早苗出席APEC拒中方會面,態度錯誤找錯對象

心靈的觸動a
2026-06-24 21:27:15
73歲大爺為43歲妻子做陰莖假體手術,網友破防了:這才是真愛

73歲大爺為43歲妻子做陰莖假體手術,網友破防了:這才是真愛

魔都姐姐雜談
2026-04-02 18:52:46
“忍了整整8年才動手!”普京公開爆料,澤連斯基求和信淪為笑柄

“忍了整整8年才動手!”普京公開爆料,澤連斯基求和信淪為笑柄

騷年先鋒
2026-06-25 13:36:47
上海女子在公司上廁所時聞到一股惡臭,當晚喉嚨腫到沒法吞口水,第二天確診!醫生緊急提醒→

上海女子在公司上廁所時聞到一股惡臭,當晚喉嚨腫到沒法吞口水,第二天確診!醫生緊急提醒→

新民晚報
2026-06-24 18:24:40
美國大滿貫抽簽風波!王楚欽陳熠挑大梁,孫穎莎朱雨玲缺席真相!

美國大滿貫抽簽風波!王楚欽陳熠挑大梁,孫穎莎朱雨玲缺席真相!

陳鋅特色美食
2026-06-25 13:13:25
2026-06-25 16:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13355文章數 142681關注度
往期回顧 全部

科技要聞

宇樹機器人大降價

頭條要聞

0球0助攻 曾經的"亞洲一哥"孫興慜經歷最差一屆世界杯

頭條要聞

0球0助攻 曾經的"亞洲一哥"孫興慜經歷最差一屆世界杯

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

白玉蘭頒獎預測,楊冪勝算大嗎?

財經要聞

財報炸裂!美光讓空頭閉嘴

汽車要聞

2027款星途ES 天馬1:11:36背后的實力

態度原創

時尚
本地
教育
家居
公開課

最高級的夏季配色,來了!

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

教育要聞

22萬人圍觀AI志愿填報,這背后透露了什么信號?

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版