![]()
多視角、事件視覺與相機軌跡,共同推動視覺模型走向更強空間推理。
作者丨鄭佳美
編輯丨馬曉寧
過去幾年,計算機視覺行業(yè)一直在追求更強的識別、更大的模型和更復(fù)雜的生成能力,但真正落到機器人、工業(yè)檢測、運動分析和空間交互等真實場景時,一個更底層的問題逐漸變得突出:視覺系統(tǒng)到底是在“看圖像”,還是在“理解世界”?
真實世界并不是由一張張干凈、完整、靜止的圖片組成的,物體會被遮擋,單視角會帶來深度和姿態(tài)歧義,高速動作會在普通相機的幀間消失,場景結(jié)構(gòu)也往往需要從不完整的觀測中推斷出來。
更進(jìn)一步,視頻中的語義甚至不一定只存在于像素紋理中,相機如何移動、觀察者如何取景,本身也可能包含對事件和行為的暗示。
因此,視覺研究正在從單純依賴 RGB 外觀表征,轉(zhuǎn)向?qū)θS結(jié)構(gòu)、跨視角一致性、時間動態(tài)和觀察過程 的綜合建模。
放在CVPR 2026 的研究脈絡(luò)中看,這一趨勢尤為明顯:不少工作已經(jīng)不再滿足于提升傳統(tǒng) 2D 感知指標(biāo),而是開始討論如何讓模型在真實空間中定位物體、捕捉毫秒級人體運動、從遮擋圖像中生成完整 3D 場景,甚至僅憑相機軌跡理解視頻內(nèi)容。
下面這幾篇論文正好從不同側(cè)面回應(yīng)了這個問題:它們分別把多視角幾何、事件視覺、開放集 3D 生成和相機運動軌跡引入視覺理解中,試圖讓視覺系統(tǒng)從“識別畫面中的內(nèi)容”,進(jìn)一步走向?qū)φ鎸嵤澜?如何存在、如何運動、如何被觀察 的理解。
01
視覺系統(tǒng)真的理解世界了嗎?
《AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment》由捷克理工大學(xué)布拉格的捷克信息學(xué)、機器人學(xué)與控制論研究所(CIIRC CTU) 和捷克理工大學(xué)布拉格電氣工程學(xué)院完成,關(guān)注的是 未見物體的多視角 RGB 6D 姿態(tài)估計。
在這一任務(wù)中,系統(tǒng)只獲得物體的 3D mesh、多臺已標(biāo)定相機拍攝的 RGB 圖像以及相機內(nèi)外參,卻需要在不針對測試物體重新訓(xùn)練的情況下,直接估計物體在統(tǒng)一世界坐標(biāo)系中的三維位置和旋轉(zhuǎn)姿態(tài)。
論文并沒有簡單地把多個單視角估計結(jié)果做投票或平均,而是將單視角估計器輸出的候選姿態(tài)作為初始化,先借助相機外參把不同視角下的候選統(tǒng)一到同一個 3D 坐標(biāo)系中,再通過 3D NMS 去除重復(fù)和沖突候選,隨后用面向物體姿態(tài)的 multi-view feature-metric refinement 進(jìn)一步優(yōu)化結(jié)果。
![]()
論文地址:https://arxiv.org/pdf/2512.20538v1
具體來說,它會根據(jù)當(dāng)前姿態(tài)在線渲染物體特征,同時使用凍結(jié)的視覺基礎(chǔ)模型提取真實圖像特征,使同一個 world-frame pose 在多個視角中共同最小化“渲染特征—觀測特征”的差異。
這樣的設(shè)計把原本依賴單視角模板匹配或 RGB-D 深度信息的姿態(tài)估計,推進(jìn)到一種 無需物體專屬訓(xùn)練、無需對稱性標(biāo)注、無需深度圖,但能充分利用多視角幾何約束 的框架。
多視角信息能夠緩解單張 RGB 圖像中的遮擋、深度歧義和外觀歧義,而 foundation features 又增強了模型面對未見物體、無紋理物體、反光物體和透明物體時的泛化能力。
更重要的是,論文將 feature-metric alignment 從相機定位或場景級 bundle adjustment 的思路轉(zhuǎn)化為物體中心的 6D 姿態(tài)優(yōu)化問題,優(yōu)化目標(biāo)也不再是各個視角獨立的姿態(tài),而是全局一致的 world-frame pose。
實驗中,作者在 YCB-V、T-LESS、ITODD-MV 和 HouseCat6D 上按照 BOP 方法評估,報告其平均性能比單視角估計提升約 11%,比已發(fā)表的多視角 RGB 方法提升約 5%,在無紋理、金屬反光和透明物體等工業(yè)場景中表現(xiàn)尤為突出。
![]()
如果說 AlignPose 解決的是物體在多視角空間中的精確定位問題,那么《FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision》則把這種空間感知進(jìn)一步推進(jìn)到高速人體運動場景中。
該論文由廈門大學(xué)城市智能感知與計算福建省重點實驗室、廈門大學(xué)信息學(xué)院教育部多媒體可信感知與高效計算重點實驗室、廈門大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院和上海科技大學(xué)完成,研究重點是 毫秒級人體運動捕捉與高時間分辨率人體姿態(tài)估計。
高速人體動作往往包含大量瞬時變化,傳統(tǒng) RGB 相機受幀率限制,光學(xué)動捕系統(tǒng)成本較高,IMU 又容易出現(xiàn)漂移,因此單純依靠低幀率視頻插值很難真實還原運動細(xì)節(jié)。
![]()
論文地址:https://arxiv.org/pdf/2603.19770v1
針對這一問題,論文構(gòu)建了 FlashCap 這一低成本高頻動捕系統(tǒng),將閃爍 LED 標(biāo)記點 與 事件相機 結(jié)合起來:人體關(guān)鍵部位的 LED 以不同頻率閃爍,事件相機異步捕捉亮度變化,再通過事件聚類、頻率識別、異常過濾和 LED 匹配,自動生成 1000 Hz 的 2D 人體關(guān)鍵點標(biāo)簽。
基于這一采集系統(tǒng),作者進(jìn)一步構(gòu)建了 FlashMotion 數(shù)據(jù)集,包含事件、RGB、LiDAR 和 IMU 四種模態(tài),共 240 段序列、約 7.15M 個標(biāo)注幀、20 名志愿者和多類高速動作,同時提供 1000 Hz 的 2D 標(biāo)簽與 60 Hz 的 3D SMPL 標(biāo)簽。
它的價值不只是數(shù)據(jù)規(guī)模更大,而是從采集端直接獲得毫秒級標(biāo)注,從根本上避免了低幀率視頻插值對高速動作細(xì)節(jié)的遺漏。論文還設(shè)計了 ResPose 基線方法,以 RGB 姿態(tài)作為穩(wěn)定的結(jié)構(gòu)先驗,再利用事件流學(xué)習(xí)毫秒級 residual pose,使模型能夠在精確運動計時和高時間分辨率姿態(tài)估計任務(wù)上優(yōu)于 ViTPose、Hybrid ANN-SNN、LEIR 以及插值類方法。
整體來看,這篇論文建立了從硬件系統(tǒng)、自動標(biāo)注、數(shù)據(jù)集構(gòu)建到算法基線的完整閉環(huán),為體育動作分析、快速人體運動理解和機器人模仿學(xué)習(xí)等需要毫秒級姿態(tài)信息的場景提供了新的數(shù)據(jù)和方法基礎(chǔ)。
![]()
從物體姿態(tài)和人體運動進(jìn)一步擴展到完整場景,《SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model》討論的是如何從單張圖像中恢復(fù)開放世界中的 3D 場景。
論文由清華大學(xué)、香港科技大學(xué)、IDEA Research 和 LightIllusions 完成,研究任務(wù)是 開放集單圖 3D 場景生成,也就是從一張包含多個物體的普通場景圖像中,生成幾何完整、物體姿態(tài)合理、空間關(guān)系一致的 3D 場景。
現(xiàn)有方法往往試圖從圖像端到端生成整個場景,但在嚴(yán)重遮擋、未知物體類別和復(fù)雜物體關(guān)系下,容易出現(xiàn)形狀缺失、姿態(tài)漂移和布局不穩(wěn)定等問題。
![]()
論文地址:https://arxiv.org/pdf/2512.10957v1
SceneMaker 的思路是把這個復(fù)雜問題拆解成 去遮擋、物體級 3D 生成和姿態(tài)估計三個相對清晰的階段:首先利用 Grounded-SAM 和 MoGe 獲取物體 mask、深度和點云信息,形成對場景結(jié)構(gòu)的初步理解;
隨后通過獨立訓(xùn)練的去遮擋模型補全被遮擋物體,為后續(xù) image-to-3D 模型提供更完整的物體輸入;最后再使用擴散式姿態(tài)估計模型統(tǒng)一預(yù)測每個物體的旋轉(zhuǎn)、平移和尺寸,并將多個物體組合成完整場景。
這樣的解耦設(shè)計避免了把遮擋補全、幾何生成和空間布局全部壓進(jìn)一個黑箱模型中,使不同模塊能夠分別處理更明確的問題。
與此同時,作者利用 Objaverse 中的大規(guī)模高質(zhì)量 3D 物體構(gòu)建開放集合成場景,增強模型對未見物體、復(fù)雜遮擋和真實圖像的泛化能力。
實驗結(jié)果顯示,SceneMaker 在 MIDI、3D-Front 和開放集測試場景上優(yōu)于 MIDI3D、PartCrafter 等方法,說明它不僅能夠生成更完整的物體幾何,也能得到更穩(wěn)定、更合理的場景級空間布局。
![]()
除了以上的從物體、人體和場景層面強化了視覺系統(tǒng)對三維空間的理解外,《Seeing without Pixels: Perception from Camera Trajectories》則進(jìn)一步提出了一個更反直覺的視角:即使不看視頻像素,只分析相機在空間中的運動軌跡,也可能理解視頻內(nèi)容。
這篇論文由 Google DeepMind 和德克薩斯大學(xué)奧斯汀分校完成,核心觀點是相機軌跡并不只是 3D 重建或 SLAM 中的幾何中間量,它本身也包含語義信息。
![]()
論文地址:https://arxiv.org/pdf/2511.21681v2
拍攝者如何移動、鏡頭如何轉(zhuǎn)向、相機如何跟隨目標(biāo)或圍繞場景運動,往往都反映了視頻中的動作和事件。例如,在第一人稱視角中,走路、攀巖、落地等動作會形成不同的相機位移和旋轉(zhuǎn)模式;
在第三人稱視角中,圍繞場景拍攝或跟隨運動目標(biāo)也會留下具有語義指向的軌跡特征。基于這一觀察,論文構(gòu)建了 CamFormer 這一輕量級 Transformer 軌跡編碼器,將一段相機 pose 序列表示為相對位移和旋轉(zhuǎn),并通過對比學(xué)習(xí)把軌跡嵌入與自然語言描述對齊。
為了緩解短軌跡片段語義稀疏、容易產(chǎn)生歧義的問題,作者還設(shè)計了 contextualized trajectory encoding,在編碼局部動作片段時引入更長時間范圍的軌跡上下文。
論文在 Ego-Exo4D、Nymeria、DynPose-100K、UCF101 和 FineGym 等數(shù)據(jù)集上驗證了相機軌跡作為獨立模態(tài)的價值,覆蓋文本檢索、動作 / 活動分類、關(guān)鍵步驟識別、時間定位和重復(fù)動作分析等任務(wù)。
結(jié)果表明,在身體運動明顯或視覺線索不充分的場景中,軌跡特征甚至可以超過更重的視頻模型;而在視覺信息更強的流程性動作中,它也可以作為補充模態(tài)與視頻特征融合,進(jìn)一步提升理解效果。
整體來看,這篇論文的意義不在于提出一個更復(fù)雜的視頻視覺模型,而在于證明 “相機怎么動”本身就是一種可學(xué)習(xí)、低成本、可從普通視頻估計出來的語義信號,為視頻理解提供了除 RGB、音頻和 IMU 之外的新模態(tài)視角。
![]()
![]()
![]()
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.