CVPR 2026 三維視覺趨勢梳理：從 RGB 感知，到真實世界建模

2026-05-27 18:50:40　來源: AI科技評論

廣東舉報

分享至

多視角、事件視覺與相機軌跡，共同推動視覺模型走向更強空間推理。

作者丨鄭佳美

編輯丨馬曉寧

過去幾年，計算機視覺行業(yè)一直在追求更強的識別、更大的模型和更復(fù)雜的生成能力，但真正落到機器人、工業(yè)檢測、運動分析和空間交互等真實場景時，一個更底層的問題逐漸變得突出：視覺系統(tǒng)到底是在“看圖像”，還是在“理解世界”？

真實世界并不是由一張張干凈、完整、靜止的圖片組成的，物體會被遮擋，單視角會帶來深度和姿態(tài)歧義，高速動作會在普通相機的幀間消失，場景結(jié)構(gòu)也往往需要從不完整的觀測中推斷出來。

更進(jìn)一步，視頻中的語義甚至不一定只存在于像素紋理中，相機如何移動、觀察者如何取景，本身也可能包含對事件和行為的暗示。

因此，視覺研究正在從單純依賴 RGB 外觀表征，轉(zhuǎn)向?qū)θS結(jié)構(gòu)、跨視角一致性、時間動態(tài)和觀察過程的綜合建模。

放在CVPR 2026 的研究脈絡(luò)中看，這一趨勢尤為明顯：不少工作已經(jīng)不再滿足于提升傳統(tǒng) 2D 感知指標(biāo)，而是開始討論如何讓模型在真實空間中定位物體、捕捉毫秒級人體運動、從遮擋圖像中生成完整 3D 場景，甚至僅憑相機軌跡理解視頻內(nèi)容。

下面這幾篇論文正好從不同側(cè)面回應(yīng)了這個問題：它們分別把多視角幾何、事件視覺、開放集 3D 生成和相機運動軌跡引入視覺理解中，試圖讓視覺系統(tǒng)從“識別畫面中的內(nèi)容”，進(jìn)一步走向?qū)φ鎸嵤澜?如何存在、如何運動、如何被觀察的理解。

視覺系統(tǒng)真的理解世界了嗎？

《AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment》由捷克理工大學(xué)布拉格的捷克信息學(xué)、機器人學(xué)與控制論研究所（CIIRC CTU）和捷克理工大學(xué)布拉格電氣工程學(xué)院完成，關(guān)注的是未見物體的多視角 RGB 6D 姿態(tài)估計。

在這一任務(wù)中，系統(tǒng)只獲得物體的 3D mesh、多臺已標(biāo)定相機拍攝的 RGB 圖像以及相機內(nèi)外參，卻需要在不針對測試物體重新訓(xùn)練的情況下，直接估計物體在統(tǒng)一世界坐標(biāo)系中的三維位置和旋轉(zhuǎn)姿態(tài)。

論文并沒有簡單地把多個單視角估計結(jié)果做投票或平均，而是將單視角估計器輸出的候選姿態(tài)作為初始化，先借助相機外參把不同視角下的候選統(tǒng)一到同一個 3D 坐標(biāo)系中，再通過 3D NMS 去除重復(fù)和沖突候選，隨后用面向物體姿態(tài)的 multi-view feature-metric refinement 進(jìn)一步優(yōu)化結(jié)果。

論文地址：https://arxiv.org/pdf/2512.20538v1

具體來說，它會根據(jù)當(dāng)前姿態(tài)在線渲染物體特征，同時使用凍結(jié)的視覺基礎(chǔ)模型提取真實圖像特征，使同一個 world-frame pose 在多個視角中共同最小化“渲染特征—觀測特征”的差異。

這樣的設(shè)計把原本依賴單視角模板匹配或 RGB-D 深度信息的姿態(tài)估計，推進(jìn)到一種無需物體專屬訓(xùn)練、無需對稱性標(biāo)注、無需深度圖，但能充分利用多視角幾何約束的框架。

多視角信息能夠緩解單張 RGB 圖像中的遮擋、深度歧義和外觀歧義，而 foundation features 又增強了模型面對未見物體、無紋理物體、反光物體和透明物體時的泛化能力。

更重要的是，論文將 feature-metric alignment 從相機定位或場景級 bundle adjustment 的思路轉(zhuǎn)化為物體中心的 6D 姿態(tài)優(yōu)化問題，優(yōu)化目標(biāo)也不再是各個視角獨立的姿態(tài)，而是全局一致的 world-frame pose。

實驗中，作者在 YCB-V、T-LESS、ITODD-MV 和 HouseCat6D 上按照 BOP 方法評估，報告其平均性能比單視角估計提升約 11%，比已發(fā)表的多視角 RGB 方法提升約 5%，在無紋理、金屬反光和透明物體等工業(yè)場景中表現(xiàn)尤為突出。

如果說 AlignPose 解決的是物體在多視角空間中的精確定位問題，那么《FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision》則把這種空間感知進(jìn)一步推進(jìn)到高速人體運動場景中。

該論文由廈門大學(xué)城市智能感知與計算福建省重點實驗室、廈門大學(xué)信息學(xué)院教育部多媒體可信感知與高效計算重點實驗室、廈門大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院和上海科技大學(xué)完成，研究重點是毫秒級人體運動捕捉與高時間分辨率人體姿態(tài)估計。

高速人體動作往往包含大量瞬時變化，傳統(tǒng) RGB 相機受幀率限制，光學(xué)動捕系統(tǒng)成本較高，IMU 又容易出現(xiàn)漂移，因此單純依靠低幀率視頻插值很難真實還原運動細(xì)節(jié)。

論文地址：https://arxiv.org/pdf/2603.19770v1

針對這一問題，論文構(gòu)建了 FlashCap 這一低成本高頻動捕系統(tǒng)，將閃爍 LED 標(biāo)記點與事件相機結(jié)合起來：人體關(guān)鍵部位的 LED 以不同頻率閃爍，事件相機異步捕捉亮度變化，再通過事件聚類、頻率識別、異常過濾和 LED 匹配，自動生成 1000 Hz 的 2D 人體關(guān)鍵點標(biāo)簽。

基于這一采集系統(tǒng)，作者進(jìn)一步構(gòu)建了 FlashMotion 數(shù)據(jù)集，包含事件、RGB、LiDAR 和 IMU 四種模態(tài)，共 240 段序列、約 7.15M 個標(biāo)注幀、20 名志愿者和多類高速動作，同時提供 1000 Hz 的 2D 標(biāo)簽與 60 Hz 的 3D SMPL 標(biāo)簽。

它的價值不只是數(shù)據(jù)規(guī)模更大，而是從采集端直接獲得毫秒級標(biāo)注，從根本上避免了低幀率視頻插值對高速動作細(xì)節(jié)的遺漏。論文還設(shè)計了 ResPose 基線方法，以 RGB 姿態(tài)作為穩(wěn)定的結(jié)構(gòu)先驗，再利用事件流學(xué)習(xí)毫秒級 residual pose，使模型能夠在精確運動計時和高時間分辨率姿態(tài)估計任務(wù)上優(yōu)于 ViTPose、Hybrid ANN-SNN、LEIR 以及插值類方法。

整體來看，這篇論文建立了從硬件系統(tǒng)、自動標(biāo)注、數(shù)據(jù)集構(gòu)建到算法基線的完整閉環(huán)，為體育動作分析、快速人體運動理解和機器人模仿學(xué)習(xí)等需要毫秒級姿態(tài)信息的場景提供了新的數(shù)據(jù)和方法基礎(chǔ)。

從物體姿態(tài)和人體運動進(jìn)一步擴展到完整場景，《SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model》討論的是如何從單張圖像中恢復(fù)開放世界中的 3D 場景。

論文由清華大學(xué)、香港科技大學(xué)、IDEA Research 和 LightIllusions 完成，研究任務(wù)是開放集單圖 3D 場景生成，也就是從一張包含多個物體的普通場景圖像中，生成幾何完整、物體姿態(tài)合理、空間關(guān)系一致的 3D 場景。

現(xiàn)有方法往往試圖從圖像端到端生成整個場景，但在嚴(yán)重遮擋、未知物體類別和復(fù)雜物體關(guān)系下，容易出現(xiàn)形狀缺失、姿態(tài)漂移和布局不穩(wěn)定等問題。

論文地址：https://arxiv.org/pdf/2512.10957v1

SceneMaker 的思路是把這個復(fù)雜問題拆解成去遮擋、物體級 3D 生成和姿態(tài)估計三個相對清晰的階段：首先利用 Grounded-SAM 和 MoGe 獲取物體 mask、深度和點云信息，形成對場景結(jié)構(gòu)的初步理解；

隨后通過獨立訓(xùn)練的去遮擋模型補全被遮擋物體，為后續(xù) image-to-3D 模型提供更完整的物體輸入；最后再使用擴散式姿態(tài)估計模型統(tǒng)一預(yù)測每個物體的旋轉(zhuǎn)、平移和尺寸，并將多個物體組合成完整場景。

這樣的解耦設(shè)計避免了把遮擋補全、幾何生成和空間布局全部壓進(jìn)一個黑箱模型中，使不同模塊能夠分別處理更明確的問題。

與此同時，作者利用 Objaverse 中的大規(guī)模高質(zhì)量 3D 物體構(gòu)建開放集合成場景，增強模型對未見物體、復(fù)雜遮擋和真實圖像的泛化能力。

實驗結(jié)果顯示，SceneMaker 在 MIDI、3D-Front 和開放集測試場景上優(yōu)于 MIDI3D、PartCrafter 等方法，說明它不僅能夠生成更完整的物體幾何，也能得到更穩(wěn)定、更合理的場景級空間布局。

除了以上的從物體、人體和場景層面強化了視覺系統(tǒng)對三維空間的理解外，《Seeing without Pixels: Perception from Camera Trajectories》則進(jìn)一步提出了一個更反直覺的視角：即使不看視頻像素，只分析相機在空間中的運動軌跡，也可能理解視頻內(nèi)容。

這篇論文由 Google DeepMind 和德克薩斯大學(xué)奧斯汀分校完成，核心觀點是相機軌跡并不只是 3D 重建或 SLAM 中的幾何中間量，它本身也包含語義信息。

論文地址：https://arxiv.org/pdf/2511.21681v2

拍攝者如何移動、鏡頭如何轉(zhuǎn)向、相機如何跟隨目標(biāo)或圍繞場景運動，往往都反映了視頻中的動作和事件。例如，在第一人稱視角中，走路、攀巖、落地等動作會形成不同的相機位移和旋轉(zhuǎn)模式；

在第三人稱視角中，圍繞場景拍攝或跟隨運動目標(biāo)也會留下具有語義指向的軌跡特征。基于這一觀察，論文構(gòu)建了 CamFormer 這一輕量級 Transformer 軌跡編碼器，將一段相機 pose 序列表示為相對位移和旋轉(zhuǎn)，并通過對比學(xué)習(xí)把軌跡嵌入與自然語言描述對齊。

為了緩解短軌跡片段語義稀疏、容易產(chǎn)生歧義的問題，作者還設(shè)計了 contextualized trajectory encoding，在編碼局部動作片段時引入更長時間范圍的軌跡上下文。

論文在 Ego-Exo4D、Nymeria、DynPose-100K、UCF101 和 FineGym 等數(shù)據(jù)集上驗證了相機軌跡作為獨立模態(tài)的價值，覆蓋文本檢索、動作 / 活動分類、關(guān)鍵步驟識別、時間定位和重復(fù)動作分析等任務(wù)。

結(jié)果表明，在身體運動明顯或視覺線索不充分的場景中，軌跡特征甚至可以超過更重的視頻模型；而在視覺信息更強的流程性動作中，它也可以作為補充模態(tài)與視頻特征融合，進(jìn)一步提升理解效果。

整體來看，這篇論文的意義不在于提出一個更復(fù)雜的視頻視覺模型，而在于證明 “相機怎么動”本身就是一種可學(xué)習(xí)、低成本、可從普通視頻估計出來的語義信號，為視頻理解提供了除 RGB、音頻和 IMU 之外的新模態(tài)視角。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.