无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 三維視覺趨勢梳理:從 RGB 感知,到真實世界建模

0
分享至


多視角、事件視覺與相機軌跡,共同推動視覺模型走向更強空間推理。

作者丨鄭佳美

編輯丨馬曉寧

過去幾年,計算機視覺行業(yè)一直在追求更強的識別、更大的模型和更復(fù)雜的生成能力,但真正落到機器人、工業(yè)檢測、運動分析和空間交互等真實場景時,一個更底層的問題逐漸變得突出:視覺系統(tǒng)到底是在“看圖像”,還是在“理解世界”?

真實世界并不是由一張張干凈、完整、靜止的圖片組成的,物體會被遮擋,單視角會帶來深度和姿態(tài)歧義,高速動作會在普通相機的幀間消失,場景結(jié)構(gòu)也往往需要從不完整的觀測中推斷出來。

更進(jìn)一步,視頻中的語義甚至不一定只存在于像素紋理中,相機如何移動、觀察者如何取景,本身也可能包含對事件和行為的暗示。

因此,視覺研究正在從單純依賴 RGB 外觀表征,轉(zhuǎn)向?qū)θS結(jié)構(gòu)、跨視角一致性、時間動態(tài)和觀察過程 的綜合建模。

放在CVPR 2026 的研究脈絡(luò)中看,這一趨勢尤為明顯:不少工作已經(jīng)不再滿足于提升傳統(tǒng) 2D 感知指標(biāo),而是開始討論如何讓模型在真實空間中定位物體、捕捉毫秒級人體運動、從遮擋圖像中生成完整 3D 場景,甚至僅憑相機軌跡理解視頻內(nèi)容。

下面這幾篇論文正好從不同側(cè)面回應(yīng)了這個問題:它們分別把多視角幾何、事件視覺、開放集 3D 生成和相機運動軌跡引入視覺理解中,試圖讓視覺系統(tǒng)從“識別畫面中的內(nèi)容”,進(jìn)一步走向?qū)φ鎸嵤澜?如何存在、如何運動、如何被觀察 的理解。

01


視覺系統(tǒng)真的理解世界了嗎?

《AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment》由捷克理工大學(xué)布拉格的捷克信息學(xué)、機器人學(xué)與控制論研究所(CIIRC CTU) 和捷克理工大學(xué)布拉格電氣工程學(xué)院完成,關(guān)注的是 未見物體的多視角 RGB 6D 姿態(tài)估計。

在這一任務(wù)中,系統(tǒng)只獲得物體的 3D mesh、多臺已標(biāo)定相機拍攝的 RGB 圖像以及相機內(nèi)外參,卻需要在不針對測試物體重新訓(xùn)練的情況下,直接估計物體在統(tǒng)一世界坐標(biāo)系中的三維位置和旋轉(zhuǎn)姿態(tài)。

論文并沒有簡單地把多個單視角估計結(jié)果做投票或平均,而是將單視角估計器輸出的候選姿態(tài)作為初始化,先借助相機外參把不同視角下的候選統(tǒng)一到同一個 3D 坐標(biāo)系中,再通過 3D NMS 去除重復(fù)和沖突候選,隨后用面向物體姿態(tài)的 multi-view feature-metric refinement 進(jìn)一步優(yōu)化結(jié)果。


論文地址:https://arxiv.org/pdf/2512.20538v1

具體來說,它會根據(jù)當(dāng)前姿態(tài)在線渲染物體特征,同時使用凍結(jié)的視覺基礎(chǔ)模型提取真實圖像特征,使同一個 world-frame pose 在多個視角中共同最小化“渲染特征—觀測特征”的差異。

這樣的設(shè)計把原本依賴單視角模板匹配或 RGB-D 深度信息的姿態(tài)估計,推進(jìn)到一種 無需物體專屬訓(xùn)練、無需對稱性標(biāo)注、無需深度圖,但能充分利用多視角幾何約束 的框架。

多視角信息能夠緩解單張 RGB 圖像中的遮擋、深度歧義和外觀歧義,而 foundation features 又增強了模型面對未見物體、無紋理物體、反光物體和透明物體時的泛化能力。

更重要的是,論文將 feature-metric alignment 從相機定位或場景級 bundle adjustment 的思路轉(zhuǎn)化為物體中心的 6D 姿態(tài)優(yōu)化問題,優(yōu)化目標(biāo)也不再是各個視角獨立的姿態(tài),而是全局一致的 world-frame pose。

實驗中,作者在 YCB-V、T-LESS、ITODD-MV 和 HouseCat6D 上按照 BOP 方法評估,報告其平均性能比單視角估計提升約 11%,比已發(fā)表的多視角 RGB 方法提升約 5%,在無紋理、金屬反光和透明物體等工業(yè)場景中表現(xiàn)尤為突出。


如果說 AlignPose 解決的是物體在多視角空間中的精確定位問題,那么《FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision》則把這種空間感知進(jìn)一步推進(jìn)到高速人體運動場景中。

該論文由廈門大學(xué)城市智能感知與計算福建省重點實驗室、廈門大學(xué)信息學(xué)院教育部多媒體可信感知與高效計算重點實驗室、廈門大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院和上海科技大學(xué)完成,研究重點是 毫秒級人體運動捕捉與高時間分辨率人體姿態(tài)估計。

高速人體動作往往包含大量瞬時變化,傳統(tǒng) RGB 相機受幀率限制,光學(xué)動捕系統(tǒng)成本較高,IMU 又容易出現(xiàn)漂移,因此單純依靠低幀率視頻插值很難真實還原運動細(xì)節(jié)。


論文地址:https://arxiv.org/pdf/2603.19770v1

針對這一問題,論文構(gòu)建了 FlashCap 這一低成本高頻動捕系統(tǒng),將閃爍 LED 標(biāo)記點 與 事件相機 結(jié)合起來:人體關(guān)鍵部位的 LED 以不同頻率閃爍,事件相機異步捕捉亮度變化,再通過事件聚類、頻率識別、異常過濾和 LED 匹配,自動生成 1000 Hz 的 2D 人體關(guān)鍵點標(biāo)簽。

基于這一采集系統(tǒng),作者進(jìn)一步構(gòu)建了 FlashMotion 數(shù)據(jù)集,包含事件、RGB、LiDAR 和 IMU 四種模態(tài),共 240 段序列、約 7.15M 個標(biāo)注幀、20 名志愿者和多類高速動作,同時提供 1000 Hz 的 2D 標(biāo)簽與 60 Hz 的 3D SMPL 標(biāo)簽。

它的價值不只是數(shù)據(jù)規(guī)模更大,而是從采集端直接獲得毫秒級標(biāo)注,從根本上避免了低幀率視頻插值對高速動作細(xì)節(jié)的遺漏。論文還設(shè)計了 ResPose 基線方法,以 RGB 姿態(tài)作為穩(wěn)定的結(jié)構(gòu)先驗,再利用事件流學(xué)習(xí)毫秒級 residual pose,使模型能夠在精確運動計時和高時間分辨率姿態(tài)估計任務(wù)上優(yōu)于 ViTPose、Hybrid ANN-SNN、LEIR 以及插值類方法。

整體來看,這篇論文建立了從硬件系統(tǒng)、自動標(biāo)注、數(shù)據(jù)集構(gòu)建到算法基線的完整閉環(huán),為體育動作分析、快速人體運動理解和機器人模仿學(xué)習(xí)等需要毫秒級姿態(tài)信息的場景提供了新的數(shù)據(jù)和方法基礎(chǔ)。


從物體姿態(tài)和人體運動進(jìn)一步擴展到完整場景,《SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model》討論的是如何從單張圖像中恢復(fù)開放世界中的 3D 場景。

論文由清華大學(xué)、香港科技大學(xué)、IDEA Research 和 LightIllusions 完成,研究任務(wù)是 開放集單圖 3D 場景生成,也就是從一張包含多個物體的普通場景圖像中,生成幾何完整、物體姿態(tài)合理、空間關(guān)系一致的 3D 場景。

現(xiàn)有方法往往試圖從圖像端到端生成整個場景,但在嚴(yán)重遮擋、未知物體類別和復(fù)雜物體關(guān)系下,容易出現(xiàn)形狀缺失、姿態(tài)漂移和布局不穩(wěn)定等問題。


論文地址:https://arxiv.org/pdf/2512.10957v1

SceneMaker 的思路是把這個復(fù)雜問題拆解成 去遮擋、物體級 3D 生成和姿態(tài)估計三個相對清晰的階段:首先利用 Grounded-SAM 和 MoGe 獲取物體 mask、深度和點云信息,形成對場景結(jié)構(gòu)的初步理解;

隨后通過獨立訓(xùn)練的去遮擋模型補全被遮擋物體,為后續(xù) image-to-3D 模型提供更完整的物體輸入;最后再使用擴散式姿態(tài)估計模型統(tǒng)一預(yù)測每個物體的旋轉(zhuǎn)、平移和尺寸,并將多個物體組合成完整場景。

這樣的解耦設(shè)計避免了把遮擋補全、幾何生成和空間布局全部壓進(jìn)一個黑箱模型中,使不同模塊能夠分別處理更明確的問題。

與此同時,作者利用 Objaverse 中的大規(guī)模高質(zhì)量 3D 物體構(gòu)建開放集合成場景,增強模型對未見物體、復(fù)雜遮擋和真實圖像的泛化能力。

實驗結(jié)果顯示,SceneMaker 在 MIDI、3D-Front 和開放集測試場景上優(yōu)于 MIDI3D、PartCrafter 等方法,說明它不僅能夠生成更完整的物體幾何,也能得到更穩(wěn)定、更合理的場景級空間布局。


除了以上的從物體、人體和場景層面強化了視覺系統(tǒng)對三維空間的理解外,《Seeing without Pixels: Perception from Camera Trajectories》則進(jìn)一步提出了一個更反直覺的視角:即使不看視頻像素,只分析相機在空間中的運動軌跡,也可能理解視頻內(nèi)容。

這篇論文由 Google DeepMind 和德克薩斯大學(xué)奧斯汀分校完成,核心觀點是相機軌跡并不只是 3D 重建或 SLAM 中的幾何中間量,它本身也包含語義信息。


論文地址:https://arxiv.org/pdf/2511.21681v2

拍攝者如何移動、鏡頭如何轉(zhuǎn)向、相機如何跟隨目標(biāo)或圍繞場景運動,往往都反映了視頻中的動作和事件。例如,在第一人稱視角中,走路、攀巖、落地等動作會形成不同的相機位移和旋轉(zhuǎn)模式;

在第三人稱視角中,圍繞場景拍攝或跟隨運動目標(biāo)也會留下具有語義指向的軌跡特征。基于這一觀察,論文構(gòu)建了 CamFormer 這一輕量級 Transformer 軌跡編碼器,將一段相機 pose 序列表示為相對位移和旋轉(zhuǎn),并通過對比學(xué)習(xí)把軌跡嵌入與自然語言描述對齊。

為了緩解短軌跡片段語義稀疏、容易產(chǎn)生歧義的問題,作者還設(shè)計了 contextualized trajectory encoding,在編碼局部動作片段時引入更長時間范圍的軌跡上下文。

論文在 Ego-Exo4D、Nymeria、DynPose-100K、UCF101 和 FineGym 等數(shù)據(jù)集上驗證了相機軌跡作為獨立模態(tài)的價值,覆蓋文本檢索、動作 / 活動分類、關(guān)鍵步驟識別、時間定位和重復(fù)動作分析等任務(wù)。

結(jié)果表明,在身體運動明顯或視覺線索不充分的場景中,軌跡特征甚至可以超過更重的視頻模型;而在視覺信息更強的流程性動作中,它也可以作為補充模態(tài)與視頻特征融合,進(jìn)一步提升理解效果。

整體來看,這篇論文的意義不在于提出一個更復(fù)雜的視頻視覺模型,而在于證明 “相機怎么動”本身就是一種可學(xué)習(xí)、低成本、可從普通視頻估計出來的語義信號,為視頻理解提供了除 RGB、音頻和 IMU 之外的新模態(tài)視角。




未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
世界杯太太團(tuán)頂流是C羅女友,身材豐滿凹凸,做過柜姐是90后美女

世界杯太太團(tuán)頂流是C羅女友,身材豐滿凹凸,做過柜姐是90后美女

往史過眼云煙
2026-06-13 21:58:53
女子考編第一被遞補,維權(quán)后崗位直接取消!黑龍江:審核人員失誤

女子考編第一被遞補,維權(quán)后崗位直接取消!黑龍江:審核人員失誤

聽心堂
2026-06-13 22:26:26
副省長呂德彬雇兇殺妻被判死刑!他的前妻、一雙兒女人生現(xiàn)狀如何

副省長呂德彬雇兇殺妻被判死刑!他的前妻、一雙兒女人生現(xiàn)狀如何

細(xì)品名人
2026-06-14 07:21:58
星艦很大,但長征九號更大!新信息顯示箭高185米,整流罩寬16米

星艦很大,但長征九號更大!新信息顯示箭高185米,整流罩寬16米

科普大世界
2026-06-13 16:41:01
男籃又增添一大勁敵了?廣廈超級外援被歸化:CBA真在養(yǎng)虎為患嗎

男籃又增添一大勁敵了?廣廈超級外援被歸化:CBA真在養(yǎng)虎為患嗎

籃球快餐車
2026-06-14 05:34:47
為何又被逆轉(zhuǎn)?米奇給出答案,說得實在,直言不配勝利,點名2人

為何又被逆轉(zhuǎn)?米奇給出答案,說得實在,直言不配勝利,點名2人

萌蘭聊個球
2026-06-14 12:20:01
面包店員工透露,這幾種糕點盡量要少買,他們自己都不敢多吃

面包店員工透露,這幾種糕點盡量要少買,他們自己都不敢多吃

透視到底
2026-06-13 23:40:39
48歲喜提“七胞胎”兒子,全職奶爸一人帶7個娃,真實“身份”不只是礦業(yè)老板那么簡單

48歲喜提“七胞胎”兒子,全職奶爸一人帶7個娃,真實“身份”不只是礦業(yè)老板那么簡單

婚姻與家庭
2026-06-12 09:38:24
大量驍龍888手機流入閑魚,16G+1T賣125元,到底有啥貓膩?

大量驍龍888手機流入閑魚,16G+1T賣125元,到底有啥貓膩?

閑搞機
2026-06-14 11:08:21
太平島又發(fā)生激烈對峙,現(xiàn)場情況很危險,我們必須收回該島執(zhí)法權(quán)

太平島又發(fā)生激烈對峙,現(xiàn)場情況很危險,我們必須收回該島執(zhí)法權(quán)

馬探解說體育
2026-06-14 08:00:22
外籍旅客帶少數(shù)民族服裝出境被攔,6件上衣2件繡片均屬于一般文物

外籍旅客帶少數(shù)民族服裝出境被攔,6件上衣2件繡片均屬于一般文物

揚子晚報
2026-06-13 16:44:48
國產(chǎn)手機漲價自食其果,iPhone17銷量猛漲,蘋果稱霸國內(nèi)市場

國產(chǎn)手機漲價自食其果,iPhone17銷量猛漲,蘋果稱霸國內(nèi)市場

柏銘銳談
2026-06-12 23:57:01
震驚!武漢某大學(xué)食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

震驚!武漢某大學(xué)食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

火山詩話
2026-06-13 08:00:03
中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
中國有錢家庭標(biāo)準(zhǔn)出爐,有錢家庭超過500萬戶,你達(dá)標(biāo)了嗎?

中國有錢家庭標(biāo)準(zhǔn)出爐,有錢家庭超過500萬戶,你達(dá)標(biāo)了嗎?

貓叔東山再起
2026-06-14 08:40:06
一個妓女從業(yè)10年后的職場領(lǐng)悟:見過太多的男人,比心理專家還懂得人性

一個妓女從業(yè)10年后的職場領(lǐng)悟:見過太多的男人,比心理專家還懂得人性

心理觀察局
2026-06-14 06:57:02
好萊塢富二代陰鷙癲狂,將華裔妻子全家團(tuán)滅,光天化日丟入垃圾桶

好萊塢富二代陰鷙癲狂,將華裔妻子全家團(tuán)滅,光天化日丟入垃圾桶

深夜探案館
2026-06-14 01:03:12
生涯首冠!唐斯7中1提前6犯畢業(yè)仍躺冠 擁抱女友情緒激動

生涯首冠!唐斯7中1提前6犯畢業(yè)仍躺冠 擁抱女友情緒激動

醉臥浮生
2026-06-14 11:44:12
1.7億贏不了0.1億!世界杯第1個冷門:卡塔爾門將痛哭 瑞士隊蒙羞

1.7億贏不了0.1億!世界杯第1個冷門:卡塔爾門將痛哭 瑞士隊蒙羞

風(fēng)過鄉(xiāng)
2026-06-14 05:54:27
社保繳費基數(shù)要嚴(yán)管了!那些按最低標(biāo)準(zhǔn)交社保的公司,該心慌了!

社保繳費基數(shù)要嚴(yán)管了!那些按最低標(biāo)準(zhǔn)交社保的公司,該心慌了!

細(xì)說職場
2026-06-14 14:09:05
2026-06-14 15:00:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7372文章數(shù) 20758關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風(fēng)報信

頭條要聞

中國裁判本屆世界杯首次執(zhí)法 澳大利亞2比0戰(zhàn)勝土耳其

頭條要聞

中國裁判本屆世界杯首次執(zhí)法 澳大利亞2比0戰(zhàn)勝土耳其

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

健康
家居
數(shù)碼
親子
公開課

老人、小孩、孕婦,吃粽子有啥風(fēng)險

家居要聞

空間微調(diào) 移形換境

數(shù)碼要聞

亮相世界杯!海信RGB-Mini LED電視拿下全球超七成份額

親子要聞

本想套路閨女吃藥,沒想到被女兒套路,現(xiàn)場畫面太尷尬!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版