无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

0
分享至


可動結構、4D 表征與高效重建登場。

作者丨鄭佳美

編輯丨馬曉寧

2026 年 6 月 1 日,國際機器人與自動化會議(ICRA)在奧地利維也納召開。次日上午的自動駕駛與導航報告環節,雷峰網GAIR 2021大會嘉賓、上海交通大學教授王賀升發表了題為《Learning to Navigate: From Scene Understanding to Decision Makin》的演講。

3D 視覺研究正在從“重建形狀”走向“理解空間”。過去,一個模型只要能生成外觀合理的三維物體,就已經足夠令人關注。

但現在,真正重要的問題正在變得更復雜:模型能否判斷一個物體內部哪些部件可以運動,能否理解動態物體在時間中的幾何和外觀變化,能否在多視角重建中兼顧精度與效率,甚至能否讀懂復雜的 3D 幾何論文并寫出可復現的研究代碼。

這種轉變也體現在 CVPR 2026 相關研究所關注的問題上。研究者不再只滿足于讓 AI 生成一個靜態 3D 模型,而是希望它進一步理解物體的結構、運動方式、時空表示和計算過程。

一個抽屜不只是一個長方體,而是應該知道它可以沿軌道滑動;一個動態物體不只是連續的幾幀形狀,而是需要被統一表示和長期追蹤;一個 3D 基礎模型也不只是越大越好,還必須在實際場景中高效、穩定地運行。

更深層來看,3D AI正在從單點能力走向系統能力。它不僅要回答“物體長什么樣”,還要回答“它怎么動”、“如何被重建”、“如何高效運行”、“如何被研究者復現和擴展”。當這些能力逐漸連在一起,3D 模型才更接近真正可用的空間智能系統,也更接近機器人、仿真、數字孿生和生成式 3D 內容所需要的核心基礎。

01


從可動結構到 4D 動態表示

《PARTICULATE: Feed-Forward 3D Object Articulation》關注的是 3D 物體自動關節化問題,相關研究來自牛津大學、劍橋大學和南洋理工大學。

論文主要研究如何從一個靜態 3D 網格中,自動推斷出物體的可動結構,包括物體由哪些可動部件組成、這些部件之間如何連接,以及它們分別沿著什么方向旋轉或滑動。

這項任務的意義在于,很多現實物體并不只是“有形狀”,還具有可運動的結構。比如柜門可以旋轉打開,抽屜可以沿軌道滑動,水龍頭、椅子、行李箱等物體也都有不同形式的可動部件。

對于機器人操作、物理仿真、游戲資產和數字孿生來說,僅有一個靜態 3D 模型是不夠的,還需要知道這個物體“哪里能動、怎么動、動多少”。

以往的方法往往依賴規則建模、部件檢索,或者針對單個物體進行優化,推理速度慢,也很難覆蓋真實世界中種類豐富的物體。


論文地址:https://arxiv.org/pdf/2512.11798

針對這一問題,論文提出了 PARTICULATE 框架,它可以在一次前向推理中,從輸入的 3D mesh 直接預測完整的關節結構,并在數秒內生成一個可用于物理引擎的可動 3D 模型。

方法上,論文設計了 Part Articulation Transformer,也就是 PAT。它會先從輸入 mesh 中采樣點云,并結合表面法向量和 PartField 提取的 3D 語義部件特征,然后通過 Transformer 結構和多個解碼頭,同時預測部件分割、運動學樹、關節類型、運動軸和運動范圍。也就是說,模型不僅要把物體切分成不同部件,還要判斷這些部件之間的父子關系,以及每個部件是旋轉、平移,還是固定不動。

論文還構建了一個新的 3D 關節估計評測基準,包含 243 個高質量 3D 資產,并重新設計了更符合人類偏好的評估方式。實驗中,PARTICULATE 在靜態 3D mesh 的可動結構恢復任務上明顯優于已有方法,并且能夠泛化到未見過的物體,甚至可以處理 AI 生成的 3D 資產。

這篇論文的亮點在于,它把 3D 模型從“靜態形狀”進一步推向“可交互對象”。過去,一個 3D 生成模型可能只能生成一個外觀合理的物體,而 PARTICULATE 試圖進一步讓模型理解物體內部的可動結構。

它不僅能告訴模型“這個物體長什么樣”,還能讓模型知道“這個物體應該怎么動”。這對于機器人操作、仿真環境、游戲制作和 AI 生成 3D 內容都有很強的實用價值。


如果說 PARTICULATE 更關注靜態 3D 物體內部的“可動結構”,那么《Velox: Learning Representations of 4D Geometry and Appearance》則進一步把視角擴展到時間維度,研究物體在運動過程中的幾何和外觀變化。相關研究來自蘋果公司和多倫多大學,論文關注的是 4D 動態物體表示學習問題。

論文主要研究如何為隨時間變化的 3D 物體學習一種緊湊、通用的表示,使模型能夠同時捕捉物體的幾何結構、外觀信息和時間變化。這里的 4D 可以理解為“三維空間加時間”,也就是不僅要知道物體長什么樣,還要知道它如何運動。

以往的 3D 或 4D 表示方法往往只服務于單一任務,或者需要提前知道不同時間點之間的點對應關系,因此泛化能力有限。針對這一問題,論文提出了 Velox 框架,將輸入的時空彩色點云壓縮成一組 dynamic tokens,用這些緊湊表示來概括整個動態物體。論文中提到,這種方式可以實現超過 30 倍的壓縮,并且不需要把時間對應關系作為輸入。


論文地址:https://arxiv.org/pdf/2605.04527

方法上,Velox 使用類似 Perceiver IO 的編碼器,從無結構動態點云中提取時空信息,再通過兩個解碼器分別建模幾何和外觀。

其中 4D surface decoder 負責恢復隨時間變化的物體表面,Gaussian decoder 則將 dynamic tokens 映射成 3D Gaussians,用于恢復外觀細節。也就是說,Velox 不是逐幀處理 3D 物體,而是學習一個貫穿時間的統一動態表示。

論文將這種表示應用到 video-to-4D 生成、3D 跟蹤和布料仿真等任務中。實驗結果顯示,Velox 在動態物體重建、新視角生成和 3D 跟蹤等方面表現較好,能夠把時間、運動、幾何和外觀統一到一個緊湊表示中。

這篇論文的亮點在于,它把 3D 生成從“靜態形狀”推進到“動態世界建模”。Velox 不只是重建一個會動的物體,而是學習一種可以復用的 4D 表示,讓模型更好地理解物體在時間中的運動和變化。這對于 4D 生成、動態數字資產、機器人感知和仿真任務都有重要意義。


在 3D 和 4D 模型能力不斷增強的同時,推理效率也成為實際應用中繞不開的問題。《HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT》關注的正是 VGGT 模型的高效推理,相關研究來自首爾大學。論文主要研究如何在多視角 3D 重建中降低 VGGT 全局注意力層的計算開銷,同時盡量避免精度下降。

VGGT 依靠全局注意力來理解多張圖像之間的幾何關系,但注意力計算成本會隨著輸入視圖數量增加而快速上升,這限制了它在大規模或實時 3D 重建場景中的應用。

以往的稀疏化方法通常會對所有注意力頭使用相同的稀疏策略,也就是統一減少注意力計算。但論文指出,不同注意力頭對稀疏化的敏感程度并不一樣。有些頭對相機位姿、點云結構等幾何信息非常關鍵,如果被過度稀疏化,模型性能會明顯下降;而有些頭相對不敏感,可以承受更高程度的稀疏。


論文地址:https://arxiv.org/pdf/2603.25336v1

針對這一問題,論文提出了 HeSS,也就是 Head Sensitivity Score,用來衡量每個注意力頭對稀疏化的敏感程度。它通過一個小規模校準集,結合相機位姿誤差和點云誤差兩個指標,近似估計每個注意力頭的重要性。這樣模型就可以知道哪些頭需要保留更密集的注意力計算,哪些頭可以進一步稀疏化。

方法上,論文采用兩階段流程。第一階段是離線校準,計算每個注意力頭的 HeSS 分數;第二階段是在推理時根據這些分數重新分配注意力預算。也就是說,總計算量不一定增加,但會把更多預算分給敏感頭,把更少預算分給不敏感頭,從而在保持加速效果的同時減少重建質量損失。

這篇論文的亮點在于,它不是簡單地“統一壓縮”模型,而是根據不同注意力頭的重要性進行更精細的稀疏化分配。實驗結果顯示,HeSS 能夠有效捕捉全局注意力層中不同頭的敏感差異,在高稀疏率下比 SparseVGGT 更好地保持相機位姿估計和點云重建質量,并且可以推廣到其他基于 VGGT 的結構中。

總體來看,這篇論文的核心貢獻是讓 VGGT 這類 3D 視覺基礎模型在保持幾何精度的同時變得更高效。它說明模型加速不能只看計算量,還要理解模型內部不同模塊對任務結果的影響。對于多視角 3D 重建、實時空間感知和大規模 3D 場景建模來說,這類“精度友好型加速”方法具有較強的實用價值。


當 3D 視覺模型越來越復雜,另一個問題也隨之出現:大語言模型能不能真正幫助研究者理解并實現這些幾何算法。

《Benchmarking PhD-Level Coding in 3D Geometric Computer Vision》關注的是 3D 幾何視覺中的高難度代碼生成評測問題,相關研究來自清華大學人工智能產業研究院、清華大學求真書院、北京智源人工智能研究院、北京大學、南京大學和多倫多大學。

論文主要研究的是:當大語言模型讀到一篇 3D 視覺論文和相關代碼框架時,能否真正理解其中的幾何算法,并寫出可以運行、可以通過單元測試的研究級代碼。

這項工作的背景在于,AI 輔助編程已經在通用軟件開發中表現較強,但 3D 幾何視覺代碼并不只是普通編程。它往往涉及坐標變換、相機投影、點云處理、物理或光學公式、渲染邏輯以及多視角幾何關系。

如果模型只是“會寫代碼”,但不能準確理解論文中的數學定義和幾何約束,就很容易寫出看似合理、實際錯誤的實現。為了解決缺少專業評測的問題,論文提出了 GeoCodeBench,這是一個面向 3D 幾何視覺的博士級代碼生成基準。

每個任務都來自真實 3D 視覺論文及其官方代碼倉庫,形式是給模型論文內容和一個被挖空的函數,讓模型補全核心實現,再通過單元測試判斷代碼是否正確。這個設定更接近真實科研場景:模型不僅要讀懂論文,還要把方法轉化成可執行代碼。


論文地址:https://arxiv.org/pdf/2603.30038v1

在數據構建上,GeoCodeBench 從 CVPR 2025、ICCV 2025 和 ICLR 2025 的 47 個代碼倉庫中篩選出 100 個高質量問題,覆蓋 Gaussian Splatting、姿態估計、SLAM、重建、NeRF、物理建模和 3D 分割等方向。

任務被分為兩大能力:一類是通用 3D 能力,包括幾何變換和力學 / 光學公式實現;另一類是科研能力,包括新算法實現和幾何邏輯組合。

論文還設計了自動化評測流程。系統會解析論文內容、提取代碼函數、生成被挖空的實現模板,并為每個問題構建覆蓋普通情況和邊界情況的單元測試。模型生成代碼后,直接在測試環境中運行,用通過率衡量結果。這種方式比只看自然語言回答更嚴格,因為代碼必須真正執行正確,才能算通過。

實驗結果顯示,當前大模型在這類任務上仍有明顯差距。論文評測了 8 個開源和閉源模型,其中表現最好的 GPT-5 總通過率也只有 36.6%。結果還顯示,模型在基礎幾何和數學公式類任務上相對更好,但在論文特定的新算法實現和幾何邏輯組合上明顯更弱,說明它們距離可靠完成 3D 科研級編程還有很大空間。

這篇論文的亮點在于,它把大模型代碼能力評測從通用編程推進到了更接近科研現場的 3D 幾何視覺場景。

GeoCodeBench 不只是考模型會不會寫 Python,而是考它能不能讀懂論文、理解幾何關系、實現核心算法并通過可復現測試。總體來看,這項工作為評估和推動“自動化 3D 視覺研究助手”提供了一個更嚴格、更真實的測試平臺。


02


去哪看 CVPR 核心

【演講/論文】詳解?

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網已全面上線【CVPR 2026 深度專區】

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子考編第一被遞補,維權后崗位直接取消!黑龍江:審核人員失誤

女子考編第一被遞補,維權后崗位直接取消!黑龍江:審核人員失誤

聽心堂
2026-06-13 22:26:26
中國人保集團原黨委委員、副總裁俞小平被查

中國人保集團原黨委委員、副總裁俞小平被查

澎湃新聞
2026-06-13 18:58:26
制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

銘記歷史呀
2026-06-13 16:02:30
中國不需要也不可能復制SpaceX

中國不需要也不可能復制SpaceX

大象新聞
2026-06-13 15:33:12
嬰兒剛滿月被“保姆”抱走?警方沖進火車緊急攔截 對方竟是親奶奶:要把孩子帶回貴州老家

嬰兒剛滿月被“保姆”抱走?警方沖進火車緊急攔截 對方竟是親奶奶:要把孩子帶回貴州老家

閃電新聞
2026-06-13 19:49:12
惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

風過鄉
2026-06-13 20:03:49
演都不演了!楊振寧離世8月,翁帆突傳新消息,懷孕傳聞真相大白

演都不演了!楊振寧離世8月,翁帆突傳新消息,懷孕傳聞真相大白

娛樂的硬糖吖
2026-06-13 20:34:48
A股,重大調整!就在下周一

A股,重大調整!就在下周一

證券時報
2026-06-13 22:02:33
全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

金錯刀
2026-06-12 18:22:07
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

極目新聞
2026-06-13 20:47:12
隨著無錫1-0,宿遷3-0,泰州1-0,蘇超最新積分榜出爐

隨著無錫1-0,宿遷3-0,泰州1-0,蘇超最新積分榜出爐

側身凌空斬
2026-06-13 21:43:43
“一天四次誰受得了呀”,丈夫需求太旺盛,妻子無法忍受將其毒死

“一天四次誰受得了呀”,丈夫需求太旺盛,妻子無法忍受將其毒死

易玄
2026-06-13 19:17:27
印度突破人類底線!男子和岳母4年亂倫

印度突破人類底線!男子和岳母4年亂倫

歲月有情1314
2026-06-14 02:31:50
“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

大風新聞
2026-06-13 18:34:21
特朗普:美伊協議計劃于周日簽署 霍爾木茲海峽隨后立即開放

特朗普:美伊協議計劃于周日簽署 霍爾木茲海峽隨后立即開放

財聯社
2026-06-14 02:40:11
貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

細說職場
2026-06-13 12:04:14
國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

環球網資訊
2026-06-13 19:11:01
曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

念洲
2026-06-13 20:33:46
中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

共工之錨
2026-06-14 01:40:45
2026-06-14 06:19:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20757關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

家居
數碼
健康
親子
游戲

家居要聞

空間微調 移形換境

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

老人、小孩、孕婦,吃粽子有啥風險

親子要聞

真正覺醒的家庭

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰勝WE,決賽見

無障礙瀏覽 進入關懷版