網易首頁 > 網易號 > 正文申請入駐

無需多視角，單圖重建可交互3D模型！南洋理工開源結構推理框架

2026-04-22 11:03:50　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】讓3D模型「活」起來！南洋理工大學團隊提出MonoArt，通過逐步推理實現從單圖生成可動3D模型。該方法先恢復幾何結構，再識別部件，最后推斷運動方式與參數。無需外部數據或先驗，即可構建出具備運動能力的3D表示，有效提升重建穩定性與實用性。

在3D生成領域，我們已經習慣了從單張圖片中生成3D物體模型。

然而，隨著具身智能（Embodied AI）的爆發，一個新的現實擺在研究者面前：這些模型大多是難以交互的靜態資產。

你想打開生成的冰箱門？它是焊死的。你想讓機器人搬動生成的椅子？它不知道哪里可以折疊。

近日，來自南洋理工大學S-Lab的研究團隊提出MonoArt，嘗試高效的解決這一問題：與其讓模型直接「猜」物體怎么動，不如先讓它一步步「理解」物體的結構。

MonoArt 的核心思路可以概括為一句話：把單目可動物體重建，建模為一個漸進式結構推理過程（progressive structural reasoning）。

在這個框架里，模型不是一次性輸出articulation，而是依次完成幾何恢復、部件感知、運動推理和運動學參數估計，最終得到一個既有形狀、又有部件層級和關節信息的3D表示。

論文鏈接：https://arxiv.org/abs/2603.19231

項目鏈接：https://lihaitian.com/MonoArt/

GitHub鏈接：https://github.com/Quest4Science/MonoArt

引言

與靜態3D重建不同，articulated 3D reconstruction不僅要恢復物體形狀，還要進一步建模部件劃分、關節類型、運動軸、旋轉中心和運動范圍。這個任務的難點不僅在于需要預測的參數更多，更在于結構與運動是耦合的：不知道可動部件怎么劃分，就很難推斷它如何運動；反過來，不理解運動關系，又很難真正建好可動部件的結構。也正因為如此，直接從圖像特征回歸articulation往往不穩定，泛化也有限。

現有方法大致可以分為三類：

基于多視角或視頻的方法：依賴同一物體在不同開合狀態下的觀測，雖然效果較好，但對數據條件要求高，真實場景中往往不具備。
基于檢索與拼裝的方法：通過已有資產庫組裝可動物體，但容易受到庫內形狀覆蓋的限制，結果常出現幾何誤差和紋理不匹配。
基于額外先驗的方法：借助視覺語言模型、輔助視頻生成或預定義運動方向來推斷articulation，雖然減少了對多視角數據的依賴，但系統更復雜，更依賴外部先驗，同時通常需要更漫長的推理時間。

這些方法有一個共同問題：它們都沒有真正把結構理解本身作為articulation inference的起點。

要么依賴更多觀測補信息，要么依賴外部先驗補線索，但都沒有回答一個更本質的問題：單張圖像里的可動物體，能否先被拆解為穩定的幾何與部件結構，再在此基礎上推斷運動關系？

MonoArt正是為了解決這個問題而提出。它不再把 articulation 視為一個直接回歸的結果，而是將單目可動物體重建建模為一個漸進式結構推理過程，把 geometry、part structure 和 motion 放進同一條連續的推理鏈里，讓運動成為結構理解的自然結果。

方法設計

具體來看，MonoArt 由四個關鍵模塊組成，來實現圖像 → 幾何恢復 → 部件感知 → 運動推理 → 運動學參數估計的逐步的推理。

第一步：先有一個靠譜的3D形狀

一切的起點是從單張圖像恢復出物體的三維幾何。MonoArt使用TRELLIS作為凍結的3D生成骨干，輸出一個canonical mesh以及與之對齊的latent features。這一步的意義在于：后續所有關于「部件」和「運動」的推理，都建立在三維空間而非二維圖像上——這比直接從像素特征回歸關節參數要穩定得多。

第二步：知道物體由哪些可動部件組成

有了3D形狀，下一個問題是：這個形狀里哪些部分是可動的？一個柜子的門和柜體是兩個不同的部件，但mesh本身不會告訴你這一點。Part-Aware Semantic Reasoner的作用就是讓模型「看懂」部件結構。

它將表面上每個點的幾何特征投影到三個正交平面上（triplane），再通過Transformer 捕捉全局結構關系，最終為每個點生成一個包含部件歸屬信息的embedding。

訓練時通過triplet loss來拉開不同部件特征之間的距離，讓屬于同一部件的點聚在一起，不同部件的點彼此遠離。

下面的可視化很直觀地展示了這一步的效果：沒有這個模塊時，點特征對于部件難以有運動層級上的區分（第二列）；加上模塊和triplet監督后，不同部件的特征有了較好的區分（最后一列）。

第三步：推斷每個部件怎么動

知道了部件劃分，接下來要推斷運動。但這里有一個微妙的難點：描述一個部件的運動，需要同時回答兩類不同性質的問題——它「是什么」（語義：這是一扇門還是一個抽屜？）和它的運動「發生在哪里」（空間：旋轉中心在什么位置？）。

如果把這兩類信息混在同一個表征里端到端回歸，往往不穩定。 MonoArt的Dual-Query Motion Decoder用了一個解耦的設計：用content query編碼部件語義，用position query編碼空間運動錨點，兩者通過6層迭代 refinement 逐步對齊。

每一層中，query之間通過self-attention建模部件間關系，再通過 cross-attention 從點特征中提取證據。這種「一邊搞清楚是什么，一邊搞清楚在哪里」的并行迭代方式，讓運動推理更加穩定。

第四步：輸出物理上可用的運動學參數

最后，Kinematic Estimator 把前面的推理結果轉化為明確的、物理可解釋的輸出：每個部件的 mask、關節類型（固定、旋轉、平移等）、旋轉軸方向、旋轉中心位置、以及運動范圍上下限。

此外，它還預測部件之間的父子關系，構建出完整的 kinematic tree——也就是「哪個部件連在哪個部件上」。

一個值得注意的設計細節是：關節位置的預測采用了殘差形式，以上一步輸出的 position query（即部件質心）為錨點，只預測偏移量。消融實驗表明這比直接回歸絕對坐標更準確——這也呼應了整個框架「漸進式」的設計哲學：每一步都站在上一步的肩膀上。

這四步遞進的設計帶來一個直接的好處：整個articulation推理不需要任何外部先驗——不需要多視角、不需要資產庫、不需要VLM、不需要輔助視頻生成。那么它的效果到底怎么樣？

實驗效果

在PartNet-Mobility基準測試中，MonoArt在7類和46類兩種設置下均展現出領先性能。

相比SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等代表性方法，MonoArt在幾何重建質量、關節類型預測以及關鍵運動參數估計等多個核心指標上取得最優表現，同時兼顧了更高的推理效率。

相比Articulate-Anything的229.9s和PhysXAnything的256.8s, MonoArt只需要20.5s（其中 18.2 秒花在 TRELLIS做3D重建上，articulation reasoning本身只增加了約 2 秒的開銷）。

同時，在下游任務中，MonoArt生成的3D物體可以用在機械臂的仿真訓練，MonoArt 重建出來的物體可以直接導入 IsaacSim，讓 Franka 機械臂去抓取和開門，不需要任何額外的關節標注。

MonoArt可以擴展到具有可動部件的場景生成上。

局限性與思考

MonoArt給單目articulated 3D reconstruction提供了一條清晰的新路線：不是依賴越來越重的外部先驗去「補」運動，而是通過progressive structural reasoning，讓模型真正學會物體為什么這樣組成、又為什么可以這樣運動。

但是對于尺度極不均衡的小部件，均勻采樣可能導致特征不夠明顯；對于非常新的拓撲結構或罕見模式，模型的運動參數預測也可能下降。這些問題也為后續工作留下了空間。

參考資料：

[1] TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. CVPR 2025.

[2] URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images. RSS 2024.

[3] SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects. ICLR 2025.

[4] Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. ICLR 2025.

[5] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image. CVPR 2026.

[6] DreamArt: Generating Interactable Articulated Objects from a Single Image. SIGGRAPH Asia 2025.

[7] Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics. ICCV 2025.

[8] PARIS: Part-level Reconstruction and Motion Analysis for Articulated Objects. ICCV 2023.

[9] ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting. CVPR 2025.

[10] PhysX-3D: Physical-Grounded 3D Asset Generation. NeurIPS 2025.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.