網易首頁 > 網易號 > 正文申請入駐

中國科大、合工大等提出CAPER++：關節物體位姿感知邁向又快又穩

2026-05-26 18:37:53　來源: 機器之心Pro

天津舉報

分享至

在具身智能快速發展的今天，機器人已經不再滿足于「看見」剛體物體，而是開始真正走向復雜環境中的交互與操作。從機械臂開柜門，到服務機器人整理抽屜，再到工業場景中的工具操作，大量真實世界目標都屬于關節物體（Articulated Objects）。

對于具身智能系統而言，如何準確理解這些物體的空間姿態與運動狀態，一直是邁向真實場景交互的關鍵難題。

然而，相比傳統剛體，關節物體的位姿感知一直是一個更加困難的問題。這是因為，關節物體不僅存在多部件結構，還伴隨著復雜的運動約束關系。不同部件之間并不是彼此獨立，而是受到旋轉關節、滑動關節等運動學結構的強約束。一旦遮擋、快速運動或觀測殘缺出現，傳統方法就容易產生不符合物理規律的預測結果。

近年來，類級別關節物體位姿估計逐漸成為熱點方向，卻存在一個長期未被真正解決的問題：

如何同時兼顧「魯棒性」與「實時性」？

一類方法依賴復雜后處理與優化過程，雖然精度較高，但速度難以滿足實時需求；另一類方法強調端到端效率，卻往往忽略運動學約束，在復雜場景下容易出現姿態抖動、結構不一致甚至長期跟蹤漂移，即不穩定預測。

針對這一問題，來自中國科學技術大學、合肥工業大學等機構的研究團隊提出了CAPER++：一個兼具高魯棒性、高效率與實時追蹤能力的統一關節物體位姿感知框架。該工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》（TPAMI）接收。

CAPER++ 是一個端到端的一體化關節物感知方案：可自由切換到關節物體的靜態位姿估計和動態位姿追蹤。目前代碼已開源，歡迎學術界和工業界試用。

論文標題： Probing Effective and Efficient Category-Level Articulated Object Pose Perception
論文鏈接：https://ieeexplore.ieee.org/abstract/document/11480457
項目主頁：https://sites.google.com/view/caperplusplus
倉庫鏈接：https://github.com/zanly20/CAPERPlusPlus

引言

過去幾年，機器人領域正在經歷一個明顯變化：研究重點開始從「識別物體」逐漸轉向「理解物體如何運動」。對于真實世界中的機器人而言，僅僅知道一個物體「是什么」已經遠遠不夠。機器人還需要理解它「如何被打開」「如何被推動」「哪些部分可以運動」，以及不同部件之間存在怎樣的運動約束關系。

與傳統剛體不同，關節物體往往由多個部件構成，并通過旋轉關節或滑動關節連接。例如柜門會繞鉸鏈旋轉，抽屜會沿軌道滑動，機械臂不同連桿之間也存在復雜耦合關系。這意味著，機器人不僅需要感知物體整體姿態，還必須同時推理不同部件之間的相對運動狀態。

然而，這一任務遠比想象中困難。一方面，真實場景中普遍存在遮擋、快速運動以及殘缺觀測問題；另一方面，關節結構天然具有嚴格的運動學約束，而現有方法大多采用獨立的 part-wise 建模策略，將各個部件分別預測后再進行組合。這種方式雖然直觀，卻容易忽略部件之間的關聯關系，導致預測結果不穩定，甚至出現不符合物理規律的姿態結構。

更關鍵的是，許多高精度方法仍然依賴復雜優化或后處理過程。這類方法雖然能夠提升估計精度，但推理效率往往難以滿足真實機器人系統對于實時性的要求。

在 CAPER++ 這篇論文中，與傳統「零件獨立預測」的思路不同，CAPER++ 首次從「關節驅動」的視角重新建模關節物體。論文提出了一種 Joint-Centric（關節中心）層次化建模策略，將物體劃分為 Root Part 與 Constrained Part，并顯式引入運動學約束，使網絡能夠學習更加符合物理規律的位姿結構。

更進一步，CAPER++ 將位姿學習過程從傳統歐式空間拓展至SE (3) 流形切空間，通過 Lie Algebra 建模旋轉與位姿增量，有效緩解了傳統旋轉回歸中的奇異性、不穩定優化以及幾何約束破壞等問題。在保證高精度的同時，實現了無需后處理的端到端推理。

而在動態追蹤場景中，CAPER++ 進一步提出 Proxy Canonicalization 與動態關鍵幀機制，將連續視頻中的位姿追蹤轉化為相鄰幀之間的增量學習問題，大幅降低長期漂移與時序抖動，使系統在復雜動態環境中依然保持穩定預測。實驗結果顯示，CAPER++ 不僅在多個合成、半真實與真實世界數據集上取得了當前最優性能，還實現了 50 FPS 實時推理速度，真正兼顧了「精度」「魯棒性」與「實時性」三項長期難以統一的目標。

不再「零件各管各的」：

CAPER++ 如何重新理解關節物體？

現有大量關節物體位姿估計方法，本質上都遵循一種典型思路：先將物體拆分成多個部件（Part），再分別預測每個部件的位姿，最后進行組合恢復。

這種 Part-wise 建模方式雖然直觀，卻存在一個長期被忽略的問題：

現實世界中的關節物體，本來就不是「彼此獨立」的。

例如柜門的運動一定圍繞鉸鏈展開，抽屜只能沿滑軌方向移動，機械臂不同連桿之間也始終受到運動鏈約束。換句話說，部件之間天然存在強耦合關系。但傳統方法往往將這些部件視作相互獨立的剛體進行預測，導致模型雖然「看到了局部」，卻無法真正理解整體運動結構。

這也是為什么，在遮擋、殘缺觀測或者復雜運動場景下，傳統方法容易出現結構不一致、姿態漂移甚至違反物理規律的預測結果。

針對這一問題，CAPER++ 提出了 Joint-Centric（關節中心）層次化建模策略，從「關節」而非「部件」視角重新定義關節物體位姿感知。

論文將整個關節物體劃分為 Root Part 與 Constrained Part 兩類結構。其中，Root Part 作為運動參考主體，負責建立整體空間坐標；而其余可運動部件，則不再被獨立回歸完整 6D 位姿，而是通過關節參數與運動狀態進行約束恢復。

這一設計帶來了一個關鍵變化：

模型不再直接學習「每個部件在哪里」，而是開始學習「部件為什么會這樣運動」。

在具體實現上，CAPER++ 首先預測 Root Part 的位姿，并將輸入點云變換到規范化關節空間（Canonicalized Articulation Space）。隨后，網絡進一步估計關節軸、旋轉中心以及關節狀態等運動學參數，并結合運動約束恢復其余部件姿態。

相比傳統獨立預測方式，這種關節中心建模不僅顯著提升了結構一致性，還使模型在遮擋、快速運動以及復雜關節配置下保持更強魯棒性。

為什么傳統旋轉回歸總「不穩定」？

CAPER++ 把位姿學習搬進了 SE (3) 流形

在關節物體位姿估計中，真正困難的部分，往往不是「看見物體」，而是「如何正確描述運動」。尤其是旋轉。

長期以來，大量位姿估計方法都默認在歐式空間（Euclidean Space）中直接回歸旋轉參數，例如 Euler Angle、Quaternion 或 Rotation Matrix。這樣的方式雖然簡單，但始終存在一個核心問題：

旋轉本身，其實并不屬于普通歐式空間。

例如歐拉角存在萬向節鎖（Gimbal Lock）問題；四元數雖然連續，卻需要額外歸一化約束；而旋轉矩陣則天然受到正交約束限制。這意味著，網絡雖然是在「學習旋轉」，但優化過程卻始終運行在一個并不匹配的空間中。

這種幾何不一致，會直接導致訓練不穩定、優化困難以及姿態抖動等問題。尤其在關節物體場景下，由于多個部件之間存在復雜運動耦合，誤差還會進一步累積放大。

CAPER++ 則嘗試從更底層的幾何結構重新思考這一問題。

論文首次將關節物體位姿學習過程從傳統歐式空間拓展至 SE (3) 流形切空間（Tangent Space），并基于 Lie Algebra 對位姿增量進行建模。

這一設計的核心思想在于：

既然剛體運動天然屬于 SE (3) 群，那么位姿學習過程本身，也應該在符合其幾何結構的空間中完成。

具體而言，CAPER++ 不再直接回歸最終旋轉結果，而是學習位姿在 Lie Algebra 空間中的增量表達，再通過指數映射恢復真實 SE (3) 位姿。相比傳統直接回歸方式，這種方法能夠更自然地保持旋轉連續性與幾何一致性。

更重要的是，這種建模方式對于關節物體尤為關鍵。

因為不同部件之間的相對運動，本質上就是定義在 SE (3) 空間中的局部變換關系。通過在流形空間中進行統一優化，CAPER++ 能夠更加穩定地建模復雜關節運動鏈，并有效降低長期預測漂移。

實驗結果表明，該設計不僅顯著提升了位姿估計穩定性，同時也增強了模型在復雜動態場景下的魯棒性。

為什么位姿追蹤總會「越跟越飄」？

CAPER++ 把長期追蹤變成了局部增量學習

在真實機器人場景中，位姿估計往往并不是「一次性任務」。機器人需要持續觀察目標物體，并在連續視頻流中不斷更新其位姿狀態。無論是機械臂操作柜門，還是服務機器人拉開抽屜，系統都必須在動態過程中穩定追蹤關節物體的運動變化。

然而，長期位姿追蹤一直存在一個非常棘手的問題：

誤差會不斷累積。

傳統追蹤方法通常直接以前一幀預測結果作為下一幀輸入，并持續遞推更新。短時間內這種方式或許有效，但隨著時間推移，微小誤差會逐漸放大，最終導致明顯漂移、姿態抖動甚至跟蹤失敗。對于關節物體而言，這一問題會更加嚴重。

因為關節物體不僅包含整體運動，還伴隨著多個部件之間的局部運動變化。當遮擋、快速運動或觀測殘缺出現時，系統很容易逐漸偏離真實運動軌跡。

CAPER++ 則從另一個角度重新思考了位姿追蹤問題。

論文提出，與其讓模型直接學習「長期運動」，不如將連續追蹤拆解為大量「短距離局部增量」。

基于這一思想，CAPER++ 設計了 Proxy Canonicalization 與動態關鍵幀（Dynamic Keyframe）機制，將長時序位姿追蹤轉化為相鄰幀之間的局部增量學習問題。

具體而言，系統會動態選擇關鍵幀作為參考坐標，并將當前觀測規范化到局部代理空間（Proxy Canonical Space）中。在這一空間下，模型無需處理復雜的大范圍運動變化，而只需要學習相鄰幀之間更加穩定的小幅位姿增量。

這一設計帶來了一個重要優勢：

復雜的全局運動，被轉化成了更加容易學習的局部連續運動。

與此同時，動態關鍵幀機制還能周期性重置參考狀態，有效抑制長期誤差傳播，從根源上降低漂移問題。實驗結果表明，即使在快速運動、嚴重遮擋以及長時序動態場景下，CAPER++ 依然能夠保持穩定、連續且高精度的位姿追蹤能力。

實驗結果

對于關節物體位姿感知而言，「高精度」并不意味著真正可用。在真實機器人場景中，一個方法不僅需要預測準確，還必須能夠在遮擋、快速運動以及殘缺觀測下保持穩定，并滿足實時推理需求。這也是為什么，許多實驗室中的高精度方法，最終難以真正部署到真實系統中的核心原因。

CAPER++ 的實驗部分，恰恰重點驗證了這一點。論文分別在合成數據集、半真實場景以及真實世界數據集上進行了大規模評估，覆蓋多類別、多關節結構以及復雜動態場景。實驗結果表明，CAPER++ 在位姿估計與位姿追蹤任務中均取得了當前最優性能。

尤其值得關注的是，在復雜遮擋與運動干擾場景下，CAPER++ 依然能夠保持穩定預測。相比傳統 Part-wise 方法，其預測結果不僅精度更高，而且關節結構更加符合真實物理運動規律，顯著降低了部件漂移與結構錯位問題。

除了定量結果，論文中的可視化結果同樣非常直觀。

在多個動態序列中，CAPER++ 能夠持續穩定地跟蹤關節物體運動狀態，即使面對快速旋轉、局部遮擋以及殘缺點云輸入，依然能夠保持連續且平滑的位姿預測。而部分傳統方法則會逐漸出現關節偏移、結構斷裂甚至整體跟蹤失敗。

更重要的是，CAPER++ 并沒有為了精度犧牲實時性。得益于 Joint-Centric 層次化建模與增量式追蹤機制，CAPER++ 在無需復雜后處理與優化求解的情況下，實現了約 50 FPS 的實時推理速度。這意味著，該方法不僅能夠「看得準」，還能真正滿足機器人在線交互與動態操作需求。

某種意義上，CAPER++ 真正解決的，并不僅僅是「位姿估計」本身，而是讓關節物體位姿感知第一次同時具備了「精度」「魯棒性」與「實時性」三項長期難以兼顧的能力。

結語

長期以來，關節物體位姿感知始終面臨一個核心矛盾：高精度方法往往依賴復雜優化，難以滿足實時需求；而強調效率的方法，又容易在復雜動態場景下出現結構不穩定與長期漂移問題。

這也是為什么，盡管近年來相關研究不斷發展，但真正能夠部署到真實機器人系統中的方法仍然有限。

CAPER++ 的意義，恰恰在于嘗試進一步縮小「實驗室方法」與「真實場景需求」之間的距離。

論文不僅在多個數據集上實現了穩定、準確且實時的關節物體位姿感知能力，也進一步說明：對于復雜運動結構的理解，僅依賴局部幾何信息往往是不夠的，運動約束、結構一致性以及時序連續性，同樣是機器人感知系統中不可忽視的重要部分。

隨著具身智能、機器人操作以及動態場景交互持續發展，這類兼顧魯棒性、實時性與物理一致性的感知框架，未來有望在家庭機器人、工業自動化以及復雜人機交互等場景中發揮更實際的價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.