![]()
在具身智能快速發展的今天,機器人已經不再滿足于「看見」剛體物體,而是開始真正走向復雜環境中的交互與操作。從機械臂開柜門,到服務機器人整理抽屜,再到工業場景中的工具操作,大量真實世界目標都屬于關節物體(Articulated Objects)。
對于具身智能系統而言,如何準確理解這些物體的空間姿態與運動狀態,一直是邁向真實場景交互的關鍵難題。
然而,相比傳統剛體,關節物體的位姿感知一直是一個更加困難的問題。這是因為,關節物體不僅存在多部件結構,還伴隨著復雜的運動約束關系。不同部件之間并不是彼此獨立,而是受到旋轉關節、滑動關節等運動學結構的強約束。一旦遮擋、快速運動或觀測殘缺出現,傳統方法就容易產生不符合物理規律的預測結果。
近年來,類級別關節物體位姿估計逐漸成為熱點方向,卻存在一個長期未被真正解決的問題:
如何同時兼顧「魯棒性」與「實時性」?
一類方法依賴復雜后處理與優化過程,雖然精度較高,但速度難以滿足實時需求;另一類方法強調端到端效率,卻往往忽略運動學約束,在復雜場景下容易出現姿態抖動、結構不一致甚至長期跟蹤漂移,即不穩定預測。
針對這一問題,來自中國科學技術大學、合肥工業大學等機構的研究團隊提出了CAPER++:一個兼具高魯棒性、高效率與實時追蹤能力的統一關節物體位姿感知框架。該工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。
CAPER++ 是一個端到端的一體化關節物感知方案:可自由切換到關節物體的靜態位姿估計和動態位姿追蹤。目前代碼已開源,歡迎學術界和工業界試用。
![]()
- 論文標題: Probing Effective and Efficient Category-Level Articulated Object Pose Perception
- 論文鏈接:https://ieeexplore.ieee.org/abstract/document/11480457
- 項目主頁:https://sites.google.com/view/caperplusplus
- 倉庫鏈接:https://github.com/zanly20/CAPERPlusPlus
引言
過去幾年,機器人領域正在經歷一個明顯變化:研究重點開始從「識別物體」逐漸轉向「理解物體如何運動」。對于真實世界中的機器人而言,僅僅知道一個物體「是什么」已經遠遠不夠。機器人還需要理解它「如何被打開」「如何被推動」「哪些部分可以運動」,以及不同部件之間存在怎樣的運動約束關系。
與傳統剛體不同,關節物體往往由多個部件構成,并通過旋轉關節或滑動關節連接。例如柜門會繞鉸鏈旋轉,抽屜會沿軌道滑動,機械臂不同連桿之間也存在復雜耦合關系。這意味著,機器人不僅需要感知物體整體姿態,還必須同時推理不同部件之間的相對運動狀態。
然而,這一任務遠比想象中困難。一方面,真實場景中普遍存在遮擋、快速運動以及殘缺觀測問題;另一方面,關節結構天然具有嚴格的運動學約束,而現有方法大多采用獨立的 part-wise 建模策略,將各個部件分別預測后再進行組合。這種方式雖然直觀,卻容易忽略部件之間的關聯關系,導致預測結果不穩定,甚至出現不符合物理規律的姿態結構。
更關鍵的是,許多高精度方法仍然依賴復雜優化或后處理過程。這類方法雖然能夠提升估計精度,但推理效率往往難以滿足真實機器人系統對于實時性的要求。
在 CAPER++ 這篇論文中,與傳統「零件獨立預測」的思路不同,CAPER++ 首次從「關節驅動」的視角重新建模關節物體。論文提出了一種 Joint-Centric(關節中心)層次化建模策略,將物體劃分為 Root Part 與 Constrained Part,并顯式引入運動學約束,使網絡能夠學習更加符合物理規律的位姿結構。
更進一步,CAPER++ 將位姿學習過程從傳統歐式空間拓展至SE (3) 流形切空間,通過 Lie Algebra 建模旋轉與位姿增量,有效緩解了傳統旋轉回歸中的奇異性、不穩定優化以及幾何約束破壞等問題。在保證高精度的同時,實現了無需后處理的端到端推理。
而在動態追蹤場景中,CAPER++ 進一步提出 Proxy Canonicalization 與動態關鍵幀機制,將連續視頻中的位姿追蹤轉化為相鄰幀之間的增量學習問題,大幅降低長期漂移與時序抖動,使系統在復雜動態環境中依然保持穩定預測。實驗結果顯示,CAPER++ 不僅在多個合成、半真實與真實世界數據集上取得了當前最優性能,還實現了 50 FPS 實時推理速度,真正兼顧了「精度」「魯棒性」與「實時性」三項長期難以統一的目標。
不再「零件各管各的」:
CAPER++ 如何重新理解關節物體?
現有大量關節物體位姿估計方法,本質上都遵循一種典型思路:先將物體拆分成多個部件(Part),再分別預測每個部件的位姿,最后進行組合恢復。
這種 Part-wise 建模方式雖然直觀,卻存在一個長期被忽略的問題:
現實世界中的關節物體,本來就不是「彼此獨立」的。
例如柜門的運動一定圍繞鉸鏈展開,抽屜只能沿滑軌方向移動,機械臂不同連桿之間也始終受到運動鏈約束。換句話說,部件之間天然存在強耦合關系。但傳統方法往往將這些部件視作相互獨立的剛體進行預測,導致模型雖然「看到了局部」,卻無法真正理解整體運動結構。
這也是為什么,在遮擋、殘缺觀測或者復雜運動場景下,傳統方法容易出現結構不一致、姿態漂移甚至違反物理規律的預測結果。
針對這一問題,CAPER++ 提出了 Joint-Centric(關節中心)層次化建模策略,從「關節」而非「部件」視角重新定義關節物體位姿感知。
論文將整個關節物體劃分為 Root Part 與 Constrained Part 兩類結構。其中,Root Part 作為運動參考主體,負責建立整體空間坐標;而其余可運動部件,則不再被獨立回歸完整 6D 位姿,而是通過關節參數與運動狀態進行約束恢復。
![]()
這一設計帶來了一個關鍵變化:
模型不再直接學習「每個部件在哪里」,而是開始學習「部件為什么會這樣運動」。
在具體實現上,CAPER++ 首先預測 Root Part 的位姿,并將輸入點云變換到規范化關節空間(Canonicalized Articulation Space)。隨后,網絡進一步估計關節軸、旋轉中心以及關節狀態等運動學參數,并結合運動約束恢復其余部件姿態。
相比傳統獨立預測方式,這種關節中心建模不僅顯著提升了結構一致性,還使模型在遮擋、快速運動以及復雜關節配置下保持更強魯棒性。
為什么傳統旋轉回歸總「不穩定」?
CAPER++ 把位姿學習搬進了 SE (3) 流形
在關節物體位姿估計中,真正困難的部分,往往不是「看見物體」,而是「如何正確描述運動」。尤其是旋轉。
長期以來,大量位姿估計方法都默認在歐式空間(Euclidean Space)中直接回歸旋轉參數,例如 Euler Angle、Quaternion 或 Rotation Matrix。這樣的方式雖然簡單,但始終存在一個核心問題:
旋轉本身,其實并不屬于普通歐式空間。
例如歐拉角存在萬向節鎖(Gimbal Lock)問題;四元數雖然連續,卻需要額外歸一化約束;而旋轉矩陣則天然受到正交約束限制。這意味著,網絡雖然是在「學習旋轉」,但優化過程卻始終運行在一個并不匹配的空間中。
這種幾何不一致,會直接導致訓練不穩定、優化困難以及姿態抖動等問題。尤其在關節物體場景下,由于多個部件之間存在復雜運動耦合,誤差還會進一步累積放大。
CAPER++ 則嘗試從更底層的幾何結構重新思考這一問題。
![]()
論文首次將關節物體位姿學習過程從傳統歐式空間拓展至 SE (3) 流形切空間(Tangent Space),并基于 Lie Algebra 對位姿增量進行建模。
這一設計的核心思想在于:
既然剛體運動天然屬于 SE (3) 群,那么位姿學習過程本身,也應該在符合其幾何結構的空間中完成。
具體而言,CAPER++ 不再直接回歸最終旋轉結果,而是學習位姿在 Lie Algebra 空間中的增量表達,再通過指數映射恢復真實 SE (3) 位姿。相比傳統直接回歸方式,這種方法能夠更自然地保持旋轉連續性與幾何一致性。
更重要的是,這種建模方式對于關節物體尤為關鍵。
因為不同部件之間的相對運動,本質上就是定義在 SE (3) 空間中的局部變換關系。通過在流形空間中進行統一優化,CAPER++ 能夠更加穩定地建模復雜關節運動鏈,并有效降低長期預測漂移。
實驗結果表明,該設計不僅顯著提升了位姿估計穩定性,同時也增強了模型在復雜動態場景下的魯棒性。
為什么位姿追蹤總會「越跟越飄」?
CAPER++ 把長期追蹤變成了局部增量學習
在真實機器人場景中,位姿估計往往并不是「一次性任務」。機器人需要持續觀察目標物體,并在連續視頻流中不斷更新其位姿狀態。無論是機械臂操作柜門,還是服務機器人拉開抽屜,系統都必須在動態過程中穩定追蹤關節物體的運動變化。
然而,長期位姿追蹤一直存在一個非常棘手的問題:
誤差會不斷累積。
傳統追蹤方法通常直接以前一幀預測結果作為下一幀輸入,并持續遞推更新。短時間內這種方式或許有效,但隨著時間推移,微小誤差會逐漸放大,最終導致明顯漂移、姿態抖動甚至跟蹤失敗。對于關節物體而言,這一問題會更加嚴重。
因為關節物體不僅包含整體運動,還伴隨著多個部件之間的局部運動變化。當遮擋、快速運動或觀測殘缺出現時,系統很容易逐漸偏離真實運動軌跡。
CAPER++ 則從另一個角度重新思考了位姿追蹤問題。
論文提出,與其讓模型直接學習「長期運動」,不如將連續追蹤拆解為大量「短距離局部增量」。
基于這一思想,CAPER++ 設計了 Proxy Canonicalization 與動態關鍵幀(Dynamic Keyframe)機制,將長時序位姿追蹤轉化為相鄰幀之間的局部增量學習問題。
![]()
具體而言,系統會動態選擇關鍵幀作為參考坐標,并將當前觀測規范化到局部代理空間(Proxy Canonical Space)中。在這一空間下,模型無需處理復雜的大范圍運動變化,而只需要學習相鄰幀之間更加穩定的小幅位姿增量。
這一設計帶來了一個重要優勢:
復雜的全局運動,被轉化成了更加容易學習的局部連續運動。
與此同時,動態關鍵幀機制還能周期性重置參考狀態,有效抑制長期誤差傳播,從根源上降低漂移問題。實驗結果表明,即使在快速運動、嚴重遮擋以及長時序動態場景下,CAPER++ 依然能夠保持穩定、連續且高精度的位姿追蹤能力。
實驗結果
對于關節物體位姿感知而言,「高精度」并不意味著真正可用。在真實機器人場景中,一個方法不僅需要預測準確,還必須能夠在遮擋、快速運動以及殘缺觀測下保持穩定,并滿足實時推理需求。這也是為什么,許多實驗室中的高精度方法,最終難以真正部署到真實系統中的核心原因。
CAPER++ 的實驗部分,恰恰重點驗證了這一點。論文分別在合成數據集、半真實場景以及真實世界數據集上進行了大規模評估,覆蓋多類別、多關節結構以及復雜動態場景。實驗結果表明,CAPER++ 在位姿估計與位姿追蹤任務中均取得了當前最優性能。
![]()
尤其值得關注的是,在復雜遮擋與運動干擾場景下,CAPER++ 依然能夠保持穩定預測。相比傳統 Part-wise 方法,其預測結果不僅精度更高,而且關節結構更加符合真實物理運動規律,顯著降低了部件漂移與結構錯位問題。
除了定量結果,論文中的可視化結果同樣非常直觀。
![]()
在多個動態序列中,CAPER++ 能夠持續穩定地跟蹤關節物體運動狀態,即使面對快速旋轉、局部遮擋以及殘缺點云輸入,依然能夠保持連續且平滑的位姿預測。而部分傳統方法則會逐漸出現關節偏移、結構斷裂甚至整體跟蹤失敗。
更重要的是,CAPER++ 并沒有為了精度犧牲實時性。得益于 Joint-Centric 層次化建模與增量式追蹤機制,CAPER++ 在無需復雜后處理與優化求解的情況下,實現了約 50 FPS 的實時推理速度。這意味著,該方法不僅能夠「看得準」,還能真正滿足機器人在線交互與動態操作需求。
某種意義上,CAPER++ 真正解決的,并不僅僅是「位姿估計」本身,而是讓關節物體位姿感知第一次同時具備了「精度」「魯棒性」與「實時性」三項長期難以兼顧的能力。
結語
長期以來,關節物體位姿感知始終面臨一個核心矛盾:高精度方法往往依賴復雜優化,難以滿足實時需求;而強調效率的方法,又容易在復雜動態場景下出現結構不穩定與長期漂移問題。
這也是為什么,盡管近年來相關研究不斷發展,但真正能夠部署到真實機器人系統中的方法仍然有限。
CAPER++ 的意義,恰恰在于嘗試進一步縮小「實驗室方法」與「真實場景需求」之間的距離。
論文不僅在多個數據集上實現了穩定、準確且實時的關節物體位姿感知能力,也進一步說明:對于復雜運動結構的理解,僅依賴局部幾何信息往往是不夠的,運動約束、結構一致性以及時序連續性,同樣是機器人感知系統中不可忽視的重要部分。
隨著具身智能、機器人操作以及動態場景交互持續發展,這類兼顧魯棒性、實時性與物理一致性的感知框架,未來有望在家庭機器人、工業自動化以及復雜人機交互等場景中發揮更實際的價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.