![]()
在具身智能快速發(fā)展的今天,機(jī)器人已經(jīng)不再滿足于「看見(jiàn)」剛體物體,而是開(kāi)始真正走向復(fù)雜環(huán)境中的交互與操作。從機(jī)械臂開(kāi)柜門(mén),到服務(wù)機(jī)器人整理抽屜,再到工業(yè)場(chǎng)景中的工具操作,大量真實(shí)世界目標(biāo)都屬于關(guān)節(jié)物體(Articulated Objects)。
對(duì)于具身智能系統(tǒng)而言,如何準(zhǔn)確理解這些物體的空間姿態(tài)與運(yùn)動(dòng)狀態(tài),一直是邁向真實(shí)場(chǎng)景交互的關(guān)鍵難題。
然而,相比傳統(tǒng)剛體,關(guān)節(jié)物體的位姿感知一直是一個(gè)更加困難的問(wèn)題。這是因?yàn)椋P(guān)節(jié)物體不僅存在多部件結(jié)構(gòu),還伴隨著復(fù)雜的運(yùn)動(dòng)約束關(guān)系。不同部件之間并不是彼此獨(dú)立,而是受到旋轉(zhuǎn)關(guān)節(jié)、滑動(dòng)關(guān)節(jié)等運(yùn)動(dòng)學(xué)結(jié)構(gòu)的強(qiáng)約束。一旦遮擋、快速運(yùn)動(dòng)或觀測(cè)殘缺出現(xiàn),傳統(tǒng)方法就容易產(chǎn)生不符合物理規(guī)律的預(yù)測(cè)結(jié)果。
近年來(lái),類級(jí)別關(guān)節(jié)物體位姿估計(jì)逐漸成為熱點(diǎn)方向,卻存在一個(gè)長(zhǎng)期未被真正解決的問(wèn)題:
如何同時(shí)兼顧「魯棒性」與「實(shí)時(shí)性」?
一類方法依賴復(fù)雜后處理與優(yōu)化過(guò)程,雖然精度較高,但速度難以滿足實(shí)時(shí)需求;另一類方法強(qiáng)調(diào)端到端效率,卻往往忽略運(yùn)動(dòng)學(xué)約束,在復(fù)雜場(chǎng)景下容易出現(xiàn)姿態(tài)抖動(dòng)、結(jié)構(gòu)不一致甚至長(zhǎng)期跟蹤漂移,即不穩(wěn)定預(yù)測(cè)。
針對(duì)這一問(wèn)題,來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、合肥工業(yè)大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了CAPER++:一個(gè)兼具高魯棒性、高效率與實(shí)時(shí)追蹤能力的統(tǒng)一關(guān)節(jié)物體位姿感知框架。該工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。
CAPER++ 是一個(gè)端到端的一體化關(guān)節(jié)物感知方案:可自由切換到關(guān)節(jié)物體的靜態(tài)位姿估計(jì)和動(dòng)態(tài)位姿追蹤。目前代碼已開(kāi)源,歡迎學(xué)術(shù)界和工業(yè)界試用。
![]()
- 論文標(biāo)題: Probing Effective and Efficient Category-Level Articulated Object Pose Perception
- 論文鏈接:https://ieeexplore.ieee.org/abstract/document/11480457
- 項(xiàng)目主頁(yè):https://sites.google.com/view/caperplusplus
- 倉(cāng)庫(kù)鏈接:https://github.com/zanly20/CAPERPlusPlus
引言
過(guò)去幾年,機(jī)器人領(lǐng)域正在經(jīng)歷一個(gè)明顯變化:研究重點(diǎn)開(kāi)始從「識(shí)別物體」逐漸轉(zhuǎn)向「理解物體如何運(yùn)動(dòng)」。對(duì)于真實(shí)世界中的機(jī)器人而言,僅僅知道一個(gè)物體「是什么」已經(jīng)遠(yuǎn)遠(yuǎn)不夠。機(jī)器人還需要理解它「如何被打開(kāi)」「如何被推動(dòng)」「哪些部分可以運(yùn)動(dòng)」,以及不同部件之間存在怎樣的運(yùn)動(dòng)約束關(guān)系。
與傳統(tǒng)剛體不同,關(guān)節(jié)物體往往由多個(gè)部件構(gòu)成,并通過(guò)旋轉(zhuǎn)關(guān)節(jié)或滑動(dòng)關(guān)節(jié)連接。例如柜門(mén)會(huì)繞鉸鏈旋轉(zhuǎn),抽屜會(huì)沿軌道滑動(dòng),機(jī)械臂不同連桿之間也存在復(fù)雜耦合關(guān)系。這意味著,機(jī)器人不僅需要感知物體整體姿態(tài),還必須同時(shí)推理不同部件之間的相對(duì)運(yùn)動(dòng)狀態(tài)。
然而,這一任務(wù)遠(yuǎn)比想象中困難。一方面,真實(shí)場(chǎng)景中普遍存在遮擋、快速運(yùn)動(dòng)以及殘缺觀測(cè)問(wèn)題;另一方面,關(guān)節(jié)結(jié)構(gòu)天然具有嚴(yán)格的運(yùn)動(dòng)學(xué)約束,而現(xiàn)有方法大多采用獨(dú)立的 part-wise 建模策略,將各個(gè)部件分別預(yù)測(cè)后再進(jìn)行組合。這種方式雖然直觀,卻容易忽略部件之間的關(guān)聯(lián)關(guān)系,導(dǎo)致預(yù)測(cè)結(jié)果不穩(wěn)定,甚至出現(xiàn)不符合物理規(guī)律的姿態(tài)結(jié)構(gòu)。
更關(guān)鍵的是,許多高精度方法仍然依賴復(fù)雜優(yōu)化或后處理過(guò)程。這類方法雖然能夠提升估計(jì)精度,但推理效率往往難以滿足真實(shí)機(jī)器人系統(tǒng)對(duì)于實(shí)時(shí)性的要求。
在 CAPER++ 這篇論文中,與傳統(tǒng)「零件獨(dú)立預(yù)測(cè)」的思路不同,CAPER++ 首次從「關(guān)節(jié)驅(qū)動(dòng)」的視角重新建模關(guān)節(jié)物體。論文提出了一種 Joint-Centric(關(guān)節(jié)中心)層次化建模策略,將物體劃分為 Root Part 與 Constrained Part,并顯式引入運(yùn)動(dòng)學(xué)約束,使網(wǎng)絡(luò)能夠?qū)W習(xí)更加符合物理規(guī)律的位姿結(jié)構(gòu)。
更進(jìn)一步,CAPER++ 將位姿學(xué)習(xí)過(guò)程從傳統(tǒng)歐式空間拓展至SE (3) 流形切空間,通過(guò) Lie Algebra 建模旋轉(zhuǎn)與位姿增量,有效緩解了傳統(tǒng)旋轉(zhuǎn)回歸中的奇異性、不穩(wěn)定優(yōu)化以及幾何約束破壞等問(wèn)題。在保證高精度的同時(shí),實(shí)現(xiàn)了無(wú)需后處理的端到端推理。
而在動(dòng)態(tài)追蹤場(chǎng)景中,CAPER++ 進(jìn)一步提出 Proxy Canonicalization 與動(dòng)態(tài)關(guān)鍵幀機(jī)制,將連續(xù)視頻中的位姿追蹤轉(zhuǎn)化為相鄰幀之間的增量學(xué)習(xí)問(wèn)題,大幅降低長(zhǎng)期漂移與時(shí)序抖動(dòng),使系統(tǒng)在復(fù)雜動(dòng)態(tài)環(huán)境中依然保持穩(wěn)定預(yù)測(cè)。實(shí)驗(yàn)結(jié)果顯示,CAPER++ 不僅在多個(gè)合成、半真實(shí)與真實(shí)世界數(shù)據(jù)集上取得了當(dāng)前最優(yōu)性能,還實(shí)現(xiàn)了 50 FPS 實(shí)時(shí)推理速度,真正兼顧了「精度」「魯棒性」與「實(shí)時(shí)性」三項(xiàng)長(zhǎng)期難以統(tǒng)一的目標(biāo)。
不再「零件各管各的」:
CAPER++ 如何重新理解關(guān)節(jié)物體?
現(xiàn)有大量關(guān)節(jié)物體位姿估計(jì)方法,本質(zhì)上都遵循一種典型思路:先將物體拆分成多個(gè)部件(Part),再分別預(yù)測(cè)每個(gè)部件的位姿,最后進(jìn)行組合恢復(fù)。
這種 Part-wise 建模方式雖然直觀,卻存在一個(gè)長(zhǎng)期被忽略的問(wèn)題:
現(xiàn)實(shí)世界中的關(guān)節(jié)物體,本來(lái)就不是「彼此獨(dú)立」的。
例如柜門(mén)的運(yùn)動(dòng)一定圍繞鉸鏈展開(kāi),抽屜只能沿滑軌方向移動(dòng),機(jī)械臂不同連桿之間也始終受到運(yùn)動(dòng)鏈約束。換句話說(shuō),部件之間天然存在強(qiáng)耦合關(guān)系。但傳統(tǒng)方法往往將這些部件視作相互獨(dú)立的剛體進(jìn)行預(yù)測(cè),導(dǎo)致模型雖然「看到了局部」,卻無(wú)法真正理解整體運(yùn)動(dòng)結(jié)構(gòu)。
這也是為什么,在遮擋、殘缺觀測(cè)或者復(fù)雜運(yùn)動(dòng)場(chǎng)景下,傳統(tǒng)方法容易出現(xiàn)結(jié)構(gòu)不一致、姿態(tài)漂移甚至違反物理規(guī)律的預(yù)測(cè)結(jié)果。
針對(duì)這一問(wèn)題,CAPER++ 提出了 Joint-Centric(關(guān)節(jié)中心)層次化建模策略,從「關(guān)節(jié)」而非「部件」視角重新定義關(guān)節(jié)物體位姿感知。
論文將整個(gè)關(guān)節(jié)物體劃分為 Root Part 與 Constrained Part 兩類結(jié)構(gòu)。其中,Root Part 作為運(yùn)動(dòng)參考主體,負(fù)責(zé)建立整體空間坐標(biāo);而其余可運(yùn)動(dòng)部件,則不再被獨(dú)立回歸完整 6D 位姿,而是通過(guò)關(guān)節(jié)參數(shù)與運(yùn)動(dòng)狀態(tài)進(jìn)行約束恢復(fù)。
![]()
這一設(shè)計(jì)帶來(lái)了一個(gè)關(guān)鍵變化:
模型不再直接學(xué)習(xí)「每個(gè)部件在哪里」,而是開(kāi)始學(xué)習(xí)「部件為什么會(huì)這樣運(yùn)動(dòng)」。
在具體實(shí)現(xiàn)上,CAPER++ 首先預(yù)測(cè) Root Part 的位姿,并將輸入點(diǎn)云變換到規(guī)范化關(guān)節(jié)空間(Canonicalized Articulation Space)。隨后,網(wǎng)絡(luò)進(jìn)一步估計(jì)關(guān)節(jié)軸、旋轉(zhuǎn)中心以及關(guān)節(jié)狀態(tài)等運(yùn)動(dòng)學(xué)參數(shù),并結(jié)合運(yùn)動(dòng)約束恢復(fù)其余部件姿態(tài)。
相比傳統(tǒng)獨(dú)立預(yù)測(cè)方式,這種關(guān)節(jié)中心建模不僅顯著提升了結(jié)構(gòu)一致性,還使模型在遮擋、快速運(yùn)動(dòng)以及復(fù)雜關(guān)節(jié)配置下保持更強(qiáng)魯棒性。
為什么傳統(tǒng)旋轉(zhuǎn)回歸總「不穩(wěn)定」?
CAPER++ 把位姿學(xué)習(xí)搬進(jìn)了 SE (3) 流形
在關(guān)節(jié)物體位姿估計(jì)中,真正困難的部分,往往不是「看見(jiàn)物體」,而是「如何正確描述運(yùn)動(dòng)」。尤其是旋轉(zhuǎn)。
長(zhǎng)期以來(lái),大量位姿估計(jì)方法都默認(rèn)在歐式空間(Euclidean Space)中直接回歸旋轉(zhuǎn)參數(shù),例如 Euler Angle、Quaternion 或 Rotation Matrix。這樣的方式雖然簡(jiǎn)單,但始終存在一個(gè)核心問(wèn)題:
旋轉(zhuǎn)本身,其實(shí)并不屬于普通歐式空間。
例如歐拉角存在萬(wàn)向節(jié)鎖(Gimbal Lock)問(wèn)題;四元數(shù)雖然連續(xù),卻需要額外歸一化約束;而旋轉(zhuǎn)矩陣則天然受到正交約束限制。這意味著,網(wǎng)絡(luò)雖然是在「學(xué)習(xí)旋轉(zhuǎn)」,但優(yōu)化過(guò)程卻始終運(yùn)行在一個(gè)并不匹配的空間中。
這種幾何不一致,會(huì)直接導(dǎo)致訓(xùn)練不穩(wěn)定、優(yōu)化困難以及姿態(tài)抖動(dòng)等問(wèn)題。尤其在關(guān)節(jié)物體場(chǎng)景下,由于多個(gè)部件之間存在復(fù)雜運(yùn)動(dòng)耦合,誤差還會(huì)進(jìn)一步累積放大。
CAPER++ 則嘗試從更底層的幾何結(jié)構(gòu)重新思考這一問(wèn)題。
![]()
論文首次將關(guān)節(jié)物體位姿學(xué)習(xí)過(guò)程從傳統(tǒng)歐式空間拓展至 SE (3) 流形切空間(Tangent Space),并基于 Lie Algebra 對(duì)位姿增量進(jìn)行建模。
這一設(shè)計(jì)的核心思想在于:
既然剛體運(yùn)動(dòng)天然屬于 SE (3) 群,那么位姿學(xué)習(xí)過(guò)程本身,也應(yīng)該在符合其幾何結(jié)構(gòu)的空間中完成。
具體而言,CAPER++ 不再直接回歸最終旋轉(zhuǎn)結(jié)果,而是學(xué)習(xí)位姿在 Lie Algebra 空間中的增量表達(dá),再通過(guò)指數(shù)映射恢復(fù)真實(shí) SE (3) 位姿。相比傳統(tǒng)直接回歸方式,這種方法能夠更自然地保持旋轉(zhuǎn)連續(xù)性與幾何一致性。
更重要的是,這種建模方式對(duì)于關(guān)節(jié)物體尤為關(guān)鍵。
因?yàn)椴煌考g的相對(duì)運(yùn)動(dòng),本質(zhì)上就是定義在 SE (3) 空間中的局部變換關(guān)系。通過(guò)在流形空間中進(jìn)行統(tǒng)一優(yōu)化,CAPER++ 能夠更加穩(wěn)定地建模復(fù)雜關(guān)節(jié)運(yùn)動(dòng)鏈,并有效降低長(zhǎng)期預(yù)測(cè)漂移。
實(shí)驗(yàn)結(jié)果表明,該設(shè)計(jì)不僅顯著提升了位姿估計(jì)穩(wěn)定性,同時(shí)也增強(qiáng)了模型在復(fù)雜動(dòng)態(tài)場(chǎng)景下的魯棒性。
為什么位姿追蹤總會(huì)「越跟越飄」?
CAPER++ 把長(zhǎng)期追蹤變成了局部增量學(xué)習(xí)
在真實(shí)機(jī)器人場(chǎng)景中,位姿估計(jì)往往并不是「一次性任務(wù)」。機(jī)器人需要持續(xù)觀察目標(biāo)物體,并在連續(xù)視頻流中不斷更新其位姿狀態(tài)。無(wú)論是機(jī)械臂操作柜門(mén),還是服務(wù)機(jī)器人拉開(kāi)抽屜,系統(tǒng)都必須在動(dòng)態(tài)過(guò)程中穩(wěn)定追蹤關(guān)節(jié)物體的運(yùn)動(dòng)變化。
然而,長(zhǎng)期位姿追蹤一直存在一個(gè)非常棘手的問(wèn)題:
誤差會(huì)不斷累積。
傳統(tǒng)追蹤方法通常直接以前一幀預(yù)測(cè)結(jié)果作為下一幀輸入,并持續(xù)遞推更新。短時(shí)間內(nèi)這種方式或許有效,但隨著時(shí)間推移,微小誤差會(huì)逐漸放大,最終導(dǎo)致明顯漂移、姿態(tài)抖動(dòng)甚至跟蹤失敗。對(duì)于關(guān)節(jié)物體而言,這一問(wèn)題會(huì)更加嚴(yán)重。
因?yàn)殛P(guān)節(jié)物體不僅包含整體運(yùn)動(dòng),還伴隨著多個(gè)部件之間的局部運(yùn)動(dòng)變化。當(dāng)遮擋、快速運(yùn)動(dòng)或觀測(cè)殘缺出現(xiàn)時(shí),系統(tǒng)很容易逐漸偏離真實(shí)運(yùn)動(dòng)軌跡。
CAPER++ 則從另一個(gè)角度重新思考了位姿追蹤問(wèn)題。
論文提出,與其讓模型直接學(xué)習(xí)「長(zhǎng)期運(yùn)動(dòng)」,不如將連續(xù)追蹤拆解為大量「短距離局部增量」。
基于這一思想,CAPER++ 設(shè)計(jì)了 Proxy Canonicalization 與動(dòng)態(tài)關(guān)鍵幀(Dynamic Keyframe)機(jī)制,將長(zhǎng)時(shí)序位姿追蹤轉(zhuǎn)化為相鄰幀之間的局部增量學(xué)習(xí)問(wèn)題。
![]()
具體而言,系統(tǒng)會(huì)動(dòng)態(tài)選擇關(guān)鍵幀作為參考坐標(biāo),并將當(dāng)前觀測(cè)規(guī)范化到局部代理空間(Proxy Canonical Space)中。在這一空間下,模型無(wú)需處理復(fù)雜的大范圍運(yùn)動(dòng)變化,而只需要學(xué)習(xí)相鄰幀之間更加穩(wěn)定的小幅位姿增量。
這一設(shè)計(jì)帶來(lái)了一個(gè)重要優(yōu)勢(shì):
復(fù)雜的全局運(yùn)動(dòng),被轉(zhuǎn)化成了更加容易學(xué)習(xí)的局部連續(xù)運(yùn)動(dòng)。
與此同時(shí),動(dòng)態(tài)關(guān)鍵幀機(jī)制還能周期性重置參考狀態(tài),有效抑制長(zhǎng)期誤差傳播,從根源上降低漂移問(wèn)題。實(shí)驗(yàn)結(jié)果表明,即使在快速運(yùn)動(dòng)、嚴(yán)重遮擋以及長(zhǎng)時(shí)序動(dòng)態(tài)場(chǎng)景下,CAPER++ 依然能夠保持穩(wěn)定、連續(xù)且高精度的位姿追蹤能力。
實(shí)驗(yàn)結(jié)果
對(duì)于關(guān)節(jié)物體位姿感知而言,「高精度」并不意味著真正可用。在真實(shí)機(jī)器人場(chǎng)景中,一個(gè)方法不僅需要預(yù)測(cè)準(zhǔn)確,還必須能夠在遮擋、快速運(yùn)動(dòng)以及殘缺觀測(cè)下保持穩(wěn)定,并滿足實(shí)時(shí)推理需求。這也是為什么,許多實(shí)驗(yàn)室中的高精度方法,最終難以真正部署到真實(shí)系統(tǒng)中的核心原因。
CAPER++ 的實(shí)驗(yàn)部分,恰恰重點(diǎn)驗(yàn)證了這一點(diǎn)。論文分別在合成數(shù)據(jù)集、半真實(shí)場(chǎng)景以及真實(shí)世界數(shù)據(jù)集上進(jìn)行了大規(guī)模評(píng)估,覆蓋多類別、多關(guān)節(jié)結(jié)構(gòu)以及復(fù)雜動(dòng)態(tài)場(chǎng)景。實(shí)驗(yàn)結(jié)果表明,CAPER++ 在位姿估計(jì)與位姿追蹤任務(wù)中均取得了當(dāng)前最優(yōu)性能。
![]()
尤其值得關(guān)注的是,在復(fù)雜遮擋與運(yùn)動(dòng)干擾場(chǎng)景下,CAPER++ 依然能夠保持穩(wěn)定預(yù)測(cè)。相比傳統(tǒng) Part-wise 方法,其預(yù)測(cè)結(jié)果不僅精度更高,而且關(guān)節(jié)結(jié)構(gòu)更加符合真實(shí)物理運(yùn)動(dòng)規(guī)律,顯著降低了部件漂移與結(jié)構(gòu)錯(cuò)位問(wèn)題。
除了定量結(jié)果,論文中的可視化結(jié)果同樣非常直觀。
![]()
在多個(gè)動(dòng)態(tài)序列中,CAPER++ 能夠持續(xù)穩(wěn)定地跟蹤關(guān)節(jié)物體運(yùn)動(dòng)狀態(tài),即使面對(duì)快速旋轉(zhuǎn)、局部遮擋以及殘缺點(diǎn)云輸入,依然能夠保持連續(xù)且平滑的位姿預(yù)測(cè)。而部分傳統(tǒng)方法則會(huì)逐漸出現(xiàn)關(guān)節(jié)偏移、結(jié)構(gòu)斷裂甚至整體跟蹤失敗。
更重要的是,CAPER++ 并沒(méi)有為了精度犧牲實(shí)時(shí)性。得益于 Joint-Centric 層次化建模與增量式追蹤機(jī)制,CAPER++ 在無(wú)需復(fù)雜后處理與優(yōu)化求解的情況下,實(shí)現(xiàn)了約 50 FPS 的實(shí)時(shí)推理速度。這意味著,該方法不僅能夠「看得準(zhǔn)」,還能真正滿足機(jī)器人在線交互與動(dòng)態(tài)操作需求。
某種意義上,CAPER++ 真正解決的,并不僅僅是「位姿估計(jì)」本身,而是讓關(guān)節(jié)物體位姿感知第一次同時(shí)具備了「精度」「魯棒性」與「實(shí)時(shí)性」三項(xiàng)長(zhǎng)期難以兼顧的能力。
結(jié)語(yǔ)
長(zhǎng)期以來(lái),關(guān)節(jié)物體位姿感知始終面臨一個(gè)核心矛盾:高精度方法往往依賴復(fù)雜優(yōu)化,難以滿足實(shí)時(shí)需求;而強(qiáng)調(diào)效率的方法,又容易在復(fù)雜動(dòng)態(tài)場(chǎng)景下出現(xiàn)結(jié)構(gòu)不穩(wěn)定與長(zhǎng)期漂移問(wèn)題。
這也是為什么,盡管近年來(lái)相關(guān)研究不斷發(fā)展,但真正能夠部署到真實(shí)機(jī)器人系統(tǒng)中的方法仍然有限。
CAPER++ 的意義,恰恰在于嘗試進(jìn)一步縮小「實(shí)驗(yàn)室方法」與「真實(shí)場(chǎng)景需求」之間的距離。
論文不僅在多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了穩(wěn)定、準(zhǔn)確且實(shí)時(shí)的關(guān)節(jié)物體位姿感知能力,也進(jìn)一步說(shuō)明:對(duì)于復(fù)雜運(yùn)動(dòng)結(jié)構(gòu)的理解,僅依賴局部幾何信息往往是不夠的,運(yùn)動(dòng)約束、結(jié)構(gòu)一致性以及時(shí)序連續(xù)性,同樣是機(jī)器人感知系統(tǒng)中不可忽視的重要部分。
隨著具身智能、機(jī)器人操作以及動(dòng)態(tài)場(chǎng)景交互持續(xù)發(fā)展,這類兼顧魯棒性、實(shí)時(shí)性與物理一致性的感知框架,未來(lái)有望在家庭機(jī)器人、工業(yè)自動(dòng)化以及復(fù)雜人機(jī)交互等場(chǎng)景中發(fā)揮更實(shí)際的價(jià)值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.