原文作者:深藍學院
原文鏈接:https://zhuanlan.zhihu.com/p/2020641171664282025
![]()
變形物體的機器人操作是機器人學領域的核心挑戰,這類物體的動力學特性隨形態動態變化且無法提前完全觀測,傳統方法難以實現跨類別、跨實例的實時適配。
李飛飛團隊聯合德克薩斯大學奧斯汀分校在ICRA2026上提出的RAPID(Rapid Adaptation of Particle Dynamics)方法,將快速運動適配框架從剛體操作擴展至變形物體領域,通過粒子位置捕捉物體形態變化,設計雙階段訓練策略實現仿真到真實世界的零樣本遷移。
在22自由度移動機械臂的1D插入、2D覆蓋任務中,對未見動力學、類別和實例的變形物體保持80%以上成功率。
這一研究工作為變形物體移動操作提供了新路徑,但局限也清晰:仍依賴仿真訓練,且對形變極劇烈的特殊材質(如高彈性織物)是否同樣有效,有待進一步驗證。
![]()
核心痛點:變形物體操作的技術壁壘
機器人操作變形物體需精準感知并實時適配其動力學特性,但傳統方法面臨三重核心壁壘:
一是變形物體動力學兼具剛體屬性(質量、位置)和形態變化特性(拉伸、彎曲等),無法通過先驗信息獲取且動態變化;
二是經典RMA框架僅考慮剛體物理參數,未納入形態變化維度,無法直接遷移至變形物體操作;
三是現有sim2real方法存在明顯缺陷,模型基方法依賴完全觀測無法應對遮擋,系統辨識方法需大量真實軌跡難以實時適配,基于真實世界數據的方法則泛化性差、數據集規模受限。
同時,傳統機器人方法缺乏人類操作時的實時在線適配能力,要么將變形物體當作剛體處理,要么需針對特定物體提前大量訓練,難以滿足真實場景的多樣化需求。
![]()
關鍵突破:粒子位置錨定形態變化,擴展RMA至變形物體領域
RAPID的核心創新在于提出“粒子位置捕捉形態變化”:
仿真中變形物體的近期真實粒子位置,可有效表征其形態變化規律,這一發現讓RMA框架向變形物體操作的擴展成為可能。
![]()
▲圖 |RAPID 方法整體框架:從仿真學習到真實世界部署的變形物體移動操作流程?【深藍具身智能】編譯
相較于傳統方法,RAPID實現了三個核心維度的突破:
動力學表征的完整性:
首次將形態變化納入變形物體的動力學嵌入表征。融合剛體的質量、位置參數和粒子位置反映的形態變化信息,構建了更貼合變形物體特性的動力學描述體系,彌補了傳統表征僅關注剛體屬性的缺陷;
無特權信息的實時推斷:
通過雙階段訓練設計,將仿真中依賴的粒子位置、真實物理參數等“特權信息”,轉化為僅通過機器人視覺觀測(深度圖像)和動作序列即可推斷的嵌入特征,徹底擺脫了對仿真專屬信息的依賴,實現了真實場景的信息適配;
端到端的仿真到真實遷移:
全程基于機器人機載視覺傳感器和關節角度信息完成訓練,無需任何真實世界數據微調,直接實現零樣本跨域遷移,同時有效解決了操作過程中的物體遮擋、非俯視視角等真實場景常見問題。
與現有sim2real方法相比,RAPID無需依賴物體分割掩碼、稠密描述符等中間表征,直接通過視覺觀測和動作序列完成動力學推斷與動作規劃,大幅提升了方法在真實場景中的魯棒性和實時性。
![]()
技術架構:雙階段訓練+在線適配,實現變形物體操作的端到端閉環
![]()
▲圖|RAPID 方法詳細流程:仿真雙階段訓練與真實世界部署?【深藍具身智能】編譯
RAPID整體采用雙階段仿真訓練+真實世界在線部署的架構,融合強化學習與嵌入特征回歸——
既利用仿真特權信息完成基礎策略訓練,又通過適配模塊實現真實世界的信息映射。
核心是構建形狀嵌入和動力學嵌入兩大特征,并完成從特權信息到視覺信息的推斷遷移。
整個技術流程清晰分為訓練Phase I、訓練Phase II和真實世界部署三個核心環節,各環節銜接形成端到端的操作閉環。
訓練Phase I:基于特權信息的視覺運動策略訓練
在OmniGibson仿真環境中,利用變形物體的真實粒子位置、質量、位置等特權信息,完成視覺運動策略和兩個核心編碼器的端到端訓練,為后續真實世界的適配奠定基礎:
![]()
▲圖 |仿真階段 I:基于特權信息訓練編碼器與視覺運動策略?【深藍具身智能】編譯
形狀編碼器():
以變形物體的近期真實粒子位置和機器人動作作為輸入,編碼生成形狀嵌入(),該特征專門表征物體的形態變化規律,是適配變形物體獨有的核心特征;
動力學編碼器():
以物體的質量、位置等剛體物理參數為輸入,編碼生成動力學嵌入(),表征剛體層面的基礎動力學特性;
視覺運動策略:
將機器人單幀深度圖像 ()、形狀嵌入和動力學嵌入作為聯合輸入,輸出22 自由度機械臂的全維度動作指令,通過強化學習完成端到端訓練,實現仿真環境中變形物體操作的最優動作規劃。
該階段的核心設計是將形態變化和剛體動力學信息解耦編碼——
既讓視覺運動策略的學習更具針對性,也為后續適配模塊的訓練提供了明確、可監督的目標特征。
訓練Phase II:無特權信息的適配模塊訓練
為讓方法適配無任何特權信息的真實世界,本階段用兩個專用適配模塊替代Phase I的編碼器。
核心通過L1損失回歸,實現從機器人視覺觀測+動作序列到形狀/動力學嵌入的精準推斷,徹底擺脫對仿真特權信息的依賴:
![]()
▲圖|仿真階段 II:訓練適配模塊,擺脫對特權信息的依賴?【深藍具身智能】編譯
形狀適配模塊():
以機器人近期深度圖像、關節角度和動作序列為輸入,替代形狀編碼器生成推斷形狀嵌入(),并以 Phase I 生成的真實形狀嵌入為監督,通過 L1 損失讓推斷嵌入無限逼近真實值;
動力學適配模塊():
輸入與形狀適配模塊完全相同的視覺和動作信息,替代動力學編碼器生成推斷動力學嵌入(),同樣以真實動力學嵌入為監督完成 L1 損失回歸;
策略輕量微調:
用兩個適配模塊生成的推斷嵌入,替換Phase I中的真實嵌入,對視覺運動策略進行輕量強化學習微調;同時為避免兩個適配模塊編碼冗余信息,阻斷動力學適配模塊到形狀適配模塊的上游梯度,確保二者在相同輸入下,分別捕捉形態變化和剛體動力學的獨立特征。
本階段完成后,Phase I的形狀編碼器和動力學編碼器將被舍棄,最終訓練得到的模型僅包含視覺運動策略和兩個適配模塊,完全滿足真實世界的無特權信息使用要求。
真實世界部署:在線動力學推斷與周期性嵌入更新
在真實世界部署時,RAPID無需任何額外微調,直接加載仿真訓練得到的視覺運動策略和適配模塊,實現完全自主的在線閉環操作。
![]()
▲圖| 真實世界部署階段:加載適配模塊與策略,實現在線閉環操作?【深藍具身智能】編譯
核心執行流程為:
多維度信息采集:
機器人通過機載RGBD相機獲取224×224分辨率的深度圖像(采集頻率3Hz),同時實時采集自身關節角度數據,構建包含最近10組“深度圖像-觀測-動作”的滑動數據窗口;
嵌入特征實時推斷:
將滑動窗口的多維度數據同步輸入形狀和動力學適配模塊,實時生成推斷形狀嵌入和推斷動力學嵌入,完成對變形物體當前動力學特性的精準感知;
全自由度動作規劃:
視覺運動策略以當前深度圖像、關節角度和兩個推斷嵌入為聯合輸入,輸出機械臂的全自由度動作指令,指導機器人完成與變形物體的交互操作;
周期性嵌入特征更新:
為保證視覺運動策略的時間行為一致性,避免視覺噪聲導致的動作抖動,嵌入特征并非逐幀更新,而是每5個時間步更新一次,平衡實時性與穩定性。
整個部署過程完全自主進行,無需人類干預,能夠有效應對真實場景中物體隨機擺放、光照條件變化、操作過程中物體遮擋等各類復雜問題。
![]()
實驗驗證:2類核心任務,82.5%綜合成功率超越SOTA
研究團隊以TIAGo 22自由度雙臂移動機械臂為實驗平臺,OmniGibson為仿真訓練環境,設計1D插入、2D覆蓋兩類典型變形物體移動操作任務。
設置主流SOTA方法為對比基線,并設計三組消融實驗,從定量和定性雙維度驗證RAPID的性能,所有真實世界實驗均使用仿真中從未出現的物體、環境和光照條件,模擬真實場景的未知性。
![]()
▲圖|一維插入和二維覆蓋任務使用的所有未見真實世界變形物體?【深藍具身智能】編譯
核心實驗設置
實驗任務:
1D插入任務要求將繩索、線纜等20類1D變形物體的一端插入杯子、碗等20類容器,300秒內完成即為成功;
2D覆蓋任務要求將毛巾、塑料袋等20類2D變形物體覆蓋在容器開口處,300秒內完成90%以上面積覆蓋即為成功,每個任務重復20次。
![]()
▲圖 |兩類任務的仿真與真實世界場景:一維插入任務與二維覆蓋任務?【深藍具身智能】編譯
對比基線:
選取DMfD(基于仿真專家演示的變形物體靜態操作方法)、DDOD(基于稠密物體描述符的變形物體操作方法)為基線,由RAPID完成所有基線方法的抓取和導航環節,僅讓基線執行核心操作,保證對比公平性。
消融實驗:
設計RAPID-No-Adapt(移除雙適配模塊)、RAPID-No-Shape(移除形狀適配模塊)、RAPID-E2E(跳過雙階段訓練,直接端到端訓練)三組消融實驗,驗證各核心模塊和訓練策略的必要性。
關鍵實驗結果
RAPID在1D插入任務中成功率85%,2D覆蓋任務中80%,綜合成功率82.5%,顯著超越DMfD(10%)、DDOD(17.5%)兩類SOTA方法。
基線方法的失敗主要源于物體遮擋/變形導致的中間表征失效,以及對未知動力學的無適配能力。
![]()
▲圖 |RAPID 在一維插入和二維覆蓋任務中的動力學自適應行為?【深藍具身智能】編譯
消融實驗則進一步驗證了核心設計的必要性
![]()
▲圖 |RAPID、對比基線及消融實驗在 20 次測試中的成功次數與成功率?【深藍具身智能】編譯
此外,動力學嵌入的可視化結果顯示,其特定維度與物體柔軟度呈強相關性,且能實時跟蹤物體剛度的動態變化,證明RAPID實現了對變形物體動力學特性的在線精準推斷。
![]()
▲圖 |RAPID 在一維插入和二維覆蓋任務中的動力學嵌入可視化及剛度動態變化跟蹤結果?【深藍具身智能】編譯
![]()
方法的優勢與現實局限
核心優勢
泛化能力突出:首次實現對未見動力學、類別、實例變形物體的零樣本操作,適配從柔軟絲帶、布料到剛性線纜、錢包的全范圍物體,突破傳統方法“一類一訓”的局限;
場景魯棒性高:無需物體分割、稠密描述符等中間表征,直接從視覺和動作信息推斷動力學,可應對真實場景的遮擋、非俯視視角、光照變化等問題;
訓練效率優異:全程基于仿真訓練,無需采集標注真實世界數據,大幅降低研發成本,相比真實數據驅動方法更易規模化推廣;
實時性滿足實操:僅通過機載傳感器實現在線推斷,嵌入特征周期性更新的設計,兼顧實時性與動作穩定性,滿足真實操作的時間要求。
現實局限
任務復雜度有限:僅驗證了1D插入、2D覆蓋兩類單目標基礎操作,尚未拓展至折疊、打結、纏繞等需要精細形態控制的復雜任務;
物體范圍有約束:實驗對象均為小型桌面變形物體,未驗證對大尺度物體(床單、地毯)和特殊變形物體(粘彈性物體、流體)的適配能力;
環境假設較理想:假設實驗環境為靜態,未考慮真實場景中的動態干擾(如物體碰撞、人為干擾),易導致動力學推斷和動作規劃失效;
依賴仿真粒子建模:方法核心依賴仿真中粒子位置對形態變化的表征,若粒子建模與真實物體形態變化規律偏差較大,會降低sim2real遷移性能。
![]()
總結
RAPID的核心價值,在于首次打通了快速運動適配框架從剛體到非剛體的擴展路徑,提出了粒子位置表征變形物體形態變化的新范式,為變形物體未知動力學適配提供了通用方法論。
盡管目前受限于任務和環境假設,但這一探索讓機器人向人類般靈活操作變形物體的目標邁出了關鍵一步。
論文標題:Rapid Adaptation of Particle Dynamics for Generalized Deformable Object Mobile Manipulation
論文地址:https://arxiv.org/pdf/2603.18246v1.pdf
項目地址:https://sites.google.com/view/rapid-robotics
雷峰網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.