![]()
![]()
視頻鏈接:https://mp.weixin.qq.com/s/h0YtL9K-E6ONf_FN5DLhZg
策略驅動(非遙操):走到平臺前,下蹲撿起瓶子,走到垃圾桶并踩住踏板,把瓶子扔進垃圾桶并返回。訓練僅使用了 20 條同一室外場景下的示范數據。
人類在日常生活中協調全身來完成移動操作任務:打開垃圾桶時會踩下踏板,從低處拿東西時需要下蹲,推車時需要同步協調手臂抓握和腿部移動。對試圖復刻人類能力的人形機器人來說,身體不應只是「手臂 + 移動平臺」,而應是一個能協調手、腰、腿、腳共同完成任務的運動整體。
那么在 VLA (Vision-Language-Action Model) 能力突飛猛進的當下,如何構建一個高效的視覺 - 語言 - 動作學習系統,讓人形機器人在語言和視覺輸入下,像人類一樣協調全身完成移動操作任務( Loco-Manipulation Tasks)?
清華大學交叉信息研究院的最新成果 OpenHLM 就這一問題提出了一套面向人形機器人全身移動操作的開源 VLA 配方。
![]()
- 論文標題:OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation
- 論文鏈接:https://arxiv.org/abs/2606.22174
- 項目主頁:https://openhlm-project.github.io/
一套真正適用于廣泛移動操作任務的人形機器人系統,應該滿足哪些基本條件?作者提出了三點:
- 系統應該真正面向全身。 人形機器人的 VLA 策略不該把下半身只當成移動底座,而要能把手臂、腰、膝蓋、腳都調動起來 —— 下蹲撿起低處的東西、用腳踩踏板這類動作,都應進入機器人支持的能力范圍。
- 能被語言驅動。 用戶換一條指令,機器人應該就能用同一個模型完成不同任務,而不需要為每個任務單獨訓練模型并且在使用時頻繁切換。
- 能用低成本數據擴展。 全身遙操作數據質量高,但采集貴、重置耗時,也難覆蓋所有新物體和新場景。一個可擴展的系統,應該能利用更便宜的數據來源 —— 比如原地站定遙操作,或無需真實機器人參與的 HuMI(人形機器人版本的 UMI),讓能力擴展不必處處依賴昂貴的全流程全身遙操作。
圍繞這三點要求,OpenHLM 通過三個階段的系統性實驗,一步步敲定全身 VLA 的關鍵設計。
![]()
OpenHLM 將系統拆成三階段:全身控制與遙操作、VLA 設計、異構數據協同訓練。
第一組實驗,研究全身控制器與遙操作接口。 遙操作不只是采數據的工具,它決定了哪些自由度會被暴露給模型,進而影響模型最終學到什么行為。實驗表明:相比只暴露部分自由度的上下身解耦控制(decoupled control)和三關鍵點遙操作(VR 3-point)接口,以及維度更高、更冗余的人體 SMPL 動作表示,直接面向機器人關節空間的 (joint-based) 全身遙操作,最適合作為后續 VLA 的數據采集方式。
![]()
第二組實驗,研究如何把已有 VLA 遷移到人形機器人的全身動作空間。 許多 VLA 是在固定機械臂或輪式雙臂平臺上預訓練的,而人形機器人的動作空間維度更高。實驗顯示:(1)來自非人形機器人數據的預訓練仍然能提供有價值的操作先驗;(2)相比之下,動作格式、本體感知輸入這些接口層面的適配選擇,對最終表現影響并不大,沒有哪一項單獨構成瓶頸;(3)VLA 通過多步 flow 生成動作的方案明顯優于單步方案。最終 OpenHLM 采用的配方是:保留非人形機器人預訓練、保留本體感知輸入、輸出絕對關節值,并用多步 flow 生成動作。
![]()
VLA 設計消融實驗:動作接口、預訓練、動作生成方式等設計共同影響全身策略表現。
第三組實驗,研究如何在完整全身遙操作之外繼續低成本擴展。 完整全身遙操作能為學習全身移動操作任務提供全程的高質量監督信號,但其采集成本也限制了它向更多任務和物體推廣。為此,OpenHLM 引入了兩類更便宜的數據源:站定遙操作數據,以及 humanoid-free 的手持終端演示數據(HuMI),并將它們與全身遙操作數據協同訓練。結果顯示,這些 "實惠" 的數據同樣能幫 VLA 擴展到新任務。尤其是成本最低的 HuMI,盡管和真實機器人存在明顯的視覺與動作方面的域差異(domain gap),仍能以少量數據帶來對新物體和新指令的泛化能力;但對于需要新運動模式的任務,在當前條件下效果仍較有限,有待后續研究。
![]()
低成本數據幫助策略擴展到未覆蓋任務
這些實驗都以HLM-12任務集合作為主要評測平臺。HLM-12 包含 12 個任務,覆蓋四類全身移動操作能力:從基礎的行走與抓放的組合,到借助軀干擴展操作范圍(如下蹲取物),再到用手之外的部位完成操作(如用腳踩住垃圾桶踏板再投放),最后到環境約束下的操作(如雙手握把推車)。
![]()
這 12 個任務覆蓋了若干具有代表性的日常移動操作(loco-manipulation)場景,為不同全身能力的系統評估提供了更全面的支撐。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/h0YtL9K-E6ONf_FN5DLhZg
最后,OpenHLM 與其他基線方法在一個長程語言條件任務上做了系統級比較:機器人要按指令,從兩張不同高度的桌子上分別拿起指定水果,再走到高貨架前,把它們分別放進頂層的兩個容器里。這個任務設計了移動和操作反復交替,涵蓋了行走、調整姿態、抓取、放置、轉身和高處操作等一連串動作。實驗結果顯示,用低成本 HuMI 數據協同訓練的 OpenHLM,在演示時長不到兩個強基線(GR00T N1.6 與 Ψ0)一半的情況下,取得了顯著更高的平均任務進度(87.5%,遠高于 GR00T N1.6 的 57.5% 和 Ψ0 的 48.8%),并逼近全身遙操作 oracle 的表現(97.5%)。
![]()
OpenHLM v.s. baselines & oracle
![]()
視頻鏈接:https://mp.weixin.qq.com/s/h0YtL9K-E6ONf_FN5DLhZg
從「會走路的雙臂平臺」,到真正能協調全身的人形機器人,中間還有大量系統問題要回答。OpenHLM 給出的不是一個封閉答案,而是一條圍繞這些問題展開的開放式實驗路線:怎么采集全身行為數據、怎么讓 VLA 適配人形機器人的高維動作空間、怎么用低成本數據擴展新任務、又怎么用統一 benchmark 衡量這些能力。對想搭建通用人形機器人操作系統的研究者來說,這套經驗配方提供了一個清晰的起點。
作者團隊
本項工作的五位共同第一作者來自清華大學:胡英東,鄭博遠,胡亦行,張彤為交叉信息研究院高陽課題組博士研究生(胡英東、張彤為準畢業生),朱昊東為自動化系本科生。高陽課題組專注于具身智能方向研究,致力于開發具備泛化能力的通用機器人系統。本文作者們已經在 ICML、ICLR、CoRL、IROS 等機器學習與機器人學習領域頂級會議上發表多篇論文。
本項工作得到了清華大學交叉信息研究院、上海期智研究院、千尋智能公司的支持。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.