![]()
近年來,隨著機器人基礎模型和靈巧手硬件的快速發(fā)展,機器人操作能力正在從簡單抓取走向更復雜的功能性交互。但一個關鍵問題隨之出現(xiàn):我們該如何系統(tǒng)衡量靈巧手是否真的具備復雜操作能力?現(xiàn)有操作基準大多仍圍繞機械臂夾爪以及抓取與放置等基礎任務展開,難以系統(tǒng)評估靈巧手在工具使用、雙手協(xié)作、長程執(zhí)行和精細交互中的真實能力。
針對這一問題,中科院自動化所等機構(gòu)提出了 DexJoCo,一個面向任務導向靈巧操作的基準與工具鏈。
![]()
- 論文標題:DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo
- 論文地址:https://arxiv.org/abs/2605.16257
- 項目地址:https://dexjoco.github.io/
DexJoCo 基于 MuJoCo 構(gòu)建,旨在推動機器人從 “會抓取” 走向 “會真正操作”。該基準包含 11 個功能性靈巧操作任務、1.1K 條人類遙操作示范軌跡,覆蓋工具使用、雙手協(xié)作、長程執(zhí)行和推理等能力維度,并支持現(xiàn)代機器人學習模型的訓練與評測。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
圖 1 DexJoCo 總覽
為什么需要新的靈巧手基準?
過去很多機器人操作基準主要圍繞機械臂和夾爪展開,任務通常是把物體從一個位置移動到另一個位置。這類任務對機器人學習非常重要,但很難充分體現(xiàn)靈巧手相較于普通夾爪的核心優(yōu)勢。
靈巧手的價值不只是 “抓得更像人”,而是能夠完成更精細、更接觸豐富、更具功能性的操作。例如:
- 拿起水壺并按壓把手完成澆花;
- 雙手拿起相機并對準目標拍照;
- 根據(jù)指令輸入密碼解鎖平板電腦;
- 雙手配合完成插入、裝配任務。
這些任務不再只是移動物體,而是要求機器人理解任務目標、操作交互部件,并改變環(huán)境狀態(tài)。換言之,DexJoCo 關注的不是機器人能否 “抓住物體”,而是機器人能否真正 “完成一件事”。
DexJoCo 做了什么?
DexJoCo 設計了 11 個靈巧操作任務,覆蓋四類核心能力:
工具使用:如澆花、敲釘子、收納眼鏡、使用鼠標。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
雙手協(xié)作:如雙手裝配、雙手解鎖平板電腦、雙手拍照。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
長程執(zhí)行:如打開微波爐、放入食物、關門并啟動。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
推理任務:如根據(jù)指令完成漢諾塔后續(xù)步驟或根據(jù)語言指令輸入對應密碼。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
與傳統(tǒng) pick-and-place 任務不同,DexJoCo 的任務設計強調(diào)功能性交互、手指級精細控制、任務順序理解和雙手協(xié)調(diào)能力。通過這些任務,研究者可以更系統(tǒng)地評估靈巧手在真實復雜操作場景中的能力邊界。
不只是任務集,而是一套完整工具鏈
DexJoCo 提供了一條靈巧手操作評測的完整流程:
任務構(gòu)建 → 人類遙操作 → 軌跡采集 → 數(shù)據(jù)格式轉(zhuǎn)換 → 模型訓練 → 策略評測
![]()
圖 2 DexJoCo 流程圖
在數(shù)據(jù)采集方面,DexJoCo 使用 Rokoko Smartgloves 捕捉手部動作,使用 HTC Vive Tracker 和 Base Station 追蹤腕部運動,并通過重定向模塊將人類手部動作映射到 Allegro Hand 上。整套硬件系統(tǒng)成本約 2300 美元,旨在降低復雜靈巧操作示范數(shù)據(jù)的采集門檻。
![]()
圖 3 DexJoCo 數(shù)據(jù)采集系統(tǒng)
同時,DexJoCo 支持將數(shù)據(jù)轉(zhuǎn)換為 LeRobot 和 Diffusion Policy Zarr 等常用格式,方便研究者直接訓練和評測 ACT、Diffusion Policy、π0.5、GR00T-N1.5 等模型。
強模型也會在靈巧任務中 “翻車”
研究團隊在 DexJoCo 基準上評測了多種現(xiàn)代機器人學習模型,包括 ACT、Diffusion Policy、π0.5 和 GR00T N1.5。實驗結(jié)果顯示,即使是當前較先進的機器人策略模型,在復雜靈巧操作任務中仍然面臨顯著挑戰(zhàn)。
![]()
圖 4 dexjoco 基準上現(xiàn)代機器人策略模型性能
![]()
圖 5 π_0.5 模型操作失敗情況匯總
具體來看,在相機視角、光照條件、桌面紋理等視覺因素發(fā)生變化后,模型成功率普遍下降;在雙手協(xié)作、插入裝配、按鈕點擊等任務中,模型也經(jīng)常失敗。許多模型能夠找到目標物體并完成初步抓取,但在最關鍵的精細交互環(huán)節(jié)仍然不穩(wěn)定,例如按不準按鈕、插不準孔位、無法正確捏合工具,或在長程任務中丟失后續(xù)步驟。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
視頻鏈接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
這表明,當前機器人模型距離穩(wěn)定、可靠的人類級靈巧操作仍有明顯差距。視覺、語言、觸覺和高維手部動作之間,仍然缺少更有效的統(tǒng)一建模方式。
走向人類級靈巧操作,DexJoCo 提供了一套基礎設施
DexJoCo 的目標不是簡單提供一個排行榜,而是希望構(gòu)建一個標準化、可復現(xiàn)、可擴展的平臺,讓研究者能夠系統(tǒng)回答幾個關鍵問題:
- 靈巧手相比夾爪到底強在哪里?
- 當前 VLA 模型能否適應高維靈巧手動作空間?
- 什么樣的數(shù)據(jù)采集方式更適合靈巧操作?
- 怎樣的任務設計才能真正推動人類級機器人操作?
當機器人不再只是把物體拿起來,而是能夠使用工具、雙手協(xié)作、理解任務并改變環(huán)境狀態(tài)時,我們才真正接近人類級靈巧操作。
DexJoCo 希望為這條道路提供一套標準化基礎設施。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.