靈巧手的第一份高難度考卷，中科院自動化所發(fā)布DexJoCo

2026-06-08 12:44:34　來源: 機器之心Pro

北京舉報

分享至

近年來，隨著機器人基礎模型和靈巧手硬件的快速發(fā)展，機器人操作能力正在從簡單抓取走向更復雜的功能性交互。但一個關鍵問題隨之出現(xiàn)：我們該如何系統(tǒng)衡量靈巧手是否真的具備復雜操作能力？現(xiàn)有操作基準大多仍圍繞機械臂夾爪以及抓取與放置等基礎任務展開，難以系統(tǒng)評估靈巧手在工具使用、雙手協(xié)作、長程執(zhí)行和精細交互中的真實能力。

針對這一問題，中科院自動化所等機構(gòu)提出了 DexJoCo，一個面向任務導向靈巧操作的基準與工具鏈。

論文標題：DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo
論文地址：https://arxiv.org/abs/2605.16257
項目地址：https://dexjoco.github.io/

DexJoCo 基于 MuJoCo 構(gòu)建，旨在推動機器人從 “會抓取” 走向 “會真正操作”。該基準包含 11 個功能性靈巧操作任務、1.1K 條人類遙操作示范軌跡，覆蓋工具使用、雙手協(xié)作、長程執(zhí)行和推理等能力維度，并支持現(xiàn)代機器人學習模型的訓練與評測。

視頻鏈接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

圖 1 DexJoCo 總覽

為什么需要新的靈巧手基準？

過去很多機器人操作基準主要圍繞機械臂和夾爪展開，任務通常是把物體從一個位置移動到另一個位置。這類任務對機器人學習非常重要，但很難充分體現(xiàn)靈巧手相較于普通夾爪的核心優(yōu)勢。

靈巧手的價值不只是 “抓得更像人”，而是能夠完成更精細、更接觸豐富、更具功能性的操作。例如：

拿起水壺并按壓把手完成澆花；
雙手拿起相機并對準目標拍照；
根據(jù)指令輸入密碼解鎖平板電腦；
雙手配合完成插入、裝配任務。

這些任務不再只是移動物體，而是要求機器人理解任務目標、操作交互部件，并改變環(huán)境狀態(tài)。換言之，DexJoCo 關注的不是機器人能否 “抓住物體”，而是機器人能否真正 “完成一件事”。

DexJoCo 做了什么？

DexJoCo 設計了 11 個靈巧操作任務，覆蓋四類核心能力：

工具使用：如澆花、敲釘子、收納眼鏡、使用鼠標。

視頻鏈接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

雙手協(xié)作：如雙手裝配、雙手解鎖平板電腦、雙手拍照。

視頻鏈接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

長程執(zhí)行：如打開微波爐、放入食物、關門并啟動。

視頻鏈接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

推理任務：如根據(jù)指令完成漢諾塔后續(xù)步驟或根據(jù)語言指令輸入對應密碼。

視頻鏈接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

與傳統(tǒng) pick-and-place 任務不同，DexJoCo 的任務設計強調(diào)功能性交互、手指級精細控制、任務順序理解和雙手協(xié)調(diào)能力。通過這些任務，研究者可以更系統(tǒng)地評估靈巧手在真實復雜操作場景中的能力邊界。

不只是任務集，而是一套完整工具鏈

DexJoCo 提供了一條靈巧手操作評測的完整流程：

任務構(gòu)建 → 人類遙操作 → 軌跡采集 → 數(shù)據(jù)格式轉(zhuǎn)換 → 模型訓練 → 策略評測

圖 2 DexJoCo 流程圖

在數(shù)據(jù)采集方面，DexJoCo 使用 Rokoko Smartgloves 捕捉手部動作，使用 HTC Vive Tracker 和 Base Station 追蹤腕部運動，并通過重定向模塊將人類手部動作映射到 Allegro Hand 上。整套硬件系統(tǒng)成本約 2300 美元，旨在降低復雜靈巧操作示范數(shù)據(jù)的采集門檻。

圖 3 DexJoCo 數(shù)據(jù)采集系統(tǒng)

同時，DexJoCo 支持將數(shù)據(jù)轉(zhuǎn)換為 LeRobot 和 Diffusion Policy Zarr 等常用格式，方便研究者直接訓練和評測 ACT、Diffusion Policy、π0.5、GR00T-N1.5 等模型。

強模型也會在靈巧任務中 “翻車”

研究團隊在 DexJoCo 基準上評測了多種現(xiàn)代機器人學習模型，包括 ACT、Diffusion Policy、π0.5 和 GR00T N1.5。實驗結(jié)果顯示，即使是當前較先進的機器人策略模型，在復雜靈巧操作任務中仍然面臨顯著挑戰(zhàn)。

圖 4 dexjoco 基準上現(xiàn)代機器人策略模型性能

圖 5 π_0.5 模型操作失敗情況匯總

具體來看，在相機視角、光照條件、桌面紋理等視覺因素發(fā)生變化后，模型成功率普遍下降；在雙手協(xié)作、插入裝配、按鈕點擊等任務中，模型也經(jīng)常失敗。許多模型能夠找到目標物體并完成初步抓取，但在最關鍵的精細交互環(huán)節(jié)仍然不穩(wěn)定，例如按不準按鈕、插不準孔位、無法正確捏合工具，或在長程任務中丟失后續(xù)步驟。

視頻鏈接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

這表明，當前機器人模型距離穩(wěn)定、可靠的人類級靈巧操作仍有明顯差距。視覺、語言、觸覺和高維手部動作之間，仍然缺少更有效的統(tǒng)一建模方式。

走向人類級靈巧操作，DexJoCo 提供了一套基礎設施

DexJoCo 的目標不是簡單提供一個排行榜，而是希望構(gòu)建一個標準化、可復現(xiàn)、可擴展的平臺，讓研究者能夠系統(tǒng)回答幾個關鍵問題：

靈巧手相比夾爪到底強在哪里？
當前 VLA 模型能否適應高維靈巧手動作空間？
什么樣的數(shù)據(jù)采集方式更適合靈巧操作？
怎樣的任務設計才能真正推動人類級機器人操作？

當機器人不再只是把物體拿起來，而是能夠使用工具、雙手協(xié)作、理解任務并改變環(huán)境狀態(tài)時，我們才真正接近人類級靈巧操作。

DexJoCo 希望為這條道路提供一套標準化基礎設施。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.