![]()
夾爪端到端再?gòu)?qiáng),靈巧手也無(wú)可替代。
作者丨吳思?jí)?strong>
編輯丨岑 峰
2026年6月3日,ICRA 2026維也納會(huì)議“操作、控制與具身設(shè)計(jì)”主題Keynote環(huán)節(jié),斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的副教授,同時(shí)也是斯坦福交互式感知實(shí)驗(yàn)室(Interactive Perception Lab)的負(fù)責(zé)人Jeannette Bohg以一個(gè)反問(wèn)開(kāi)場(chǎng)——“我們還需要靈巧手嗎?”
這個(gè)問(wèn)題之所以有力,恰恰因?yàn)樗赶蛄水?dāng)下機(jī)器人操作領(lǐng)域最真實(shí)的張力:二指夾爪(two-finger gripper)配合端到端大模型,已經(jīng)能完成Rubik魔方、精細(xì)拼裝等令人嘆服的任務(wù)。那么,高自由度、高復(fù)雜度的靈巧手(dexterous hand)的價(jià)值究竟在哪里?
Jeannette Bohg給出了清晰的回答:靈巧手的價(jià)值不在于“像人類(lèi)一樣”,而在于吞吐量(throughput)與可控子空間(controllable subspace)這兩個(gè)維度上不可替代的優(yōu)勢(shì)。她舉了一個(gè)例子: 一名制表大師用小指穩(wěn)定工具、用腕部旋轉(zhuǎn)螺絲,是經(jīng)過(guò)兩年訓(xùn)練后才涌現(xiàn)的高效策略——這種能力,夾爪永遠(yuǎn)無(wú)法復(fù)現(xiàn)。
然而,靈巧手的困境同樣清晰:22個(gè)自由度、多接觸狀態(tài)的切換,讓遠(yuǎn)程操控(teleop)數(shù)據(jù)采集極其困難且低效。對(duì)此,Bohg提出了她實(shí)驗(yàn)室的核心方法論——不從人手學(xué),從物體軌跡學(xué)。
她的研究路線分兩步走:
第一步:Sim-tool-real的統(tǒng)一操作策略(UniSim-Real)。在仿真中對(duì)基元物體集合訓(xùn)練單一RL策略,驅(qū)動(dòng)策略的“目標(biāo)信號(hào)”不是人手姿態(tài),而是物體的目標(biāo)位姿序列——這個(gè)目標(biāo)序列來(lái)自人類(lèi)視頻,但經(jīng)由基礎(chǔ)模型提取出“物體在做什么”,與“人手如何移動(dòng)”完全解耦。結(jié)果是一個(gè)零樣本(zero-shot)遷移泛化到大量工具與任務(wù)的單一策略。
第二步:Play-to-Effect的精細(xì)化微調(diào)。上述“泛化探索策略(Play Policy)雖然掌握了原子級(jí)技能,但對(duì)精度要求極高的裝配任務(wù)(如公差極小的插孔)表現(xiàn)不足。團(tuán)隊(duì)將該預(yù)訓(xùn)練策略作為起點(diǎn),通過(guò)精調(diào)(fine-tune)實(shí)現(xiàn)高精度插拔、家具組裝等任務(wù)——比從頭訓(xùn)練更快、更魯棒,對(duì)外力干擾的抵抗力也更強(qiáng)。
Bohg最后坦誠(chéng)地提出了尚未解決的核心問(wèn)題:如何彌合“低維度RL物體表征”與“自我中心視頻中蘊(yùn)含的豐富視覺(jué)-物理復(fù)雜性”之間的鴻溝?這是她實(shí)驗(yàn)室目前正在攻堅(jiān)的開(kāi)放問(wèn)題,也是靈巧手走向真正通用的最后一塊拼圖。
以下是Jeannette Bohg在ICRA 2026大會(huì)上發(fā)表的演講精編稿,AI科技評(píng)論基于原英文演講內(nèi)容進(jìn)行了不改原意的翻譯編輯:
《Do We Still Need Dexterous Hands?》
主講人:Jeannette Bohg,斯坦福大學(xué)
01
反問(wèn)開(kāi)場(chǎng):
二指夾爪已經(jīng)這么強(qiáng)了,靈巧手還有位置嗎?
今天我想提出一個(gè)問(wèn)題:我們還需要靈巧手嗎?
我之所以問(wèn)這個(gè),是因?yàn)閮芍笂A爪(two-finger gripper)所能做到的事情確實(shí)令人印象深刻。我舉兩個(gè)例子:一個(gè)來(lái)自Generalist團(tuán)隊(duì),大家應(yīng)該都見(jiàn)過(guò),他們用兩只手兩個(gè)夾爪能做出相當(dāng)驚艷的操作;另一個(gè)是我周一錄下來(lái)的視頻——一名研究人員展示的,一個(gè)人在解那個(gè)Gearboard的拼板,可以看到這個(gè)人操作得很吃力;而右邊,那個(gè)兩指夾爪機(jī)器人卻把這個(gè)任務(wù)完成得相當(dāng)出色。把皮帶套到齒輪上,這個(gè)任務(wù)其實(shí)相當(dāng)難。
然而,我確實(shí)認(rèn)為靈巧手有它不可替代的位置。
02
為什么需要靈巧手:吞吐量與可控子空間
那么,我們究竟為什么要研究靈巧手?
首先,吞吐量(throughput)。我來(lái)展示一個(gè)視頻——我的一個(gè)學(xué)生找到的,一個(gè)人抓起工具然后用它擰緊螺絲,速度相當(dāng)快。我們仔細(xì)看:首先是用靈巧手抓起桌上的工具,然后是“手內(nèi)操作”(in-hand manipulation),旋轉(zhuǎn)工具對(duì)齊方向,再一次手內(nèi)操作,確保工具和螺槽精確對(duì)齊。這整套動(dòng)作,夾爪根本無(wú)法做到——而靈巧手能以極快的速度把它完成。
其次,可控子空間(controllable subspace)。這里我想引用LASA實(shí)驗(yàn)室的一項(xiàng)研究,她非常好地與我分享了視頻。她的工作研究的是瑞士制表師如何在任務(wù)中變得精通。左邊是一個(gè)初學(xué)者——可以看到他需要用另一只手來(lái)輔助定位工具與螺絲的對(duì)齊;右邊是一位專(zhuān)家,速度完全不同。這位專(zhuān)家在定位螺絲時(shí),用的是小指來(lái)穩(wěn)定工具完成對(duì)齊,完全不需要第二只手。這是一種經(jīng)過(guò)兩年訓(xùn)練才涌現(xiàn)出來(lái)的能力和策略。
這是夾爪永遠(yuǎn)做不到的。
![]()
03
核心挑戰(zhàn):
22個(gè)自由度,遙操作太難——不要從人手學(xué)
說(shuō)了這么多優(yōu)勢(shì),我們也必須直面現(xiàn)實(shí):控制一個(gè)22自由度、6個(gè)驅(qū)動(dòng)軸的靈巧手,并處理多接觸狀態(tài)的切換,是極其復(fù)雜的事情。
目前有一條很流行的路線——從遙操作數(shù)據(jù)中學(xué)習(xí)。但遙操作靈巧手本身就是一個(gè)極難的問(wèn)題,操控起來(lái)非常不直覺(jué)。你可以從某個(gè)團(tuán)隊(duì)的視頻里看到,用遙操作訓(xùn)練出來(lái)的策略行為,和我們剛才看到的那個(gè)人類(lèi)操作截然不同——?jiǎng)幼骱苈浅V?jǐn)慎。這正是因?yàn)檫b操作本身就極難操控。
所以,我們堅(jiān)定地不走這條路。相反,我們選擇sim-tool-real。
當(dāng)然,sim-tool-real近年來(lái)因?yàn)榇罅坑?jì)算資源的投入取得了很大進(jìn)展。但有一點(diǎn)我必須指出:大多數(shù)現(xiàn)有工作,每個(gè)技能對(duì)應(yīng)一個(gè)單獨(dú)的策略——旋轉(zhuǎn)用一個(gè),穩(wěn)定握持用一個(gè),工具使用用一個(gè)。我們想做的是把這些獨(dú)立的技能策略統(tǒng)一成一個(gè)策略。
04
UniSim-Real:
從物體軌跡學(xué),而非從人手學(xué)
那么,我們是怎么做的?
關(guān)鍵洞察是:我們可以將操作與物體的目標(biāo)位姿統(tǒng)一起來(lái)。在屏幕右側(cè),你會(huì)看到一個(gè)綠色的“幽靈物體”——那是這個(gè)策略需要追蹤的目標(biāo)位姿,策略需要通過(guò)所有這些手內(nèi)操作和抓取來(lái)讓物體匹配這個(gè)目標(biāo)。
![]()
在訓(xùn)練階段,我們?cè)诜抡胬锷梢唤M基元(primitive)物體,并訓(xùn)練一個(gè)單一的RL策略,讓它能夠把每個(gè)物體操控到隨機(jī)的目標(biāo)位姿。這個(gè)策略在仿真里只有一個(gè),輸入是:手的本體感受狀態(tài)(通過(guò)傳感器獲取)、物體的包圍盒、物體當(dāng)前位姿(用包圍盒上的40個(gè)關(guān)鍵點(diǎn)表示),以及一個(gè)目標(biāo)位姿序列。
那目標(biāo)位姿序列從哪里來(lái)? 我們確實(shí)錄制了人類(lèi)視頻示范,然后使用基礎(chǔ)模型從視頻里提取物體的位姿序列。重點(diǎn)在于:我們模仿的不是人手,我們只關(guān)心物體在做什么。提取出來(lái)的目標(biāo)位姿由閉環(huán)手部跟蹤來(lái)追蹤執(zhí)行。
有了這個(gè)洞察,我們得到了一個(gè)單一策略,可以零樣本完成大量操作任務(wù)——包括大量從未見(jiàn)過(guò)的工具和任務(wù)。與基線方法相比:固定抓取不work,因?yàn)橥瓿扇蝿?wù)必須改變物體的手內(nèi)朝向;運(yùn)動(dòng)學(xué)重定向(kinematic retargeting)也通常不穩(wěn)定。
如果你有興趣,可以掃我PPT上的二維碼,訪問(wèn)我們的網(wǎng)頁(yè),有一個(gè)交互式demo,你可以自己改變目標(biāo)位姿、改變朝向,甚至讓物體掉落,探索這個(gè)策略的邊界。
05
Play-to-Effect:從"游玩"到"精確插拔"
現(xiàn)在我們有了這個(gè)能干很多事情的策略,能在靈巧手上通過(guò)RL學(xué)到各種有趣的行為。但我們也發(fā)現(xiàn):它并不能很好地完成裝配任務(wù)(assembly)。
裝配任務(wù)需要精確度。我們的測(cè)試表明:如果兩個(gè)零件之間的間隙比較寬松,這個(gè)策略有時(shí)能成功,但成功率不夠高;間隙越緊,成功率越低。
于是我們問(wèn):能不能把這個(gè)已經(jīng)內(nèi)嵌了所有原子技能的“游玩策略(Play Policy)”作為預(yù)訓(xùn)練起點(diǎn),再微調(diào)它去做更精確的操作?
我們將“游玩策略”作為預(yù)訓(xùn)練基礎(chǔ),針對(duì)一系列精確插拔任務(wù)進(jìn)行微調(diào)(fine-tune)。在推理時(shí),我們使用基礎(chǔ)模型來(lái)追蹤待操作零件和固定件的位姿,以關(guān)鍵點(diǎn)序列和目標(biāo)抓取朝向作為輸入。
測(cè)試結(jié)果包括:插銷(xiāo)任務(wù)、宜家基準(zhǔn)測(cè)試(IKEA benchmark)的鉸鏈組裝(插入填充物、抓取橫梁并放置)、家具基準(zhǔn)測(cè)試(將桌腿插入桌面的榫眼)。“Play-to-Effect”在所有這些任務(wù)上都有出色表現(xiàn)——比起游玩策略有明顯提升,訓(xùn)練速度也很快(甚至比從頭用稠密獎(jiǎng)勵(lì)訓(xùn)練還快),同時(shí)對(duì)引入外力干擾的抵抗力也更強(qiáng)。
另一個(gè)讓我個(gè)人特別興奮的地方是:這是一個(gè)閉環(huán)策略,當(dāng)物體從手里掉落,它會(huì)主動(dòng)撿起來(lái)再試。這種恢復(fù)行為,正是閉環(huán)策略的本質(zhì)優(yōu)勢(shì)。
![]()
06
尚未解決的問(wèn)題:
低維RL與富信息視頻之間的鴻溝
好,讓我以幾點(diǎn)反思來(lái)結(jié)束這個(gè)演講。
我們用RL在這個(gè)擬人手(anthropomorphic hand)上學(xué)習(xí)到了這些非常有趣的行為。我很喜歡的一點(diǎn)是:我們根本不關(guān)心人手的歷史動(dòng)作軌跡,我們只關(guān)心物體是否在沿著軌跡運(yùn)動(dòng)、是否完成了任務(wù)。
因?yàn)槲覀冇昧薘L,實(shí)際上我們并不需要綁定在擬人手上。完全可以使用那些具有仿生主動(dòng)表面的非擬人設(shè)計(jì)的手——這些手不需要像擬人手那樣做接觸狀態(tài)切換。而且,對(duì)于這樣的手,你永遠(yuǎn)沒(méi)辦法通過(guò)模仿人手來(lái)驅(qū)動(dòng)它。所以,同樣的方法論——先游玩再精確,再完成任務(wù)——對(duì)非擬人手同樣適用。
但RL也有它的局限性:
? 它適合低維的物體表征——我們目前用的是包圍盒+40個(gè)關(guān)鍵點(diǎn);
? 它目前僅適用于剛體,或許可以擴(kuò)展到關(guān)節(jié)物體,這是(下一步的)方向;
? 它依賴(lài)的物體追蹤在推理時(shí)比較脆弱——我們方法的主要失敗模式恰恰是追蹤失敗;
? 與此形成鮮明對(duì)比的是,自我中心視頻中蘊(yùn)含的豐富視覺(jué)與物理復(fù)雜性——不可能大規(guī)模仿真,而且人們不僅是在操作物體,還在接觸物體。
通過(guò)模仿學(xué)習(xí),已經(jīng)有人在用人類(lèi)視頻做訓(xùn)練,但他們是在模仿人手本身,而這條路正受制于運(yùn)動(dòng)學(xué)重定向的天花板。
今天上午我們還展示了另一項(xiàng)成果——《Masquerade》。我們不是直接模仿人類(lèi)的動(dòng)作,而是在人類(lèi)視頻中用機(jī)器人手替換掉人類(lèi)的手,從而讓數(shù)據(jù)完美包含任務(wù)需求,并以此訓(xùn)練視覺(jué)編碼器。這種方法徹底彌合了域偏移(Domain Gap)帶來(lái)的差距,在分布外泛化(OOD Generalization)上表現(xiàn)特別優(yōu)異。
![]()
最終,我們正在思考的開(kāi)放問(wèn)題是:如何彌合“在任何手上都能學(xué)到的全套行為”與“自我中心視頻中蘊(yùn)藏的豐富視覺(jué)-物理復(fù)雜性”之間的鴻溝?這是我和實(shí)驗(yàn)室學(xué)生們接下來(lái)要一起攻克的課題。
感謝所有合作者,也特別感Sharpa贊助并提供了這些靈巧手。謝謝大家!
07
Q&A 問(wèn)答環(huán)節(jié)
聽(tīng)眾A(主持人):您在談到彌合仿真到現(xiàn)實(shí)的差距時(shí),尤其是針對(duì)仿真中難以處理的物體(比如柔性物體或有復(fù)雜交互的物體,如擠壓噴瓶),您怎么看待這個(gè)問(wèn)題?
Jeannette Bohg:讓我簡(jiǎn)單介紹一下我們是怎么做這個(gè)sim-tool-real遷移的。我們使用了域隨機(jī)化(domain randomization)——不僅隨機(jī)化物體本身(形狀、大小),也隨機(jī)化環(huán)境的物理屬性。更關(guān)鍵的是,我們還必須在仿真里模擬有噪聲的物體檢測(cè)和位姿估計(jì),以及傳感器延遲——這些對(duì)于真正把仿真策略遷移到真實(shí)世界至關(guān)重要,包括對(duì)外力擾動(dòng)的模擬。
對(duì)于鉸接物體,我完全可以想象用同樣的方法,只是提高物體表征的維度——比如用物體的關(guān)節(jié)狀態(tài)(如關(guān)節(jié)角度)來(lái)代表物體狀態(tài)。視覺(jué)社區(qū)能不能為我們提供魯棒的位姿估計(jì),是關(guān)鍵的外部依賴(lài)。
對(duì)于布料、面團(tuán)這類(lèi)廚房場(chǎng)景里的柔性物體——坦率說(shuō),我暫時(shí)還不知道怎么做。一個(gè)猜想是:也許可以在剛體和鉸接物體上預(yù)訓(xùn)練,然后結(jié)合已有的示范數(shù)據(jù)(比如折疊衣物的工作),進(jìn)行微調(diào)。或者,如果有人能提供更快的柔性體仿真框架,我們?nèi)匀豢梢宰逺L這條路。
聽(tīng)眾B:您認(rèn)為如何把這些策略功能化,整合進(jìn)一個(gè)用于各類(lèi)物體操作的基礎(chǔ)模型?我看到這里所有的策略都是相對(duì)專(zhuān)一的,下一步是否可以把它們作為模塊,嵌入到類(lèi)似Action Expert這樣的更大型操控模型里?
Jeannette Bohg:很好的問(wèn)題。首先澄清一下:我們選擇工具不是因?yàn)槲覀円獙?zhuān)門(mén)做工具操作——而是因?yàn)楣ぞ呤庆`巧手最難操作的對(duì)象之一,對(duì)技能要求最高。同樣的訓(xùn)練框架,完全可以擴(kuò)展到更多類(lèi)型的物體,我們只是還沒(méi)來(lái)得及做。
關(guān)于“能不能把這個(gè)策略作為VLA模型的Action Head”——這個(gè)想法很有意思,我之前還沒(méi)想到過(guò)。一個(gè)可能的方向是:把策略蒸餾到以RGB或深度圖像為輸入,然后輸入到VLA的某個(gè)表征層,再微調(diào)。但這需要更多時(shí)間討論,目前還只是直覺(jué)。
(編者按:Jeannette Bohg領(lǐng)導(dǎo)的斯坦福大學(xué)機(jī)器人學(xué)實(shí)驗(yàn)室目前正積極招募博士生及合作研究者。)
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國(guó)內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無(wú)時(shí)差地掌握本屆 ICRA 2026 的完整干貨,雷峰網(wǎng)已全面上線【ICRA 2026 深度專(zhuān)區(qū)】。
專(zhuān)區(qū)不僅全面收錄了重磅論文的工程化解讀、專(zhuān)家前沿演講,更將持續(xù)更新前方記者的第一手會(huì)議動(dòng)態(tài)。
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個(gè)五年!
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.