網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福Jeannette Bohg教授：拋棄「人手崇拜」，靈巧手要「解構(gòu)物理」 | ICRA 2026

2026-06-08 12:13:29　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

夾爪端到端再?gòu)?qiáng)，靈巧手也無(wú)可替代。

作者丨吳思?jí)?strong>

編輯丨岑峰

2026年6月3日，ICRA 2026維也納會(huì)議“操作、控制與具身設(shè)計(jì)”主題Keynote環(huán)節(jié)，斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的副教授，同時(shí)也是斯坦福交互式感知實(shí)驗(yàn)室（Interactive Perception Lab）的負(fù)責(zé)人Jeannette Bohg以一個(gè)反問(wèn)開(kāi)場(chǎng)——“我們還需要靈巧手嗎？”

這個(gè)問(wèn)題之所以有力，恰恰因?yàn)樗赶蛄水?dāng)下機(jī)器人操作領(lǐng)域最真實(shí)的張力：二指夾爪（two-finger gripper）配合端到端大模型，已經(jīng)能完成Rubik魔方、精細(xì)拼裝等令人嘆服的任務(wù)。那么，高自由度、高復(fù)雜度的靈巧手（dexterous hand）的價(jià)值究竟在哪里？

Jeannette Bohg給出了清晰的回答：靈巧手的價(jià)值不在于“像人類(lèi)一樣”，而在于吞吐量（throughput）與可控子空間（controllable subspace）這兩個(gè)維度上不可替代的優(yōu)勢(shì)。她舉了一個(gè)例子：一名制表大師用小指穩(wěn)定工具、用腕部旋轉(zhuǎn)螺絲，是經(jīng)過(guò)兩年訓(xùn)練后才涌現(xiàn)的高效策略——這種能力，夾爪永遠(yuǎn)無(wú)法復(fù)現(xiàn)。

然而，靈巧手的困境同樣清晰：22個(gè)自由度、多接觸狀態(tài)的切換，讓遠(yuǎn)程操控（teleop）數(shù)據(jù)采集極其困難且低效。對(duì)此，Bohg提出了她實(shí)驗(yàn)室的核心方法論——不從人手學(xué)，從物體軌跡學(xué)。

她的研究路線分兩步走：

第一步：Sim-tool-real的統(tǒng)一操作策略（UniSim-Real）。在仿真中對(duì)基元物體集合訓(xùn)練單一RL策略，驅(qū)動(dòng)策略的“目標(biāo)信號(hào)”不是人手姿態(tài)，而是物體的目標(biāo)位姿序列——這個(gè)目標(biāo)序列來(lái)自人類(lèi)視頻，但經(jīng)由基礎(chǔ)模型提取出“物體在做什么”，與“人手如何移動(dòng)”完全解耦。結(jié)果是一個(gè)零樣本（zero-shot）遷移泛化到大量工具與任務(wù)的單一策略。

第二步：Play-to-Effect的精細(xì)化微調(diào)。上述“泛化探索策略（Play Policy）雖然掌握了原子級(jí)技能，但對(duì)精度要求極高的裝配任務(wù)（如公差極小的插孔）表現(xiàn)不足。團(tuán)隊(duì)將該預(yù)訓(xùn)練策略作為起點(diǎn)，通過(guò)精調(diào)（fine-tune）實(shí)現(xiàn)高精度插拔、家具組裝等任務(wù)——比從頭訓(xùn)練更快、更魯棒，對(duì)外力干擾的抵抗力也更強(qiáng)。

Bohg最后坦誠(chéng)地提出了尚未解決的核心問(wèn)題：如何彌合“低維度RL物體表征”與“自我中心視頻中蘊(yùn)含的豐富視覺(jué)-物理復(fù)雜性”之間的鴻溝？這是她實(shí)驗(yàn)室目前正在攻堅(jiān)的開(kāi)放問(wèn)題，也是靈巧手走向真正通用的最后一塊拼圖。

以下是Jeannette Bohg在ICRA 2026大會(huì)上發(fā)表的演講精編稿，AI科技評(píng)論基于原英文演講內(nèi)容進(jìn)行了不改原意的翻譯編輯：

《Do We Still Need Dexterous Hands?》

主講人：Jeannette Bohg，斯坦福大學(xué)

反問(wèn)開(kāi)場(chǎng)：

二指夾爪已經(jīng)這么強(qiáng)了，靈巧手還有位置嗎？

今天我想提出一個(gè)問(wèn)題：我們還需要靈巧手嗎？

我之所以問(wèn)這個(gè)，是因?yàn)閮芍笂A爪（two-finger gripper）所能做到的事情確實(shí)令人印象深刻。我舉兩個(gè)例子：一個(gè)來(lái)自Generalist團(tuán)隊(duì)，大家應(yīng)該都見(jiàn)過(guò)，他們用兩只手兩個(gè)夾爪能做出相當(dāng)驚艷的操作；另一個(gè)是我周一錄下來(lái)的視頻——一名研究人員展示的，一個(gè)人在解那個(gè)Gearboard的拼板，可以看到這個(gè)人操作得很吃力；而右邊，那個(gè)兩指夾爪機(jī)器人卻把這個(gè)任務(wù)完成得相當(dāng)出色。把皮帶套到齒輪上，這個(gè)任務(wù)其實(shí)相當(dāng)難。

然而，我確實(shí)認(rèn)為靈巧手有它不可替代的位置。

為什么需要靈巧手：吞吐量與可控子空間

那么，我們究竟為什么要研究靈巧手？

首先，吞吐量（throughput）。我來(lái)展示一個(gè)視頻——我的一個(gè)學(xué)生找到的，一個(gè)人抓起工具然后用它擰緊螺絲，速度相當(dāng)快。我們仔細(xì)看：首先是用靈巧手抓起桌上的工具，然后是“手內(nèi)操作”（in-hand manipulation），旋轉(zhuǎn)工具對(duì)齊方向，再一次手內(nèi)操作，確保工具和螺槽精確對(duì)齊。這整套動(dòng)作，夾爪根本無(wú)法做到——而靈巧手能以極快的速度把它完成。

其次，可控子空間（controllable subspace）。這里我想引用LASA實(shí)驗(yàn)室的一項(xiàng)研究，她非常好地與我分享了視頻。她的工作研究的是瑞士制表師如何在任務(wù)中變得精通。左邊是一個(gè)初學(xué)者——可以看到他需要用另一只手來(lái)輔助定位工具與螺絲的對(duì)齊；右邊是一位專(zhuān)家，速度完全不同。這位專(zhuān)家在定位螺絲時(shí)，用的是小指來(lái)穩(wěn)定工具完成對(duì)齊，完全不需要第二只手。這是一種經(jīng)過(guò)兩年訓(xùn)練才涌現(xiàn)出來(lái)的能力和策略。

這是夾爪永遠(yuǎn)做不到的。

核心挑戰(zhàn)：

22個(gè)自由度，遙操作太難——不要從人手學(xué)

說(shuō)了這么多優(yōu)勢(shì)，我們也必須直面現(xiàn)實(shí)：控制一個(gè)22自由度、6個(gè)驅(qū)動(dòng)軸的靈巧手，并處理多接觸狀態(tài)的切換，是極其復(fù)雜的事情。

目前有一條很流行的路線——從遙操作數(shù)據(jù)中學(xué)習(xí)。但遙操作靈巧手本身就是一個(gè)極難的問(wèn)題，操控起來(lái)非常不直覺(jué)。你可以從某個(gè)團(tuán)隊(duì)的視頻里看到，用遙操作訓(xùn)練出來(lái)的策略行為，和我們剛才看到的那個(gè)人類(lèi)操作截然不同——?jiǎng)幼骱苈浅Ｖ?jǐn)慎。這正是因?yàn)檫b操作本身就極難操控。

所以，我們堅(jiān)定地不走這條路。相反，我們選擇sim-tool-real。

當(dāng)然，sim-tool-real近年來(lái)因?yàn)榇罅坑?jì)算資源的投入取得了很大進(jìn)展。但有一點(diǎn)我必須指出：大多數(shù)現(xiàn)有工作，每個(gè)技能對(duì)應(yīng)一個(gè)單獨(dú)的策略——旋轉(zhuǎn)用一個(gè)，穩(wěn)定握持用一個(gè)，工具使用用一個(gè)。我們想做的是把這些獨(dú)立的技能策略統(tǒng)一成一個(gè)策略。

UniSim-Real：

從物體軌跡學(xué)，而非從人手學(xué)

那么，我們是怎么做的？

關(guān)鍵洞察是：我們可以將操作與物體的目標(biāo)位姿統(tǒng)一起來(lái)。在屏幕右側(cè)，你會(huì)看到一個(gè)綠色的“幽靈物體”——那是這個(gè)策略需要追蹤的目標(biāo)位姿，策略需要通過(guò)所有這些手內(nèi)操作和抓取來(lái)讓物體匹配這個(gè)目標(biāo)。

在訓(xùn)練階段，我們?cè)诜抡胬锷梢唤M基元（primitive）物體，并訓(xùn)練一個(gè)單一的RL策略，讓它能夠把每個(gè)物體操控到隨機(jī)的目標(biāo)位姿。這個(gè)策略在仿真里只有一個(gè)，輸入是：手的本體感受狀態(tài)（通過(guò)傳感器獲取）、物體的包圍盒、物體當(dāng)前位姿（用包圍盒上的40個(gè)關(guān)鍵點(diǎn)表示），以及一個(gè)目標(biāo)位姿序列。

那目標(biāo)位姿序列從哪里來(lái)？我們確實(shí)錄制了人類(lèi)視頻示范，然后使用基礎(chǔ)模型從視頻里提取物體的位姿序列。重點(diǎn)在于：我們模仿的不是人手，我們只關(guān)心物體在做什么。提取出來(lái)的目標(biāo)位姿由閉環(huán)手部跟蹤來(lái)追蹤執(zhí)行。

有了這個(gè)洞察，我們得到了一個(gè)單一策略，可以零樣本完成大量操作任務(wù)——包括大量從未見(jiàn)過(guò)的工具和任務(wù)。與基線方法相比：固定抓取不work，因?yàn)橥瓿扇蝿?wù)必須改變物體的手內(nèi)朝向；運(yùn)動(dòng)學(xué)重定向（kinematic retargeting）也通常不穩(wěn)定。

如果你有興趣，可以掃我PPT上的二維碼，訪問(wèn)我們的網(wǎng)頁(yè)，有一個(gè)交互式demo，你可以自己改變目標(biāo)位姿、改變朝向，甚至讓物體掉落，探索這個(gè)策略的邊界。

Play-to-Effect：從"游玩"到"精確插拔"

現(xiàn)在我們有了這個(gè)能干很多事情的策略，能在靈巧手上通過(guò)RL學(xué)到各種有趣的行為。但我們也發(fā)現(xiàn)：它并不能很好地完成裝配任務(wù)（assembly）。

裝配任務(wù)需要精確度。我們的測(cè)試表明：如果兩個(gè)零件之間的間隙比較寬松，這個(gè)策略有時(shí)能成功，但成功率不夠高；間隙越緊，成功率越低。

于是我們問(wèn)：能不能把這個(gè)已經(jīng)內(nèi)嵌了所有原子技能的“游玩策略（Play Policy）”作為預(yù)訓(xùn)練起點(diǎn)，再微調(diào)它去做更精確的操作？

我們將“游玩策略”作為預(yù)訓(xùn)練基礎(chǔ)，針對(duì)一系列精確插拔任務(wù)進(jìn)行微調(diào)（fine-tune）。在推理時(shí)，我們使用基礎(chǔ)模型來(lái)追蹤待操作零件和固定件的位姿，以關(guān)鍵點(diǎn)序列和目標(biāo)抓取朝向作為輸入。

測(cè)試結(jié)果包括：插銷(xiāo)任務(wù)、宜家基準(zhǔn)測(cè)試（IKEA benchmark）的鉸鏈組裝（插入填充物、抓取橫梁并放置）、家具基準(zhǔn)測(cè)試（將桌腿插入桌面的榫眼）。“Play-to-Effect”在所有這些任務(wù)上都有出色表現(xiàn)——比起游玩策略有明顯提升，訓(xùn)練速度也很快（甚至比從頭用稠密獎(jiǎng)勵(lì)訓(xùn)練還快），同時(shí)對(duì)引入外力干擾的抵抗力也更強(qiáng)。

另一個(gè)讓我個(gè)人特別興奮的地方是：這是一個(gè)閉環(huán)策略，當(dāng)物體從手里掉落，它會(huì)主動(dòng)撿起來(lái)再試。這種恢復(fù)行為，正是閉環(huán)策略的本質(zhì)優(yōu)勢(shì)。

尚未解決的問(wèn)題：

低維RL與富信息視頻之間的鴻溝

好，讓我以幾點(diǎn)反思來(lái)結(jié)束這個(gè)演講。

我們用RL在這個(gè)擬人手（anthropomorphic hand）上學(xué)習(xí)到了這些非常有趣的行為。我很喜歡的一點(diǎn)是：我們根本不關(guān)心人手的歷史動(dòng)作軌跡，我們只關(guān)心物體是否在沿著軌跡運(yùn)動(dòng)、是否完成了任務(wù)。

因?yàn)槲覀冇昧薘L，實(shí)際上我們并不需要綁定在擬人手上。完全可以使用那些具有仿生主動(dòng)表面的非擬人設(shè)計(jì)的手——這些手不需要像擬人手那樣做接觸狀態(tài)切換。而且，對(duì)于這樣的手，你永遠(yuǎn)沒(méi)辦法通過(guò)模仿人手來(lái)驅(qū)動(dòng)它。所以，同樣的方法論——先游玩再精確，再完成任務(wù)——對(duì)非擬人手同樣適用。

但RL也有它的局限性：

? 它適合低維的物體表征——我們目前用的是包圍盒+40個(gè)關(guān)鍵點(diǎn)；

? 它目前僅適用于剛體，或許可以擴(kuò)展到關(guān)節(jié)物體，這是（下一步的）方向；

? 它依賴(lài)的物體追蹤在推理時(shí)比較脆弱——我們方法的主要失敗模式恰恰是追蹤失敗；

? 與此形成鮮明對(duì)比的是，自我中心視頻中蘊(yùn)含的豐富視覺(jué)與物理復(fù)雜性——不可能大規(guī)模仿真，而且人們不僅是在操作物體，還在接觸物體。

通過(guò)模仿學(xué)習(xí)，已經(jīng)有人在用人類(lèi)視頻做訓(xùn)練，但他們是在模仿人手本身，而這條路正受制于運(yùn)動(dòng)學(xué)重定向的天花板。

今天上午我們還展示了另一項(xiàng)成果——《Masquerade》。我們不是直接模仿人類(lèi)的動(dòng)作，而是在人類(lèi)視頻中用機(jī)器人手替換掉人類(lèi)的手，從而讓數(shù)據(jù)完美包含任務(wù)需求，并以此訓(xùn)練視覺(jué)編碼器。這種方法徹底彌合了域偏移（Domain Gap）帶來(lái)的差距，在分布外泛化（OOD Generalization）上表現(xiàn)特別優(yōu)異。

最終，我們正在思考的開(kāi)放問(wèn)題是：如何彌合“在任何手上都能學(xué)到的全套行為”與“自我中心視頻中蘊(yùn)藏的豐富視覺(jué)-物理復(fù)雜性”之間的鴻溝？這是我和實(shí)驗(yàn)室學(xué)生們接下來(lái)要一起攻克的課題。

感謝所有合作者，也特別感Sharpa贊助并提供了這些靈巧手。謝謝大家！

Q&A 問(wèn)答環(huán)節(jié)

聽(tīng)眾A（主持人）：您在談到彌合仿真到現(xiàn)實(shí)的差距時(shí)，尤其是針對(duì)仿真中難以處理的物體（比如柔性物體或有復(fù)雜交互的物體，如擠壓噴瓶），您怎么看待這個(gè)問(wèn)題？

Jeannette Bohg：讓我簡(jiǎn)單介紹一下我們是怎么做這個(gè)sim-tool-real遷移的。我們使用了域隨機(jī)化（domain randomization）——不僅隨機(jī)化物體本身（形狀、大小），也隨機(jī)化環(huán)境的物理屬性。更關(guān)鍵的是，我們還必須在仿真里模擬有噪聲的物體檢測(cè)和位姿估計(jì)，以及傳感器延遲——這些對(duì)于真正把仿真策略遷移到真實(shí)世界至關(guān)重要，包括對(duì)外力擾動(dòng)的模擬。

對(duì)于鉸接物體，我完全可以想象用同樣的方法，只是提高物體表征的維度——比如用物體的關(guān)節(jié)狀態(tài)（如關(guān)節(jié)角度）來(lái)代表物體狀態(tài)。視覺(jué)社區(qū)能不能為我們提供魯棒的位姿估計(jì)，是關(guān)鍵的外部依賴(lài)。

對(duì)于布料、面團(tuán)這類(lèi)廚房場(chǎng)景里的柔性物體——坦率說(shuō)，我暫時(shí)還不知道怎么做。一個(gè)猜想是：也許可以在剛體和鉸接物體上預(yù)訓(xùn)練，然后結(jié)合已有的示范數(shù)據(jù)（比如折疊衣物的工作），進(jìn)行微調(diào)。或者，如果有人能提供更快的柔性體仿真框架，我們?nèi)匀豢梢宰逺L這條路。

聽(tīng)眾B：您認(rèn)為如何把這些策略功能化，整合進(jìn)一個(gè)用于各類(lèi)物體操作的基礎(chǔ)模型？我看到這里所有的策略都是相對(duì)專(zhuān)一的，下一步是否可以把它們作為模塊，嵌入到類(lèi)似Action Expert這樣的更大型操控模型里？

Jeannette Bohg：很好的問(wèn)題。首先澄清一下：我們選擇工具不是因?yàn)槲覀円獙?zhuān)門(mén)做工具操作——而是因?yàn)楣ぞ呤庆`巧手最難操作的對(duì)象之一，對(duì)技能要求最高。同樣的訓(xùn)練框架，完全可以擴(kuò)展到更多類(lèi)型的物體，我們只是還沒(méi)來(lái)得及做。

關(guān)于“能不能把這個(gè)策略作為VLA模型的Action Head”——這個(gè)想法很有意思，我之前還沒(méi)想到過(guò)。一個(gè)可能的方向是：把策略蒸餾到以RGB或深度圖像為輸入，然后輸入到VLA的某個(gè)表征層，再微調(diào)。但這需要更多時(shí)間討論，目前還只是直覺(jué)。

（編者按：Jeannette Bohg領(lǐng)導(dǎo)的斯坦福大學(xué)機(jī)器人學(xué)實(shí)驗(yàn)室目前正積極招募博士生及合作研究者。）

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國(guó)內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無(wú)時(shí)差地掌握本屆 ICRA 2026 的完整干貨，雷峰網(wǎng)已全面上線【ICRA 2026 深度專(zhuān)區(qū)】。

專(zhuān)區(qū)不僅全面收錄了重磅論文的工程化解讀、專(zhuān)家前沿演講，更將持續(xù)更新前方記者的第一手會(huì)議動(dòng)態(tài)。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個(gè)五年！

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.