无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛 Jim Fan和徐丹飛聯(lián)合重磅論文:機器人靈巧手可能走錯了路

0
分享至



人類不只是用眼睛操控這個世界。

把一張薄卡片插進卡槽、擰開一把鎖、從一疊紙杯中分出一個,這些動作之所以對人類毫不費力,靠的不是視覺,而是指尖傳回大腦的那一點點壓力與滑動信號。然而在機器人領(lǐng)域,觸覺長期被當(dāng)作"錦上添花"的附屬模態(tài),真正決定動作的始終是視覺。

過去兩年,隨著具身智能和 VLA 模型快速發(fā)展,機器人的任務(wù)開始從"看得見、拿得起"邁向"摸得準、做得細"。從 Physical Intelligence 的 π0,到 NVIDIA 的 GR00T,再到 UC Berkeley 的 EgoScale,越來越多研究開始挑戰(zhàn)翻書、插卡、擰燈泡、分紙杯等接觸密集型任務(wù)。

在一次次的任務(wù)中,研究者們開始發(fā)現(xiàn),雖然視覺負責(zé)找到物體,但真正決定操作成敗的,往往是接觸發(fā)生后的那幾十毫秒。于是,觸覺開始重新進入它們的視野,并被嘗試引入 Transformer 和 VLA 框架,希望讓機器人擁有類似人類指尖的反饋能力。

但當(dāng)研究者們嘗試把觸覺傳感器接入系統(tǒng)時,一個尷尬的結(jié)果發(fā)生了:模型不僅沒能學(xué)會更好的操作,反而更容易出現(xiàn)抓取失誤、動作猶豫甚至任務(wù)失敗。很多時候,觸覺不如不加。

這個奇怪的現(xiàn)象引起了一支超級團隊的注意。最近,來自 UC Berkeley、NVIDIA、斯坦福、松下等機構(gòu)的研究者,其中包括斯坦福教授李飛飛、英偉達具身智能負責(zé)人 Jim Fan、佐治亞理工學(xué)院助理教授徐丹飛、Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell 等多位知名學(xué)者,聯(lián)合發(fā)表了一篇題為“T-Rex: Tactile-Reactive Dexterous Manipulation”的論文,分析當(dāng)前觸覺融合方案的根本缺陷,并提出了一套全新的架構(gòu)——T-Rex 來解決這個問題。


(來源:T-Rex)

加了觸覺,反而更差了?

目前最強的機器人操作策略大多基于視覺-語言-動作模型(VLA),其核心是一個大型 Transformer 骨干網(wǎng)絡(luò)。當(dāng)研究者引入觸覺時,最自然的做法就是把觸覺信號編碼成 token,和視覺、語言 token 一起喂進同一個 Transformer。這也是大多數(shù)現(xiàn)有工作采用的路線。

增加一種新的感知模態(tài),按理說應(yīng)該讓機器人擁有更精準的操作能力。然而,論文中的實驗卻得出了相反的結(jié)果:在相同的實驗平臺和任務(wù)設(shè)置下,將觸覺力信號直接拼接到預(yù)訓(xùn)練好的 π0.5 模型中,任務(wù)成功率從 17% 驟降至 6%。也就是說,加入觸覺后,模型不僅沒有表現(xiàn)得更好,反而更容易失敗。

為什么會這樣?論文指出,核心矛盾在于頻率不匹配。視覺信號的更新頻率通常在 5Hz 左右,而觸覺反饋天然需要在 20Hz 甚至更高的頻率下才能發(fā)揮作用。人在捏一個雞蛋時,手指對力度的微調(diào)是毫秒級的。把這兩種時間尺度完全不同的信號塞進同一個以低頻運行的 Transformer,不僅無法發(fā)揮觸覺的優(yōu)勢,反而會干擾視覺模態(tài)已經(jīng)學(xué)好的表征,造成性能退化。

換句話說,過去的做法不是"加了觸覺沒用",而是"加的方式不對"。

T-Rex 的核心創(chuàng)新,就是改變觸覺輸入的方式。把觸覺從"另一種輸入模態(tài)"重新定義為"另一條獨立的控制通路"。

它采用了一種混合 Transformer 專家架構(gòu)(Mixture-of-Transformer-Experts,MoT),將整個系統(tǒng)拆分為三個專家模塊,各司其職:


(來源:T-Rex)

第一個是潛在專家(Latent Expert),負責(zé)處理視覺和語言觀測,預(yù)測未來的視覺表征,為后續(xù)動作提供語義上下文。可以把它理解為"看清楚當(dāng)前場景并預(yù)判接下來會發(fā)生什么"的模塊。

第二個是動作專家(Action Expert),以大約 5Hz 的低頻運行,負責(zé)粗粒度的動作規(guī)劃。它采用條件流匹配(Flow Matching)的方式,從純噪聲出發(fā)逐步去噪,生成一個中間狀態(tài)的動作方案——相當(dāng)于先畫一個草圖。

第三個也是最關(guān)鍵的,是觸覺專家(Tactile Expert)。它以大約 20Hz 的高頻運行,接收實時觸覺信號,在動作專家產(chǎn)出的"草圖"基礎(chǔ)上進行快速修正。它不需要重新處理視覺和語言信息,而是直接復(fù)用前兩個專家緩存的上下文,只關(guān)注觸覺帶來的即時反饋。

這種設(shè)計的精妙之處在于:視覺和觸覺不再爭搶同一個 Transformer 的注意力資源,而是在各自最合適的頻率上獨立運作,再通過級聯(lián)去噪的方式協(xié)同配合。動作專家完成 10 步去噪中的前 6 步,輸出一個部分去噪的動作;觸覺專家接過來,用最新的觸覺數(shù)據(jù)完成剩下的 4 步,輸出最終可執(zhí)行的動作。

一套新的觸覺編碼方式

除了架構(gòu)創(chuàng)新,T-Rex 在觸覺信號的編碼和數(shù)據(jù)上也下了功夫。

論文提出了一種時空觸覺編碼器(Spatial-Temporal Tactile Encoder),同時捕捉兩種互補的觸覺信息:一是力的時間動態(tài)——通過一個 VQ-VAE(向量量化變分自編碼器)將每根手指過去 16 幀的六維力向量壓縮為一個緊湊的離散 token,既能捕捉力的變化趨勢,又能有效抵抗傳感器漂移;二是形變的空間分布——通過一個輕量級卷積網(wǎng)絡(luò)提取指尖形變圖的特征,捕捉接觸面的邊緣、滑移和剪切模式。

兩種信號拼接后,構(gòu)成觸覺專家的完整輸入。這種編碼方式既保留了觸覺的豐富信息,又將其壓縮到了 Transformer 能高效處理的規(guī)模。

數(shù)據(jù)方面,團隊構(gòu)建了 T-Rex 數(shù)據(jù)集。其中包含 100 小時的雙臂靈巧手遙操作數(shù)據(jù),覆蓋超過 200 種日常物品和 22 種運動基元(如抓取、擠壓、插入、擦拭、折疊等),包含 7,700 余條軌跡。每條軌跡都同步記錄了 RGB 圖像、機器人狀態(tài)、動作指令、觸覺力信號和形變圖。


圖|T-Rex 數(shù)據(jù)集圍繞“動作 × 物體”組合構(gòu)建(來源:T-Rex)

與以往針對特定任務(wù)錄制數(shù)據(jù)不同,T-Rex 數(shù)據(jù)集的設(shè)計思路是圍繞"動詞-名詞"組合來組織。用 22 個動作原語搭配 200 多種物品,通過組合覆蓋盡可能多樣的接觸行為。這種方式使得模型能夠?qū)W到通用的觸覺-動作對應(yīng)關(guān)系,而非記憶特定任務(wù)的模式。

訓(xùn)練采用三階段策略。第一階段是大規(guī)模人類視頻預(yù)訓(xùn)練:基于 EgoScale 的方案,在 22,889 小時的第一人稱人類視頻上預(yù)訓(xùn)練潛在專家和動作專家,獲取廣泛的視覺運動先驗。第二階段是觸覺中間訓(xùn)練(mid-training):在 100 小時的 T-Rex 數(shù)據(jù)集上,將動作專家適配到機器人平臺,同時訓(xùn)練觸覺專家。第三階段是技能微調(diào)(post-training):對特定任務(wù)使用約 100 條示范進行微調(diào)。

這種漸進式訓(xùn)練的好處在于:觸覺能力不需要從頭學(xué),而是在視覺運動先驗已經(jīng)建立之后,以相對較少的數(shù)據(jù)"嫁接"進來。

12 項任務(wù),平均領(lǐng)先 30 個百分點

對于 T-Rex 的最終效果,論文在 12 項需要精細力控和接觸感知的真實世界任務(wù)上進行了評估。這些任務(wù)包括翻書頁、轉(zhuǎn)移雞蛋、擦盤子、擠牙膏、分紙杯、分揀麻將、開鎖、填藥盒、酸堿中和滴定、抽卡片、發(fā)撲克牌和擰燈泡。每一個都需要機器人對接觸力進行動態(tài)調(diào)節(jié)。

結(jié)果顯示,T-Rex 在所有任務(wù)上均取得了最高的成功率,平均達到 65%,比最強基線 EgoScale 的 35% 高出了 30 個百分點。在翻書頁、轉(zhuǎn)移雞蛋、分紙杯等任務(wù)上,T-Rex 分別達到了 96%、75%、78% 的成功率。


圖|12 項真實世界靈巧操作任務(wù)評測結(jié)果(來源:T-Rex)

消融實驗進一步證實了幾個關(guān)鍵結(jié)論。去掉所有觸覺輸入后,平均成功率從 65% 降至 42%,下降了 23 個百分點,說明觸覺信號確實至關(guān)重要。去掉異步執(zhí)行機制(讓觸覺專家和動作專家以相同頻率同步運行),性能下降 5 個百分點,驗證了頻率解耦的必要性。而在數(shù)據(jù)效率方面,經(jīng)過觸覺中間訓(xùn)練的模型在僅使用 10 條任務(wù)示范時就能達到可用水平,遠優(yōu)于未經(jīng)中間訓(xùn)練的版本。

回過頭看,T-Rex 的成功主要來自幾個相互配合的設(shè)計。

首先是頻率解耦。視覺以約 5 Hz 的頻率運行,負責(zé)理解場景;觸覺則以約 20 Hz 的頻率持續(xù)更新,負責(zé)感知接觸后的細微變化,兩者互不干擾。這不僅更符合人類處理視覺和觸覺的方式,也避免了高頻觸覺信號被低頻模型“淹沒”,難以發(fā)揮作用。

其次是分工明確。動作專家先規(guī)劃整體動作,相當(dāng)于先確定“大方向”;觸覺專家再根據(jù)實時觸覺反饋,對動作進行快速微調(diào)。這樣一來,視覺負責(zé)“決定做什么”,觸覺負責(zé)“決定怎么做得更準”,兩者各自發(fā)揮優(yōu)勢。

第三是計算上的優(yōu)化。觸覺專家不需要每次都重新處理視覺和語言信息,而是直接利用動作專家已經(jīng)計算好的結(jié)果,只專注于處理最新的觸覺反饋。這既減少了計算量,也讓觸覺能夠以 20 Hz 的頻率實時運行,真正跟上機器人操作時的節(jié)奏。

局限與未來方向

不過,在結(jié)尾部分論文也坦承了當(dāng)前的局限。對于需要更長時間、更高精度協(xié)調(diào)的任務(wù),比如那些遙操作本身就很困難的場景。純粹的行為克隆仍然受限于示范數(shù)據(jù)的分布,未來可能需要引入強化學(xué)習(xí)或在線交互來突破瓶頸。

硬件層面,觸覺傳感器本身的局限也是瓶頸:傳感器漂移、設(shè)備間的標定差異、以及目前僅限于指尖而非全手掌的感知覆蓋,都限制了系統(tǒng)的上限。論文建議未來探索跨異構(gòu)傳感器的統(tǒng)一表征,以及覆蓋整個手掌的更密集觸覺硬件。

T-Rex 這篇工作給出的核心啟示或許可以用一句話概括:觸覺不應(yīng)該被當(dāng)作視覺的附庸,而應(yīng)該被當(dāng)作一個獨立的控制回路。

過去幾年,機器人學(xué)習(xí)領(lǐng)域習(xí)慣了"萬物皆 token"的思路——把所有模態(tài)統(tǒng)一編碼、扔進同一個大模型。這個范式在視覺和語言上取得了巨大成功,但當(dāng)觸覺這種天然高頻、需要即時響應(yīng)的信號加入時,統(tǒng)一架構(gòu)的弊端就暴露了出來。T-Rex 的 MoT 架構(gòu)提供了一種更尊重信號物理特性的融合方式,也為未來多模態(tài)機器人系統(tǒng)的設(shè)計提供了新的思路。

論文鏈接:https://arxiv.org/abs/2606.17055

項目主頁:https://tactile-rex.github.io/

運營/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
再見了!馮小剛,《抓特務(wù)》票房慘敗,屬于馮小剛的時代結(jié)束了

再見了!馮小剛,《抓特務(wù)》票房慘敗,屬于馮小剛的時代結(jié)束了

翰飛觀事
2026-07-01 14:52:44
賀嬌龍被追授為全國優(yōu)秀共產(chǎn)黨員!紀錄片公布最后工作影像

賀嬌龍被追授為全國優(yōu)秀共產(chǎn)黨員!紀錄片公布最后工作影像

南方都市報
2026-07-02 10:52:27
“你恩斷義絕,我大卸八塊”,女子求復(fù)合遭拒,殺死男友砌入墻內(nèi)

“你恩斷義絕,我大卸八塊”,女子求復(fù)合遭拒,殺死男友砌入墻內(nèi)

易玄
2026-06-30 22:58:00
外媒:以色列前國防軍參謀長宣布開始競選活動

外媒:以色列前國防軍參謀長宣布開始競選活動

參考消息
2026-07-01 16:51:29
當(dāng)年強令全國只生一個孩子的發(fā)起人,卻被曝出自己生了八個孩子

當(dāng)年強令全國只生一個孩子的發(fā)起人,卻被曝出自己生了八個孩子

人生錄
2026-06-30 11:17:00
盛贊對手!克羅地亞主帥:葡萄牙是奪冠熱門之一 C羅隨時可能進球

盛贊對手!克羅地亞主帥:葡萄牙是奪冠熱門之一 C羅隨時可能進球

畫夕
2026-07-02 17:00:08
講話千萬不要有奴才之相。

講話千萬不要有奴才之相。

人間清醒柒奶奶
2026-06-30 12:55:50
李小璐沉默8年后,她首次公開發(fā)聲:那個時候的我是個戀愛腦

李小璐沉默8年后,她首次公開發(fā)聲:那個時候的我是個戀愛腦

文刀貳
2026-06-30 21:19:47
CCTV5+直播,申花重組后衛(wèi)搭檔 阿蘇埃沖3場破門 王鈺棟被浪費了

CCTV5+直播,申花重組后衛(wèi)搭檔 阿蘇埃沖3場破門 王鈺棟被浪費了

替補席看球
2026-07-02 15:02:26
今年最熱時間變了!全年高溫頂峰不在七月初,別再按老辦法防暑

今年最熱時間變了!全年高溫頂峰不在七月初,別再按老辦法防暑

荊醫(yī)生科普
2026-07-02 15:53:16
非夫妻開房,民警直白提醒:不碰這條紅線,沒人管你是不是夫妻

非夫妻開房,民警直白提醒:不碰這條紅線,沒人管你是不是夫妻

皓皓情感說
2026-07-01 09:05:51
印尼砍30%配額想收割中企,結(jié)果反被掐住喉嚨:中企3周拆光生產(chǎn)線

印尼砍30%配額想收割中企,結(jié)果反被掐住喉嚨:中企3周拆光生產(chǎn)線

李砍柴
2026-07-02 14:15:06
比經(jīng)濟拮據(jù)更沉重的是中國60后開始退場后,正在逼近那些隱性壓力

比經(jīng)濟拮據(jù)更沉重的是中國60后開始退場后,正在逼近那些隱性壓力

王二哥老搞笑
2026-07-01 06:20:07
當(dāng)今社會內(nèi)卷成什么樣了?網(wǎng)友說:5年刑期以下的生意都沒利潤了

當(dāng)今社會內(nèi)卷成什么樣了?網(wǎng)友說:5年刑期以下的生意都沒利潤了

燈錦年
2026-07-02 18:05:22
世界杯奪冠概率如何,法國居首,阿根廷恐難衛(wèi)冕,西班牙也有機會

世界杯奪冠概率如何,法國居首,阿根廷恐難衛(wèi)冕,西班牙也有機會

劉哥談體育
2026-07-02 12:54:09
清華大學(xué)一院系畢業(yè)照中孩童坐第一排引關(guān)注,目前公眾號該照片已刪除;工作人員:不太了解相關(guān)情況

清華大學(xué)一院系畢業(yè)照中孩童坐第一排引關(guān)注,目前公眾號該照片已刪除;工作人員:不太了解相關(guān)情況

大象新聞
2026-06-30 23:58:19
人,不能長期待在家里,會損耗運勢

人,不能長期待在家里,會損耗運勢

十點讀書
2026-07-01 13:17:44
凡爾賽太香了!坎爺沒能給卡戴珊的城堡夢,這次全補給了比安卡

凡爾賽太香了!坎爺沒能給卡戴珊的城堡夢,這次全補給了比安卡

新歐洲
2026-07-01 23:29:47
老牌國貨發(fā)文:價值觀沖突,全面停止合作

老牌國貨發(fā)文:價值觀沖突,全面停止合作

南方都市報
2026-07-02 08:21:48
西安賽格購物中心墜樓發(fā)酵!離職10年的員工發(fā)聲:嚴總做人特別好

西安賽格購物中心墜樓發(fā)酵!離職10年的員工發(fā)聲:嚴總做人特別好

火山詩話
2026-07-02 04:50:43
2026-07-02 18:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16914文章數(shù) 515068關(guān)注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

冒死救出起火特斯拉女司機的理想車主找到了 本人發(fā)聲

頭條要聞

冒死救出起火特斯拉女司機的理想車主找到了 本人發(fā)聲

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經(jīng)要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態(tài)度原創(chuàng)

教育
家居
時尚
房產(chǎn)
健康

教育要聞

招生僅6年就躋身全區(qū)前列!這所十一系學(xué)校的學(xué)生又開始整活了

家居要聞

傳奇筑 日常詩

月入3萬,時代紅利砸向文科生

房產(chǎn)要聞

稀缺預(yù)警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

這4類消化病患者 吃粘食管住嘴

無障礙瀏覽 進入關(guān)懷版