亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

關(guān)于具身智能「觸覺」,你想知道的都在這篇綜述里了

0
分享至



在具身智能的感知拼圖中,觸覺一直扮演著不可或缺卻難以被完美量化的角色。它提供了視覺等遠(yuǎn)程傳感器無(wú)法替代的關(guān)于接觸幾何、材料特性和交互動(dòng)態(tài)的直接反饋。

隨著大語(yǔ)言模型(LLM)、世界動(dòng)作模型(WAM)和視覺 - 語(yǔ)言 - 動(dòng)作(VLA)大模型的爆發(fā),將觸覺與視覺、語(yǔ)言相融合,以彌合物理交互與高級(jí)語(yǔ)義推理之間的鴻溝,已成為機(jī)器人領(lǐng)域的必然趨勢(shì)。

本文由香港科技大學(xué)(廣州)熊輝教授團(tuán)隊(duì)牽頭,聯(lián)合靈心巧手(LinkerBot)以及西安交通大學(xué)、復(fù)旦大學(xué)、北京郵電大學(xué)、南京大學(xué)等,以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》為主題,全面梳理并分析截至 2026 年第一季度的前沿研究,提出了一個(gè)涵蓋多模態(tài)數(shù)據(jù)集、模型方法、傳感器硬件和評(píng)估體系的層次分類法。本文將帶你全面拆解這篇重磅綜述的核心干貨。



  • 論文題目:Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms
  • 作者單位:香港科技大學(xué)(廣州)、靈心巧手、西安交大、復(fù)旦、南大、北郵、武大等
  • 論文地址:https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms
  • GitHub 倉(cāng)庫(kù):https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion



圖 1. 多模態(tài)觸覺融合綜述的結(jié)構(gòu)概述

一、 為什么具身智能不可缺少觸覺?

與視覺等遠(yuǎn)端模態(tài)不同,觸覺提供了表面紋理、材料屬性和接觸動(dòng)態(tài)的直接、近端反饋,這對(duì)于解決視覺模糊性至關(guān)重要。對(duì)于具身智能體而言,觸覺反饋不僅僅是一種輔助模態(tài),更是感知 - 行動(dòng)閉環(huán)中的基本組成部分,觸覺作為連接被動(dòng)觀察與主動(dòng)物理交互的橋梁,能夠提供關(guān)于物體幾何形狀、材質(zhì)屬性以及接觸動(dòng)力學(xué)最直接的反饋,這是遠(yuǎn)距離傳感器無(wú)法替代的。在充滿物理接觸的環(huán)境中,這種多傳感器線索的協(xié)同作用(尤其是視覺與觸覺的協(xié)同),是構(gòu)建穩(wěn)健的感知和控制系統(tǒng)、使智能體能夠真正在物理世界中進(jìn)行精確操作和穩(wěn)定抓取的關(guān)鍵。



圖 2. 多模態(tài)觸覺融合的代表性數(shù)據(jù)集和方法綜述

二、底層邏輯:多模態(tài)觸覺融合的四階段 Pipeline

與視覺或語(yǔ)言不同,觸覺信號(hào)是接觸驅(qū)動(dòng)的,只有在物理交互發(fā)生時(shí)才會(huì)產(chǎn)生。綜述指出,現(xiàn)有的多模態(tài)觸覺融合系統(tǒng)在底層基本都遵循一個(gè)嚴(yán)謹(jǐn)?shù)乃碾A段處理流程:

  1. 物理轉(zhuǎn)導(dǎo)與時(shí)空觀察: 傳感器將形變、力或振動(dòng)等物理刺激轉(zhuǎn)化為數(shù)字信號(hào)(如高維矩陣或圖像串)。
  2. 特定模態(tài)表征學(xué)習(xí): 針對(duì)不同模態(tài)使用專屬的編碼器(如用于視覺 / 觸覺編碼的 ResNet 或 ViT,用于自然語(yǔ)言編碼的 OpenCLIP),將其轉(zhuǎn)化為統(tǒng)一維度的潛在特征向量。
  3. 跨模態(tài)融合: 通過特征拼接、交叉注意力機(jī)制或?qū)Ρ葘W(xué)習(xí)對(duì)齊,將單模態(tài)特征融合成共享的聯(lián)合表征。
  4. 具身解碼與任務(wù)執(zhí)行: 將融合后的特征輸出為最終結(jié)果,比如物體類別、生成的文本描述或機(jī)器人的控制動(dòng)作。

三、多模態(tài)觸覺融合的全景藍(lán)圖

本綜述創(chuàng)新性地提出了一個(gè)層次化分類體系,將多模態(tài)觸覺融合系統(tǒng)地劃分為三大支柱:多模態(tài)數(shù)據(jù)集、多模態(tài)方法和觸覺傳感器。



圖 3. 2015 - 2026 年多模態(tài)觸覺融合論文發(fā)表趨勢(shì)。

1. 數(shù)據(jù)集篇:從實(shí)驗(yàn)室單一配對(duì)走向真實(shí)世界的豐富語(yǔ)義



圖 4. 基于觸覺的多模態(tài)融合數(shù)據(jù)集的比較總結(jié)

數(shù)據(jù)集是跨模態(tài)學(xué)習(xí)的 “燃料”。文章根據(jù)模態(tài)組成,將現(xiàn)有數(shù)據(jù)集的發(fā)展脈絡(luò)劃分為四大階段:

  • 觸覺 - 視覺 (T-V) 數(shù)據(jù)集: 早期(如 VT Dataset)主要關(guān)注受控環(huán)境下的機(jī)器人抓?。唤趧t向無(wú)約束的野外環(huán)境(如 Touch in the Wild)和復(fù)雜形變物體(如 TouchClothing)發(fā)展。
  • 觸覺 - 語(yǔ)言 (T-L) 數(shù)據(jù)集: 旨在建立觸覺與人類認(rèn)知的橋梁。例如 PhysiCLEAR 記錄了物體的軟硬、粗糙度,而最新的 STOLA 則支持開放式的觸覺常識(shí)推理,打破了過去只能依賴視覺進(jìn)行語(yǔ)義接地的局限。
  • 觸覺 - 視覺 - 語(yǔ)言 (T-V-L) 數(shù)據(jù)集: 迎合當(dāng)前大模型趨勢(shì)的終極形態(tài)。比如 Touch100k 包含了超 10 萬(wàn)個(gè)三模態(tài)對(duì)齊樣本,不僅有短語(yǔ)標(biāo)簽,還有長(zhǎng)文本自然語(yǔ)言描述,完美支持跨模態(tài)對(duì)齊。
  • 觸覺 - 視覺 - 其他 (T-V-O) 數(shù)據(jù)集: 引入了動(dòng)作、音頻或本體感覺。著名的 ObjectFolder 系列結(jié)合了撞擊音頻;而 OmniViTac 等數(shù)據(jù)集則加入了動(dòng)作序列,支持端到端的接觸豐富型操作策略學(xué)習(xí)。

2. 方法論的三大范式:感知、生成與控制的全面進(jìn)化

在算法層面,綜述將數(shù)百篇前沿工作結(jié)構(gòu)化為三個(gè)核心方向,并對(duì)其進(jìn)行了詳細(xì)的子任務(wù)拆解:



圖 5. 多模態(tài)觸覺融合與下游任務(wù)的一般范例

(1)多模態(tài)感知與識(shí)別

這是目前研究最廣泛的范式,核心在于理解,具體包括四個(gè)子任務(wù):

  • 多模態(tài)物體識(shí)別: 結(jié)合全局視覺和局部觸覺,通過早期特征拼接或最新的 Transformer 聯(lián)合查詢機(jī)制(如 VHTformer),在視覺模糊(如透明物體)時(shí)依然能準(zhǔn)確識(shí)別物體。
  • 屬性與材料識(shí)別: 從早期的監(jiān)督學(xué)習(xí)分類,進(jìn)化到如今基于 CLIP 等大模型的零樣本(Zero-shot)識(shí)別。模型(如 UniTouch)可以通過語(yǔ)言文本提示,直接推斷物理材質(zhì)。
  • 抓取成功 / 失敗預(yù)測(cè): 區(qū)別于抓取前的視覺規(guī)劃,它利用接觸后的實(shí)時(shí)觸覺反饋(如滑動(dòng)、受力分布)來(lái)判斷抓取是否穩(wěn)定,是機(jī)器人閉環(huán)控制的關(guān)鍵一環(huán)。
  • 跨模態(tài)檢索與匹配: 作為評(píng)估表征對(duì)齊質(zhì)量的標(biāo)準(zhǔn)任務(wù),測(cè)試模型能否用一段觸覺數(shù)據(jù)搜出對(duì)應(yīng)的視覺圖片或文字描述。



圖 6. 多模態(tài)感知和識(shí)別的分類,包括多模態(tài)物體識(shí)別、多模態(tài)屬性和材質(zhì)識(shí)別、抓取成功或失敗預(yù)測(cè)以及跨模態(tài)檢索和匹配

(2)跨模態(tài)生成與轉(zhuǎn)換

不再局限于識(shí)別,而是讓模型擁有跨感官的合成能力:

  • 視 - 觸雙向生成: 看到粗糙的巖石照片,模型能生成對(duì)應(yīng)的觸覺形變圖;摸到材質(zhì),能反推物體的視覺紋理。
  • 語(yǔ)言 - 觸覺翻譯: 包含 “觸覺轉(zhuǎn)語(yǔ)言”(為接觸生成自然語(yǔ)言 Caption,如 VTV-LLM)以及極具挑戰(zhàn)的 “文本生成觸覺”(Text-to-Tactile,僅靠一段文字描述合成物理觸感數(shù)據(jù))。



圖 7. 多模態(tài)跨模態(tài)生成和轉(zhuǎn)換的分類,包括視覺 - 觸覺生成和翻譯和語(yǔ)言 - 觸覺生成和翻譯

(3)多模態(tài)交互與操作

將感知直接與物理控制耦合,分為兩大路徑:

  • 多模態(tài)感知驅(qū)動(dòng)的機(jī)器人操作: 結(jié)合觸覺反饋進(jìn)行精細(xì)裝配(如插孔任務(wù))或維持穩(wěn)定抓取。例如,DexTac 利用精確的接觸區(qū)域提示來(lái)完成注射器操作等高精度任務(wù)。
  • 語(yǔ)言指令下的多模態(tài)操作: 融合大語(yǔ)言模型的終極形態(tài)(VLA)。人類下達(dá)抽象指令(如 “輕輕抓住那個(gè)軟物體”),系統(tǒng)聯(lián)合語(yǔ)言語(yǔ)義、視覺幾何與觸覺實(shí)時(shí)反饋來(lái)生成連續(xù)動(dòng)作。



圖 8. 多模態(tài)交互和操作的分類,包括具有多模態(tài)感知的機(jī)器人操作和語(yǔ)言指令下的多模態(tài)操作



圖 9. 2026 年第一季度之前發(fā)表的多模態(tài)觸覺融合方法綜述

3. 硬件篇:觸覺傳感器的多樣化形態(tài)

觸覺信號(hào)的質(zhì)量直接受制于硬件設(shè)計(jì)與物理交互界面的形態(tài)。文章將觸覺傳感平臺(tái)分為四類:

  • 可穿戴觸覺系統(tǒng): 主要用于捕捉人類交互先驗(yàn),支持可擴(kuò)展的數(shù)據(jù)收集和向機(jī)器人的技能轉(zhuǎn)移。
  • 手持與指尖傳感器: 提供局部高分辨率的接觸感知,緊湊的體積使其非常適合直接集成到機(jī)器人末端執(zhí)行器中。
  • 機(jī)器皮膚與多模態(tài)傳感器貼片: 強(qiáng)調(diào)大面積可擴(kuò)展性、機(jī)械順應(yīng)性和分布式感知,以支持機(jī)器人的全身接觸感知。
  • 夾爪安裝與集成傳感器: 直接在操作界面集成感知能力,為閉環(huán)控制提供緊湊且共址的實(shí)時(shí)多模態(tài)反饋。



圖 10. 具有代表性的觸覺傳感器

四、 尚未統(tǒng)一的大考:評(píng)估指標(biāo)與基準(zhǔn)

盡管發(fā)展迅速,但多模態(tài)觸覺融合仍缺乏統(tǒng)一的基準(zhǔn),現(xiàn)有的評(píng)估協(xié)議高度依賴于特定任務(wù)。文章尖銳地指出了當(dāng)前領(lǐng)域面臨的四大核心挑戰(zhàn):

  • 數(shù)據(jù)碎片化與可擴(kuò)展性瓶頸: 現(xiàn)有數(shù)據(jù)集往往是任務(wù)定制且依賴特定傳感器的,規(guī)模遠(yuǎn)小于視覺 - 語(yǔ)言資源,這限制了基礎(chǔ)模型的零樣本遷移能力。
  • 模態(tài)不對(duì)齊與噪聲干擾: 稀疏觸覺輸入與密集視覺 / 語(yǔ)言輸入之間存在固有的時(shí)空不對(duì)齊,傳感器漂移和視覺遮擋等現(xiàn)實(shí)問題會(huì)進(jìn)一步削弱對(duì)齊的可靠性。
  • 軟硬件集成壁壘: 觸覺傳感器形態(tài)各異且缺乏標(biāo)準(zhǔn)接口,其耐久性和功耗限制了與大型視覺 - 語(yǔ)言模型在具身系統(tǒng)中的實(shí)時(shí)閉環(huán)融合。
  • 評(píng)估與基準(zhǔn)的不一致性: 指標(biāo)碎片化,缺乏端到端的具身基準(zhǔn),難以綜合評(píng)估模型在實(shí)際物理交互中的安全性和魯棒性。



圖 11. 多模態(tài)觸覺融合評(píng)價(jià)指標(biāo)綜述

五、挑戰(zhàn)與未來(lái):通往通用具身智能之路

盡管進(jìn)展迅速,多模態(tài)觸覺融合仍面臨著諸多亟待突破的瓶頸。目前的數(shù)據(jù)規(guī)模與大型語(yǔ)言模型的訓(xùn)練需求相比仍有巨大差距,且異構(gòu)傳感器之間缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。同時(shí)在非結(jié)構(gòu)化環(huán)境中,稀疏的觸覺輸入與密集的視覺或語(yǔ)言信息之間經(jīng)常出現(xiàn)空間和時(shí)間上的不對(duì)齊。此外現(xiàn)有的評(píng)估指標(biāo)往往局限于特定任務(wù),缺乏一個(gè)能全面衡量觸覺真實(shí)性、語(yǔ)義一致性和控制有效性的統(tǒng)一端到端基準(zhǔn)測(cè)試。

對(duì)于未來(lái),構(gòu)建統(tǒng)一且可擴(kuò)展的大規(guī)模數(shù)據(jù)集是打破發(fā)展瓶頸的關(guān)鍵所在。算法層面需要向?qū)哟位娜诤霞軜?gòu)演進(jìn),將觸覺作為多模態(tài)推理的底層支撐。在硬件端,柔性、耐用且具備端側(cè)處理能力的仿生觸覺皮膚將極大拓展機(jī)器人的感知邊界。通過將觸覺反饋?zhàn)鳛檫B續(xù)的監(jiān)督信號(hào)直接嵌入決策閉環(huán),具身智能系統(tǒng)必將從受控的實(shí)驗(yàn)室環(huán)境穩(wěn)步邁向復(fù)雜多變的人類生活空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
越來(lái)越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來(lái)越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
別再傳“蒙古國(guó)防中國(guó)”了!南邊連草都不長(zhǎng),讓人怎么?。?>
    </a>
        <h3>
      <a href=別再傳“蒙古國(guó)防中國(guó)”了!南邊連草都不長(zhǎng),讓人怎么住? 起喜電影
2026-04-15 18:57:22
2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

蔥哥說
2026-04-14 22:04:16
孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔(dān)心的事出現(xiàn)了

孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔(dān)心的事出現(xiàn)了

圓夢(mèng)的小老頭
2026-04-15 15:00:48
丹麥把旅居臺(tái)灣民眾居留證國(guó)籍、出生地登記改為中國(guó),國(guó)臺(tái)辦回應(yīng)

丹麥把旅居臺(tái)灣民眾居留證國(guó)籍、出生地登記改為中國(guó),國(guó)臺(tái)辦回應(yīng)

新京報(bào)
2026-04-15 11:21:58
國(guó)臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

國(guó)臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績(jī)壓廣州1勝場(chǎng),再贏2場(chǎng)鎖季后賽!

豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績(jī)壓廣州1勝場(chǎng),再贏2場(chǎng)鎖季后賽!

籃球資訊達(dá)人
2026-04-15 22:35:17
張本主動(dòng)讓核心!松島輝空淡定發(fā)言逗笑全場(chǎng),日乒男團(tuán)沖冠有新招

張本主動(dòng)讓核心!松島輝空淡定發(fā)言逗笑全場(chǎng),日乒男團(tuán)沖冠有新招

峰云峰雨
2026-04-14 18:52:15
NFC、FC、HPP……哪種才是100%真果汁?

NFC、FC、HPP……哪種才是100%真果汁?

混知
2026-03-24 17:07:26
李國(guó)慶張丹紅吃剩菜還不忘開會(huì),互相指責(zé)太真實(shí),生活習(xí)慣差異大

李國(guó)慶張丹紅吃剩菜還不忘開會(huì),互相指責(zé)太真實(shí),生活習(xí)慣差異大

嫹筆牂牂
2026-04-15 08:01:48
妻子偷偷給情夫轉(zhuǎn)六百萬(wàn),丈夫直接裝傻報(bào)警:錢丟了,妻子當(dāng)場(chǎng)崩潰

妻子偷偷給情夫轉(zhuǎn)六百萬(wàn),丈夫直接裝傻報(bào)警:錢丟了,妻子當(dāng)場(chǎng)崩潰

奶茶麥子
2026-04-15 15:46:05
許家印認(rèn)罪!南京恒大爛尾項(xiàng)目,何去何從?

許家印認(rèn)罪!南京恒大爛尾項(xiàng)目,何去何從?

地產(chǎn)銳評(píng)
2026-04-15 16:45:53
青澀的愛:那時(shí)候的我們,連牽手都要鼓起勇氣

青澀的愛:那時(shí)候的我們,連牽手都要鼓起勇氣

疾跑的小蝸牛
2026-04-15 20:43:41
日本全面叫停種植牙?種牙潛藏的風(fēng)險(xiǎn)與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風(fēng)險(xiǎn)與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
范志毅任上海足協(xié)副主席,和上綜藝賺錢兩不誤,3婚與嬌妻很幸福

范志毅任上海足協(xié)副主席,和上綜藝賺錢兩不誤,3婚與嬌妻很幸福

君笙的拂兮
2026-04-14 22:57:41
13歲男孩被老人私拴繩索割喉,已脫離生命危險(xiǎn),但仍有一段氣管未能找到……他成績(jī)?nèi)G叭赣H白血病加乳腺癌,網(wǎng)友已籌款超60萬(wàn)

13歲男孩被老人私拴繩索割喉,已脫離生命危險(xiǎn),但仍有一段氣管未能找到……他成績(jī)?nèi)G叭?,母親白血病加乳腺癌,網(wǎng)友已籌款超60萬(wàn)

極目新聞
2026-04-14 22:38:03
劉雨鑫吃了6000家餐廳、走遍幾十個(gè)國(guó)家,他的錢其實(shí)就3個(gè)來(lái)源

劉雨鑫吃了6000家餐廳、走遍幾十個(gè)國(guó)家,他的錢其實(shí)就3個(gè)來(lái)源

老吳教育課堂
2026-04-14 07:44:56
順峰餐廳北京門店全部關(guān)閉:司法糾紛不斷,消費(fèi)者上萬(wàn)儲(chǔ)值打水漂?

順峰餐廳北京門店全部關(guān)閉:司法糾紛不斷,消費(fèi)者上萬(wàn)儲(chǔ)值打水漂?

北京商報(bào)
2026-04-15 20:03:10
臺(tái)海觀察:十項(xiàng)涉臺(tái)新政充滿誠(chéng)意善意,島內(nèi)期盼惠及各行各業(yè)

臺(tái)海觀察:十項(xiàng)涉臺(tái)新政充滿誠(chéng)意善意,島內(nèi)期盼惠及各行各業(yè)

上觀新聞
2026-04-15 06:55:05
太陽(yáng)慘遭大逆轉(zhuǎn)!布克反思屢遭翻盤:領(lǐng)先就浪,怨我罰球太爛

太陽(yáng)慘遭大逆轉(zhuǎn)!布克反思屢遭翻盤:領(lǐng)先就浪,怨我罰球太爛

仰臥撐FTUer
2026-04-15 22:24:02
2026-04-15 23:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

游戲
親子
健康
本地
公開課

任天堂第一方獨(dú)占IGN 7分:無(wú)法導(dǎo)入、分享也是抽象

親子要聞

母嬰命懸一線,兇險(xiǎn)性前置胎盤穿透膀胱,這家醫(yī)院如何力挽狂瀾

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版