![]()
這項由卡內基梅隆大學聯合德克薩斯大學阿靈頓分校、博世人工智能中心共同完成的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.13015,有興趣深入了解的讀者可通過該編號查詢完整原文。
人類在疊毛巾、往書架上放書、端著兩杯熱茶走路這些事情上幾乎不需要動腦,但對于一臺人形機器人來說,這些任務背后藏著令人頭疼的難題:手指需要感知力道,身體需要保持平衡,眼睛需要判斷位置,而這一切還得同時發生、相互配合。研究團隊在這項工作中正是瞄準了這個問題,試圖讓人形機器人真正學會"有感覺"地操作物體。
一個有趣的類比是:駕駛一輛沒有方向盤反饋的賽車。你能看到賽道,但感受不到輪胎與地面的摩擦,無法判斷是否即將失控。現有的大多數機器人操控系統正處于這種境地——它們可以看,可以動,卻缺少那層關鍵的"手感"。這項研究的核心貢獻,就是為機器人裝上了這層手感,并用一套名為"觸覺夢境"的方法,讓機器人通過預測未來的觸感來提升當下的操作能力。
一、人形機器人為什么這么難駕馭
在正式介紹這套系統之前,值得先花點時間理解問題的難度。人形機器人與工廠里那種固定在地面上的機械臂完全不同,它需要用兩條腿站立和行走,同時用兩只手完成精細操作。這就像一個人在獨木橋上單腳跳的同時還要穿針引線——任何一個環節的細微失誤都可能讓整套動作崩潰。
更麻煩的是,操作中的接觸狀態會頻繁變化。插入一個形狀吻合度很高的零件時,手指與零件之間的接觸力在毫秒級別內就會發生劇烈變化;疊一條毛巾時,軟質材料的形變完全無法從視覺中準確預判。這類"接觸豐富"的任務對機器人來說尤其困難,因為純靠攝像頭看圖像,很難知道此刻手指正承受多少力、物體是否在打滑。
研究團隊在論文中提到,當前絕大多數人形機器人研究系統要么有全身控制、要么有靈巧的手、要么有觸覺傳感,但幾乎沒有系統把三者同時做到并整合進一個能夠實際學習操作任務的平臺中。這個空缺,就是這項工作填補的地方。
二、一套完整的"學習操作"流水線
研究團隊構建的系統分成四個緊密銜接的部分,就像一條生產線,每個環節的輸出都是下一個環節的輸入。
第一個環節是訓練機器人的下半身控制器。這個控制器負責讓機器人站穩、走路、彎腰、蹲下,同時保證上半身在做各種動作時整體不會摔倒。訓練過程在計算機模擬環境中完成,采用的方法是先訓練一個"老師"策略,這個老師可以獲取模擬器里的特權信息(比如腳是否踩地),然后再訓練一個"學生"策略,學生只能使用真實機器人上能拿到的傳感器數據來模仿老師的行為。這種方式確保訓練出來的控制器可以直接部署到真實機器人上,不會因為模擬與現實的差距而失效。
這個下半身控制器能夠穩定地執行一系列復雜指令:身體前進后退左右移動的速度、軀干的傾斜角度和高度,甚至支持讓機器人蹲下夠到地面上的物體,或者在行走過程中保持上半身朝向不同方向。經過系統性測試,該控制器能夠在多個方向上維持穩定,高度可控范圍從33厘米到80厘米,軀干俯仰角度的可控范圍超過兩個弧度,這為上半身的靈活操作提供了堅實的支撐基礎。
第二個環節是數據采集系統。操作人員佩戴VR頭盔,頭部、手腕、手指的運動實時映射到機器人身上——頭部運動轉化為軀干的姿態指令,手腕運動通過逆運動學計算轉化為機器人手臂的關節角度,手指的彎曲程度則通過一套叫做DexPilot的方法轉化為機器人靈巧手的手指動作,優化的目標是讓機器人手指尖之間的距離關系盡量和操作員一致。操作員還通過一個手柄搖桿控制機器人的行走方向和速度。在整個遙控過程中,系統同步記錄多路攝像頭圖像、機器人身體和手部的關節狀態、手部每個關節的受力數據,以及來自兩只手上分布式觸覺傳感器的數據。
談到觸覺傳感,每只手上的傳感器覆蓋17個區域,包括拇指、食指、中指、無名指、小指各自的幾個節段,以及手掌,每只手提供1062維的觸覺觀測數據。這些數據記錄了手與物體接觸時各個位置的壓力分布,就像給機器人的手掌鋪了一張精密的壓力地圖。
三、讓機器人"幻想"未來觸感的核心算法
采集到足夠的演示數據之后,研究團隊用這些數據訓練了一個名為"人形觸覺夢境變換器"的策略模型,英文縮寫為HTD。這個模型的架構可以用"感官融合加預測"來理解:它同時接收視覺、本體感覺(關節角度和速度)、手指受力和觸覺信號,經過一個編碼器把這些信息融合成一個統一的內部表達,再通過一個解碼器產生機器人接下來要執行的動作序列。
模型的巧妙之處在于它額外做了一件事:除了預測下一步動作,它還被要求預測未來一段時間內手指會承受怎樣的力,以及未來的觸覺傳感器會呈現怎樣的激活模式。這就是研究團隊稱之為"觸覺夢境"的機制——機器人在操作過程中,不僅根據當前感知到的狀態決定下一步怎么動,還被訓練成能夠提前"感受"到即將發生的接觸是什么樣子的。
這種預測并不是在原始傳感器數據層面進行的,而是在一個經過學習的"壓縮空間"里進行。研究團隊發現,直接讓模型預測原始觸覺數據效果很差,因為觸覺信號本身噪聲大、稀疏、維度高,直接回歸這種信號很容易被噪聲主導而學不到有意義的東西。他們的解決方案是使用一個"指數移動平均教師編碼器"來產生穩定的目標標簽——這個教師編碼器的參數是學生編碼器參數的滑動平均,更新非常緩慢,像一個經驗豐富的老師,給出的參考答案不會因為學生的每次波動而大幅變化,從而避免了模型陷入所有觸覺輸入都映射到相同表達的"坍塌"困境。
學生模型被訓練成在這個壓縮空間里預測未來的觸覺狀態,損失函數同時優化預測方向(用余弦相似度衡量)和預測幅度(用平滑L1損失衡量),確保預測結果在方向和大小兩個維度上都盡量貼近教師給出的目標。整個訓練只需要一個階段,不需要先單獨預訓練觸覺模塊再拼接到策略網絡上,所有目標一起優化。
在模型結構上,每種輸入模態都有專屬的編碼模塊。圖像通過預訓練的殘差網絡提取特征;關節狀態和受力信號通過輕量級多層感知機處理;觸覺輸入則采用了一套按手指區域獨立編碼的方案——拇指、食指、中指等每個區域先被分成若干局部小塊,每個小塊重塑成二維壓力圖后經過卷積網絡處理,再合并成該區域的緊湊表達。不同模態的特征統一通過交叉注意力機制壓縮成固定數量的"令牌",然后輸入變換器編碼器進行跨模態融合。輸出端同樣是模塊化的設計,不同類型的動作(末端執行器姿態、軀干姿態、行走速度、手指動作)由獨立的專家模塊解碼,觸覺預測也由專屬的"夢境專家"模塊產生。部署時,夢境專家的輸出完全不使用,只有動作專家的輸出被發送給機器人執行。
四、五項真實世界任務的考驗
研究團隊在五項各具特色的真實操作任務上測試了整套系統,每項任務都針對不同類型的挑戰。
第一項任務是把一個T形積木插入一個T形底座。這個任務之所以困難,在于底座與積木之間的間隙只有3.5毫米,相當于在一個只比零件本身大一點點的孔里精確對齊并推入。細微的角度偏差就會卡住,需要機器人根據接觸力實時微調姿態。
第二項任務是整理書本。機器人面對的是一本放在桌面上的硬皮書,書本太薄,沒有直接抓握的空間。機器人需要先用手指將書輕輕推出去,制造出一個可以抓握的懸空邊緣,再抓起來放到書架上。任務中使用了兩種不同的書,且每次書的初始位置都在一定范圍內隨機變化。
第三項任務是疊毛巾,這是典型的可變形物體操作任務,毛巾每次的初始折疊狀態都不同,整個任務包含多個連續的操作步驟,對長時程規劃和精細手部控制都有要求。
第四項任務是貓砂鏟。機器人需要先蹲下去撿起地面上的鏟子,然后用鏟子從貓砂盆里舀起貓砂,再走到垃圾桶邊把貓砂倒進去。這個任務同時測試了全身協調(蹲下是非常大幅度的動作)和工具使用能力,而且鏟子、垃圾桶的位置每次都有變化。
第五項任務是端茶服務。機器人走到一個吧臺旁,拿起兩杯隨機擺放的茶,端著走向另一張桌子,停下來,把兩杯茶放到桌上。這個任務測試的是雙手同時持物行走時保持物體穩定的能力,以及整個過程中的全身協調。
每項任務進行20次真實機器人測試,同時比較了三種方法:只使用視覺和本體感覺的ACT基線、在此基礎上額外加入觸力覺輸入的ACT基線,以及完整的HTD方法。HTD在五項任務的平均成功率上比較強的那個ACT基線提升了約30個百分點,換算為相對提升約為90.9%,在平均得分率(部分完成也算分)上也提升約17.9個百分點。
具體分析各任務的表現,T形插入任務體現了觸覺對精密對齊的幫助,毛巾疊放展示了在長序列可變形物體操作中的優勢,貓砂鏟任務獲得了最大的相對提升,原因是蹲下加工具使用的組合對全身協調要求極高。端茶任務中,ACT方法在雙手成功抓起兩杯茶之后經常無法順利完成轉身和行走,而HTD的表現穩健得多,研究團隊認為這與HTD把行走速度命令作為獨立模塊解碼有關,讓這個維度較低但行為上非常重要的輸出不會被其他高維動作信號淹沒。書本整理任務的提升相對較小,可能因為該任務的視覺線索更充分、位置變化范圍更小,對觸覺的額外信息依賴相對低一些。
五、觸覺到底有多重要——拆解實驗說話
為了精確理解觸覺和觸覺夢境各自的貢獻,研究團隊在T形插入和毛巾疊放兩個任務上做了細致的消融實驗,對比了四種變體。
第一種是完全去掉觸覺輸入和觸覺夢境訓練目標,第二種是保留觸覺輸入但去掉夢境預測任務,第三種是加入夢境訓練但在原始傳感器空間預測未來觸覺,第四種是完整方法,在壓縮的潛在空間里預測未來觸覺。
實驗結果揭示出三個層次的結論。首先,單純把觸覺數據喂給模型并不穩定可靠——在毛巾疊放上有幫助,在T形插入上沒有幫助,平均成功率甚至略微下降。這說明觸覺信號本身如果沒有好的學習機制配合,并不能自動轉化為更好的控制表現,反而可能引入噪聲干擾。
其次,加入夢境預測任務之后,無論是在原始空間還是在潛在空間預測,都明顯優于只用觸覺輸入不做預測的情況,說明讓模型主動"預期"未來接觸的學習信號,比被動接收當前觸覺信號更有效。
最后,在潛在空間里做夢境預測比在原始空間里做效果顯著更好,成功率相對提升約30%。這一點在研究者的直覺中并不難理解——原始觸覺信號高維、稀疏、充滿噪聲,讓網絡在這個空間里學習預測,信號質量太低;而壓縮空間里的表達濾除了噪聲,保留了接觸狀態的結構化信息,預測目標更加清晰,學習效率自然更高。
研究團隊還對預測的質量做了定性可視化。在端茶和疊毛巾兩個任務的完整操控過程中,模型預測的未來手部受力軌跡與真實記錄的力信號在接觸發生的時機和力的大小上都保持了較好的一致性。觸覺潛在表達的相似度在持續接觸階段穩定維持在較高水平,只在接觸狀態突然切換的瞬間出現短暫下降,而這種下降是可以理解的——模型以開環方式一次性預測一個完整的短序列,當接觸狀態在序列中途發生不可預測的突變時,預測自然會出現偏差,但整體上仍然保持了較高的準確性。
從潛在表達的熱力圖上還能觀察到一個有意思的規律:當手指處于無接觸或輕接觸狀態時,不同手指、不同任務之間的基礎激活模式相互類似;一旦發生較強的接觸,激活模式就變得高度個性化,產生獨特的高強度響應圖案。這說明學習到的觸覺潛在空間確實捕捉到了有物理意義的接觸結構,而不僅僅是對原始傳感器信號的簡單壓縮。
歸根結底,這項研究用一套實際可運行的完整系統證明了一件事:要讓人形機器人在真實世界里可靠地做那些對人類來說再自然不過的操作任務,光有眼睛和本體感覺是不夠的,觸覺必須成為核心感知模態,而且需要用"預測未來觸感"這種主動方式來學習,而非被動地把觸覺信號塞進輸入端了事。這套"硬件齊備、數據高效、訓練一步到位"的路徑,可能是通往更通用人形機器人的一條實際可行的道路。
說到底,這項研究解決的是一個看起來很具體,實則牽一發動全身的問題:機器人的手怎樣才能真正"感覺"到它在觸摸什么。研究團隊沒有繞彎子,而是老老實實地搭了一套完整的系統,從讓機器人站穩,到幫它學會抓握,再到讓它能預感未來的接觸,每一步都有扎實的實驗支撐。五項任務超過九成的相對提升率,以及消融實驗里層層剝開的證據,共同指向一個清晰的結論:觸覺夢境這個主意是對的,而且在壓縮的潛在空間里做這件事比在原始傳感器數據里做更聰明。這對未來想在家里幫你疊衣服、端茶倒水的人形機器人來說,是一個值得認真參考的方向。感興趣的讀者可以通過arXiv編號2604.13015找到完整論文,進一步了解技術細節。
Q&A
Q1:觸覺夢境(Touch Dreaming)是什么原理,為什么比直接輸入觸覺信號效果更好?
A:觸覺夢境是一種訓練技巧,讓機器人在學習動作的同時,額外學習預測未來一段時間內手部會感受到什么觸覺和受力狀態。這個預測任務迫使模型內部必須構建出對接觸動態的理解,而不僅僅記憶"看到這個畫面就做這個動作"。關鍵是預測在壓縮的潛在空間里進行,而不是直接預測原始傳感器數值,因為原始觸覺數據維度高、噪聲大、稀疏,直接回歸這種信號效果很差;壓縮空間過濾了噪聲,保留了接觸結構,學習信號更清晰,這使得成功率相比在原始空間預測又提升了約30%。
Q2:人形機器人下半身控制器是如何訓練出來的,為什么要用教師-學生框架?
A:控制器在計算機模擬環境中用強化學習訓練。先訓練一個"教師"策略,它可以獲取模擬器內部的特權數據(如精確腳踩地狀態),因此表現出色;然后訓練一個"學生"策略,學生只能使用真實機器人能拿到的傳感器數據來模仿教師的動作選擇,通過減小兩者輸出差異來學習。這樣做是因為教師在模擬中表現好,但依賴真實世界沒有的信息,無法直接部署;學生通過模仿獲得了教師的能力,卻只使用可用信息,可以直接在真實機器人上運行,解決了模擬到現實的遷移問題。
Q3:人形觸覺夢境變換器(HTD)在部署時是否需要運行觸覺預測模塊?
A:不需要。觸覺預測模塊(稱為夢境專家)只在訓練階段使用,它的作用是通過預測未來觸感這一輔助任務,逼迫模型的共享變換器主干學習到對接觸動態敏感的內部表達。訓練完成后,部署時只需要運行動作專家模塊,夢境專家的輸出完全不被調用。這意味著推理階段的計算量不增加,整個系統在實際使用中與普通策略網絡一樣高效,不存在額外的運行時開銷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.