![]()
機器人干“細活”,需要一雙怎樣的“手”?
作者丨高景輝
編輯丨馬曉寧
2026年6月5日,國際機器人與自動化會議(ICRA 2026)在奧地利維也納進入最后一天。在RoboTac研討會上,香港科技大學機器人研究院創始院長、「 戴盟機器人 」聯合創始人兼首席科學家王煜發表了題為《Touch Physical AI》的主題演講。
王煜教授是 IEEE fellow和IEEE RAS管理委員會成員,在機器人操作領域耕耘近 40 年,曾提出“具身技能”、“技能克隆”等概念,在斯坦福大學發布的“終身科學影響力排行榜”和“年度科學影響力排行榜”中位列全球前1%。
在這場以觸覺和物理智能為主題的演講中,王煜教授一針見血地指出了當前具身智能行業的卡點:“如果你想讓機器人實現精細操作,末端執行器必然會與物體接觸,這種相互作用會帶來形變,包括手指的形變和物體本身的形變。如果不采集這些末端信息,機器人就無法具備像人一樣的操作能力,這就是為什么「感知」如此重要。”
演講最后,王煜邀請行業伙伴加入觸覺操作評測基準RobOmni,呼吁生態共建,加速physical AI的演化。
RobOmni是戴盟本周發布的面向物理交互能力的含觸覺全模態評測基準。這家聚焦觸覺感知與物理交互的具身智能企業,昨天剛剛宣布了億元A輪融資,由匯川技術旗下產業基金匯川產投與中國電信聯合投資;前一天則在ICRA上與銀河通用聯合發布RobOmni,給機器人的物理交互能力提供了一把標尺。
RobOmni能給行業帶來什么?當我們梳理其技術脈絡時會發現,面向觸覺感知與靈巧操作的評測框架始終空缺。
觸覺究竟能為具身智能的操作能力和泛化能力帶來多少量化提升?如何通過技術手段系統性地放大觸覺的價值?更重要的是,什么樣的觸覺數據才是訓練高性能操作模型真正需要的“黃金數據”……
當具身智能行業的重心從“跳舞”移向“干活”,觸覺感知與靈巧操作正成為行業下一個必爭的技術高地。尤其隨著physical AI的發展,機器人不僅需要看見世界,更需要理解世界、與真實世界安全穩定地完成物理交互,而觸覺也將成為物理世界模型的關鍵模態之一。
這種趨勢下,一套標準化的能力評測框架,不僅讓觸覺智能的價值可能得以客觀驗證、能力邊界得以清晰界定,更能加速標準收斂,避免整個行業在數據采集、模型訓練和硬件研發上陷入了大量的重復試錯與資源浪費。
基于這一背景,AI科技評論在 ICRA 現場與王煜教授進行了一次對話,深入探討了觸覺智能的評測標準、觸覺數據以及具身操作的技術路線。以下是不改變原意的整理:
01
評判機器人精細操作能力,
至少有五大維度
▎AI科技評論:為什么戴盟機器人在今年ICRA上發布評測基準RobOmni?是因為當前行業在靈巧操作或者觸覺上面缺少評測基準和基礎設施嗎?
王煜:最近兩年,具身智能操作模型發展到了一個新的拐點:大家認識到,以前從視頻數據到 scaling law 的路徑沒那么容易。
同時,關于以人為中心的操作數據對驅動和訓練模型的重要性,行業也達成了新的共識:視頻信息量不夠豐富,不包含觸覺信息;觸覺信息的重要性被認可;遙操作則有明顯的成本問題。
最近半年左右,整個行業認為,訓練出具有高強性能操作能力的物理世界模型,必須依靠以人為中心的操作數據,包括 human centric 數據、多視角數據、穿戴工具獲取的數據,以及真實的觸覺感知信息。而且,高質量數據能夠縮小對數據量的需求,保證模型的可靠性和準確性。
有了這些認知之后,大家都在探索如何低成本、可控地獲取這些數據,如何實現多模態信息的對齊,這是行業的關鍵需求點。
當開始獲取數據、使用數據,我們就需要知道,什么樣的數據能夠促進模型的訓練、達到很好的效果,同時在成本和算力上可控可接受。這不僅僅是對數據量的需求,還對數據來源、數據信息本身包含的物理含量——尤其是觸覺和運動協調的對齊信息等多個維度有要求。人能做操作,是因為人能獲得并處理這些信息,做模型至少在框架上也要像人。
▎AI科技評論:那RobOmni是如何反映出數據是否符合需要的?
王煜:我們構建了一個從仿真評估到真機驗證的完整Sim-to-Real鏈路,設計了一套圍繞物理交互能力的評測協議;其中,仿真平臺基于NVIDIA Issac Sim構建,是一個含觸覺的全模態仿真平臺,可以完整模擬觸覺形變,提供接觸力、接觸狀態、材質、軟硬等觸覺信息。
有了這個標準化框架,我們就可以對模型的物理交互能力進行統一對比,從而評估數據對模型訓練的賦能。
![]()
RobOmni的觸覺仿真底座
▎AI科技評論:RobOmni在任務設計方面,有沒有針對手部操作的特定任務?
王煜:我們設計的測試任務主要就是圍繞contact-rich manipulation,包括抓舉、裝配、使用工具、插銷入孔等,觸覺在這些操作任務中很關鍵。同時,這些任務也是現實的家庭環境、工業制造等場景中常見的操作任務。
![]()
RobOmni部分測試任務
▎AI科技評論:除了成功率之外,還有沒有其他評判維度?
王煜:機器人精細操作的評判,第一是操作能力,可用成功率衡量;第二是任務的復雜性,比如使用工具、完成精細動作(如插一個物件);第三是穩定性,能否排除周圍干擾;第四是任務時長,能否完成長時序的系列任務;第五是泛化能力,能否從一個任務遷移到另一個任務。目前行業還沒有建立起一套最有代表性的標準任務體系。
▎AI科技評論:我看到Robomni目前主要是基于仿真環境,為什么是仿真呢?
王煜:仿真是最基礎的解決方法,既能提供規模化的驗證環境,也能快速有效地生成不同場景、不同情況的數據,用于預訓練。預訓練需要大批量數據,仿真數據成本低,是機器人訓練尤其是預訓練的最基本環節。現在模型訓練一般分為三個階段:仿真數據預訓練、真實數據微調、強化學習,這種方式在效率和成本上最有效。
▎AI科技評論:那到了什么階段可以用真機去評測?
王煜:前期用仿真生成數據做預訓練,再用真實數據進行微調,我們的數據集就是用于這一步,它能快速讓模型獲得很強的能力。目前行業普遍認為預訓練問題不大,最關鍵的是微調階段,尤其是包含觸覺信息的真實數據。
微調完成后,最后一步一般用強化學習,這時候可能會用到真機操作,因此RobOmni也部署了真機驗證。英偉達提出的設想是,最后強化學習的真機數據只占 1% 的訓練時間,這部分成本如果能降得更低,整體效率會更高。
現在操作學習的三步跳框架,借鑒了 ChatGPT 3.0 到 5.0 的大框架,大語言模型從語言文字打通了路徑,我們要在物理世界打通這條路。
▎AI科技評論:就是從VLM到VLA的路線嗎?
王煜:VLA、VLM 的路線,都是同一條思路,目前進展也很明顯。同時現在也融入了世界模型,操作數據和物理量在模型中的重要性被提到了更高的位置——不再以文字和語言作為最主要的核心信息,而是以操作模型建立后的物理量為核心,包括物體的位移、速度,更重要的是力,以及操作器施加在被操作物體上的力,最終讓外部物體達到預期狀態。這比機器人自我表現(如翻跟斗)更難,但物理世界模型、physical AI的融入,能真正給機器人帶來價值。
02
真實人本操作的豐富觸覺信息,
或許能帶來涌現時刻
▎AI科技評論:當前具身智能行業最大的瓶頸還是在數據嗎?
王煜:確實需要很多數據,因此戴盟4月份也發布了一個含觸覺的全模態物理世界具身數據集Daimon-Infinity,并且持續向市場提供 human centric 的數據采集工具和系統,包括外骨骼、UMI、Ego,以及集成的觸覺傳感器,還有配套的數據處理軟件系統。我們走開源的路子,聯合企業、科研單位、學校建立生態圈,明確數據采集標準,共享整理好的數據,供大家訓練模型,以此擴大數據集規模,推動生態圈發展。
▎AI科技評論:戴盟說今年內能達到百萬小時數據,依據是什么呢?
王煜:現在我們客戶的需求很大,要服務好生態內的各類客戶和科研單位,就需要達到很高的量級。所以,我們構建了外發式采集網絡,采集工具靈活簡單,科研人員在實驗室里可以參與采集,普通人在家庭、制造、物流等場景也能完成采集。最近我們還與中國移動達成合作,將依托數十萬線下網點,搭建覆蓋全國的數采網絡。這套模式成本低,效率高,不受空間場景限制,可以帶來數據量的飛速增長。
▎AI科技評論:為什么不同的廠商都在開發自己的數采設備?設備的重要性體現在哪里?
王煜:最重要的是明確自身目標。我們走 human centric 的數據路線,并且加入了多視野數據、包含接觸狀態和手指形變的觸覺信息。
現在行業還沒有徹底認識到形變的作用,剛體機械手無法適應靈巧操作的需求,這也是過去幾十年手做不好的原因。將人手操作的生理學、神經學知識落地到人形機器人的靈巧手操作上,是很有價值的科學問題。
▎AI科技評論:就像拿杯子的時候不僅要有按壓的觸覺,還要有滑覺。
王煜:這些生理學和神經學領域已經研究得很清楚,操作能力是非常復雜的。
▎AI科技評論:在你們看來,數據和硬件綁定有多深?
王煜:數據采集硬件決定了數據是否包含操作中最重要的因素,比如沒有觸覺傳感器就無法獲得力的信息,觸覺傳感器的精度、感知密度以及是否包含滑動信息,都會影響數據質量。模型需要包含所有必要的因素維度,數據也要對應包含這些信息,才能訓練好模型。
同時,模型的能力需要硬件來釋放,笨拙的手無法發揮靈巧手模型的能力,這需要形成閉環。現在大部分機械手不具備人手的能力,剛體手指無法釋放基于人手豐富數據訓練的模型能力,手的結構、控制(力、位移、形變控制)需要和模型匹配。這一點目前行業討論得很少,但始終是戴盟最關注的問題。
![]()
▎AI科技評論:畢竟“觸覺”是你們的強項。
王煜:我們團隊從機器人操作出發,對觸覺感知、機械等方面都有比較豐富的理解,同時也吸納了大模型等領域的優秀同事,形成了自身的長處。
▎AI科技評論:您剛剛說人手的數據會更豐富,那UMI現在還有價值嗎?
王煜:如果機器人的末端執行器是夾爪,UMI已經能提供所需的所有數據,它簡單好用,可以用來訓練夾爪的操作模型。很多時候五指操作狀態也和兩指類似,兩指的數據也能訓練這種模態的操作,但要進一步泛化到更精細的操作就不容易了。
▎AI科技評論:之前Generalist發布的Gen1,用的就是UMI的數據,已經發現有涌現的現象了。
王煜:對,這就是做模型的最重視的,能不能涌現出來。
▎AI科技評論:那觸覺數據會不會也會隨著數據量越多,發現訓練模型需要的數據越少?
王煜:是有可能的。目前虛擬環境中對觸覺的模擬還比較淺,模型預訓練階段在觸覺方面比較欠缺;我們做的仿真平臺,模擬盡可能多的觸覺模態,彌補觸覺仿真的不足。而真實觸覺數據對微調階段很關鍵,真實人本操作數據中觸覺信息的豐富度和全面性很高,這些真實操作的豐富觸覺數據對模型建立有很大幫助。
▎AI科技評論:你們之前發布了一個數據集,哪些客戶對它比較感興趣?
王煜:首先我們是開源的,通過建立生態群讓大家共享數據,推動生態圈發展。
其次是做模型的企業,他們有專一的需求,會找我們提出特定要求,我們會通過商業化運作或聯合生態圈合作伙伴,專門采集滿足其需求的數據。目前已經有海外客戶在深度溝通,他們對產品的要求全面細致,這也說明我們的數據有商業價值。
▎AI科技評論:觸覺數據在處理的時候會不會難度更大一點?比如說標注環節。
王煜:是的,因為觸覺信息必須和觸覺發生時的其他物理狀態(如手指位置、移動、控制指令)精準對齊。如果信息錯位,就會違背物理規律,導致模型訓練混亂。比如還沒碰到物體就有觸覺信息,或者抓握時力的信息和手指位置信息不對齊,都會讓模型無法學習到真實的物理狀態。
03
CRA,對年輕人是個好機會
▎AI科技評論:ICRA每年邀請您,您是以什么身份受邀?
王煜:我是 IEEE fellow,同時也是IEEE RAS(IEEE機器人與自動化協會)管理委員會成員,連任兩屆。ICRA和下半年的IROS都是IEEE RAS主辦的活動,因此,我們管理委員會的這12個人有而需要負責監督管理ICRA的組織與評審工作。
▎AI科技評論:今年ICRA上有沒有您覺得比較有意思的一些成果?
王煜:ICRA 有四五百篇 paper,光看 paper 不行,還要多和人交流,以及參加企業的發布會和展示。ICRA 的會議內容分不同層次:
最高層是三個 plenary talks,由行業大佬做概括性、前瞻性分享。我的好朋友 Ken Goldberg 會做第一天的第一個分享,他認為機器人操作模型還需要 10 萬年的數據量,以及如何解決這個問題,他的觀點和我們非常像。
第二層是專題 session,比如 manipulation 專題會有 6 個人做 20 分鐘的分享,內容更深入。
第三層是 5 分鐘一篇的短報告;最后是展會。今年的 ICRA 技術項目是這么多年來最豐富、最全面、覆蓋最廣的。
▎AI科技評論:很多青年學者去ICRA,你們會不會有人才招聘方面的考慮?你們目前比較需要的是哪方面的人才?
王煜:對于剛進入市場的年輕人來說,ICRA是很好的交流和獲取信息的機會。
模型、數據、軟件、硬件各個方面的頂尖人才我們都歡迎,歡迎熟手,也愿意培養新人。我們的隊伍很扎實、團結,大家開放交流,為了共同的目標討論問題,探索最有價值的技術方向。除了技術人才,也需要媒介、招聘等對接外部的人才。
▎AI科技評論:如何看待當前很多學者從學術界邁進產業界?
王煜:現在很多科創公司做的事情有很深的科研元素,在算力、資金、隊伍規模上更強,推進速度更快。學校的模式是把問題研究透徹再轉化落地,不太符合具身賽道現在的基本模式。
但人才都是從學校里出來的,學校始終是科研人才培育的根基,這也是產業無法替代的底座。其實產業界和學界一直都是技術進步的一體兩面,人才雙向流動,是這個行業積極發展的表現。
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】。
專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.