網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話它石智航丁文超：具身智能，如何邁進「2.0時代」？| ICRA 2026

2026-06-05 19:38:23　來源: AI科技評論

廣東舉報

分享至

基座模型、數(shù)據(jù)飛輪與末端執(zhí)行缺一不可。

作者丨高景輝

編輯丨馬曉寧

2026 年 6 月的維也納，ICRA展廳里擠滿了來自全球的機器人公司，三年前還在 PPT 上展示概念的具身智能，如今已經(jīng)變成了滿地跑的人形機器人。

但熱鬧之下，焦慮正在蔓延。當(dāng)下的機器人雖然能跑能跳，但依然難以進入真實場景創(chuàng)造價值，形成技術(shù)和商業(yè)的閉環(huán)，其所需要的模型、硬件和數(shù)據(jù)能力，似乎也只有為數(shù)不多的企業(yè)具備。以至于業(yè)內(nèi)的感受是，當(dāng)下大多數(shù)的具身智能，都還停留在“1.0時代”。

那么，具身智能要如何進入“2.0時代”，實現(xiàn)階段性的突破呢？

帶著這個問題，AI科技評論來到了 ICRA 2026 的現(xiàn)場，試圖從全球具身智能領(lǐng)域的頂尖學(xué)術(shù)成果和頭部企業(yè)中找到答案。

在這樣的背景下，它石智航提供了一個值得觀察的樣本。作為兩個月前剛完成中國具身智能最大單筆融資的明星企業(yè)，相比單獨展示某個demo，它石智航選擇對世界強調(diào)一套完整鏈路：從真實人類數(shù)據(jù)的采集，到模型側(cè)成果AWE 3.0，再到此次正式首秀的靈巧手，與機器人本體復(fù)雜操作的執(zhí)行。

這也讓問題進一步聚焦：人形機器人要真正創(chuàng)造價值，比的已不是單一的“長板”，而是面面俱到的全棧能力？

為了回答這個問題，AI科技評論在 ICRA 2026 現(xiàn)場與它石智航首席科學(xué)家丁文超博士進行了一次深度交流，試圖從最頂級的這批從業(yè)者口中，找到具身智能通往2.0時代的鑰匙。

具身智能進入2.0時代，

離不開工程化能力

▎AI科技評論：它石這次在ICRA上會帶來模型、靈巧手及相關(guān)數(shù)采方案，為何選擇這個時間點進行系列成果發(fā)布？

丁文超：主要有兩方面原因。第一是行業(yè)規(guī)律，物理 AI 行業(yè)中往往會在關(guān)鍵技術(shù)積累到一定階段后，迎來一波技術(shù)爆發(fā)，它石智航從成立到此次 ICRA，也基本走到了這樣一個階段，今年年中除 ICRA 外，我們還有其他成體系的對外展示規(guī)劃，技術(shù)狀態(tài)也已到位。

第二是 ICRA 是全球綜合規(guī)模、含金量和技術(shù)扎實程度都屬旗艦級的會議，受眾覆蓋大眾，業(yè)界和學(xué)術(shù)界專家學(xué)者參與度高，國內(nèi)贊助商均為頭部企業(yè)，是很好的國際化展示窗口。當(dāng)然不止是ICRA，后續(xù)幾個節(jié)點我們也有相關(guān)發(fā)布規(guī)劃。

▎AI科技評論：現(xiàn)在有人將具身智能分為1.0、2.0時代，您認為出現(xiàn)這種區(qū)分的原因是什么？兩個時代的本質(zhì)區(qū)別在哪里？

丁文超：核心是技術(shù)范式的改變。具身智能大致分為幾個階段：首先是萌芽期，2023 年初到 2024 年，行業(yè)對具身智能的落地場景和實現(xiàn)方法尚不明確，企業(yè)主要做兩件事，一是造本體，當(dāng)時涌現(xiàn)出了大量本體公司；二是智能層面方法論不明晰，出現(xiàn)了 ACT、DP 等小模型。

接著是具身智能 1.0 時代，以 2024 年為代表，VLA 范式進入具身及自動駕駛等領(lǐng)域，該范式以遙操作為核心數(shù)據(jù)采集方法，以大模型為骨干網(wǎng)絡(luò)加動作的“頭”，實現(xiàn)一定泛化能力。這一時代催生了首批“大腦”企業(yè)，大家同質(zhì)化地建設(shè)數(shù)據(jù)采集工廠、售賣機器人本體作為數(shù)采設(shè)備、訓(xùn)練 VLA 模型。但 1.0 時代存在明顯問題：一是遙操作依賴限定場景的數(shù)據(jù)獲取，無法深入千行百業(yè)；二是簡單拼接 VLM 的模型架構(gòu)并非根本解法，VLM 的泛化能力并未真正遷移到機器人上，行業(yè)對此較為失望。

2025-2026年進入具身智能2.0 時代，包括它石在內(nèi)的公司開始探索更加scalable 的數(shù)據(jù)采集方式和更通用的模型范式。2.0 時代有兩大核心特征：一是以 Human-centric/Ego-centric 為核心的數(shù)據(jù)范式爆發(fā)，2026年被稱為無本體數(shù)據(jù)采集元年；二是以World Action Model 世界動作模型為核心的模型范式爆發(fā)，其泛化性和可擴展性較上一代有明顯提升。

未來具身還會迎來 3.0 時代，當(dāng)前 2.0 時代主要在吸收預(yù)訓(xùn)練紅利，3.0 時代將引入以世界模型為驅(qū)動的后訓(xùn)練能力，讓具身智能同時具備泛化能力和場景生產(chǎn)力。每個時代都會催生新的技術(shù)范式和對應(yīng)團隊。

▎AI科技評論：部分企業(yè)仍停留在1.0時代，他們卡在哪一步？是數(shù)據(jù)問題嗎？

丁文超：短期來說是范式轉(zhuǎn)變的難度。有一個反常識的點，盡管 Human-centric/Ego-centric 理念看似深入人心，但不少人仍對此持質(zhì)疑和觀望態(tài)度。這種狀態(tài)在自動駕駛端到端技術(shù)推廣早期也出現(xiàn)過，當(dāng)時很多人質(zhì)疑其安全性、可解釋性，可能只有被市場倒逼時才會轉(zhuǎn)向。

▎AI科技評論：它石為何能快速進入2.0時代？

丁文超：核心有兩點。第一是堅持第一性原理思考，這聽上去很簡單，但其實蠻難的。在 2024 年底 VLA 和遙操作火熱時，我們就開始思考如何進一步 scale up，不受外部主流技術(shù)路線影響。

第二是極強的工程化能力，目前很多企業(yè)開始做 Human-centric/Ego-centric，但還未進入深水區(qū)，而我們2025 年就已投入大量精力迭代數(shù)采設(shè)備，從零到一設(shè)計制造了一套可穿戴數(shù)采設(shè)備SenseHub，打通了適用于無本體數(shù)據(jù)的模型訓(xùn)練和部署范式，并在本體上優(yōu)化到極致。這兩點是我們能提前布局并取得成果的關(guān)鍵。

▎AI科技評論：今年被很多人稱為具身智能商業(yè)化元年，2.0時代也很看重商業(yè)閉環(huán)能力，你們在商業(yè)化和真實場景應(yīng)用方面有哪些進展？

丁文超：具身公司容易陷入兩個極端，一是布局過多場景，分散注意力，拖慢基礎(chǔ)模型迭代速度；二是不落地，只專注刷模型，這兩種都無法形成良性循環(huán)。

其實參考大模型的商業(yè)化經(jīng)驗，大模型理論上可覆蓋千行百業(yè)，其中 ROI 最高的是 Vibe coding，而這項能力還能反向解鎖更多場景。具身智能目前也處于類似狀態(tài)，在通用模型爆發(fā)前夜，既需要保持通用模型的持續(xù)競爭力，也要聚焦核心落地場景。

我們目前聚焦線束柔性裝配場景，這個場景需要將柔性線束以毫米級精度插入孔位，完成長程連續(xù)的布線、插接及纏膠等工序，相當(dāng)于制造汽車的 “血管”。我們現(xiàn)在的商業(yè)化的進展還不錯。

而之所以選擇該場景主要有三點考量：一是單場景用工需求量大，避免了部分場景需求分散、設(shè)備用量少的問題；二是屬于柔性制造且是長程任務(wù)，技術(shù)門檻高，同質(zhì)化競爭少；三是能反向推動基礎(chǔ)模型迭代。

▎AI科技評論：上次在AWE上看到了你們的線束演示，和這次ICRA現(xiàn)場展示的有何不同？

丁文超：這次現(xiàn)場除了會展示線束子任務(wù)，還會展示多個其他任務(wù)，體現(xiàn)模型的泛化能力。和上次 AWE 展示不同，本次會展示線束長程任務(wù)，讓模型端到端連續(xù)完成多根線的抓取、插接操作，過程中可自主糾錯、自主適應(yīng)，每根線的插入精度達到亞毫米級。

如果具身智能存在 scaling law，

一定是由原生基座模型涌現(xiàn)出來的

▎AI科技評論：什么樣的模型是好的模型？

丁文超：好的模型核心特點是要足夠簡單，只有簡單的架構(gòu)才容易規(guī)模化。好模型的架構(gòu)清晰直接，但能消化各類數(shù)據(jù)。數(shù)據(jù)處理和模型部署的工程化可以復(fù)雜，但模型結(jié)構(gòu)本身要簡單直接。

對具身模型來說，這個領(lǐng)域其實沒有新鮮事。VLA 模型的本質(zhì)是大語言的 scaling law 被驗證后，行業(yè)將 VLM 的泛化能力遷移到具身領(lǐng)域的嘗試，但其核心問題是真正可規(guī)模化的部分與實際場景脫節(jié)。VLA 的訓(xùn)練數(shù)據(jù)分為兩類，一類是易規(guī)模化的傳統(tǒng)大模型數(shù)據(jù)，另一類是極少的機器人執(zhí)行任務(wù)數(shù)據(jù)，兩者嚴重不對等。所謂 VLA 的泛化能力其實是 VLM 的能力，并未真正遷移到機器人上，在全新場景中，VLA 仍需通過遙操作采集動作數(shù)據(jù)微調(diào)動作頭部才能運行。

當(dāng)前世界模型成為熱點，核心是將視頻預(yù)測模型應(yīng)用于具身智能，視頻預(yù)測模型本身具備 scaling law，相比 VLA 有兩大優(yōu)勢：一是統(tǒng)一了跨本體問題，不挑視角，能吸收來自人或機器人的各類視頻和動作數(shù)據(jù)，縮小了人與機器人任務(wù)數(shù)據(jù)的差距；二是放松了對現(xiàn)場遙操作數(shù)據(jù)的依賴。但世界模型仍是將視頻模型能力遷移到具身領(lǐng)域，并非最優(yōu)解。

目前行業(yè)頭部公司都在追求訓(xùn)練具身原生基座模型，即從數(shù)據(jù)采集到模型訓(xùn)練、預(yù)測、推理全流程貫穿語言、視覺、動作三種模態(tài)，吸收千行百業(yè)的數(shù)據(jù)。如果具身智能存在 scaling law，一定是由原生基座模型涌現(xiàn)出來的。

我們的 AWE 模型全稱是 AI World Engine，本質(zhì)是以 AI 為驅(qū)動的世界引擎。仿真器難以規(guī)模化，而用數(shù)據(jù)學(xué)習(xí)的世界模型能同時告知未來的動作和動作的后果，具備極強的可擴展性，其終局是成為具身原生基座模型。

▎AI科技評論：你們的模型相比其他世界模型和之前的VLA，在實際執(zhí)行任務(wù)時有什么優(yōu)勢？線束任務(wù)的出色效果是如何實現(xiàn)的？

丁文超：核心優(yōu)勢體現(xiàn)在數(shù)據(jù)和訓(xùn)練范式兩個點上。第一，我們的無本體采集數(shù)據(jù)質(zhì)量遠超行業(yè)平均水平。很多企業(yè)低估了數(shù)據(jù)部署到機器人上的難度和精度要求，人作為靈活的本體，需要輕量且高精度的采集設(shè)備，我們自研的數(shù)采設(shè)備能獲取高質(zhì)量的人的末端動作數(shù)據(jù)，在數(shù)據(jù)多樣性和動作精度上優(yōu)勢明顯。

第二，我們采用了獨特的技能轉(zhuǎn)換訓(xùn)練范式。預(yù)訓(xùn)練階段吸收大量人類數(shù)據(jù)后，在特定場景的后訓(xùn)練階段，我們摒棄了遙操作采集數(shù)據(jù)的方式，因為遙操作容易引入抖動等噪聲數(shù)據(jù)，純?nèi)祟悢?shù)據(jù)訓(xùn)練反而更干凈簡潔。

模型精度的提升需要全流程打磨，從數(shù)據(jù)采集、動作標簽增值、模型訓(xùn)練到部署，每個環(huán)節(jié)都存在技術(shù)難點。

▎AI科技評論：這次ICRA現(xiàn)場它石展示了亞毫米級線束操作和打包任務(wù)，這兩個任務(wù)分別有哪些技術(shù)難點？

丁文超：兩個任務(wù)的難點差異明顯。線束任務(wù)的核心難點是動作精細度要求極高，需要在操作柔性物體的同時達到亞毫米級精度。該任務(wù)對數(shù)據(jù)的穩(wěn)定性要求極高，因為模型是端到端的，數(shù)據(jù)中的瑕疵會直接映射為模型的瑕疵。

打包等其他泛化任務(wù)的精度要求為毫米級或亞厘米級，核心難點是應(yīng)對動態(tài)變化的任務(wù)場景，考驗?zāi)Ｐ偷淖灾骷m錯和自主恢復(fù)能力。這種能力只有在訓(xùn)練數(shù)據(jù)和任務(wù)的多樣性、量級達到一定程度時才會涌現(xiàn)，我們本次展示的不同任務(wù)正是針對性體現(xiàn)模型不同層面的能力，現(xiàn)場還會設(shè)置互動任務(wù)，模型可克服人為擾動完成操作。

▎AI科技評論：行業(yè)普遍擔(dān)心世界模型的幻覺問題會導(dǎo)致嚴重后果，你們是如何解決這個問題的？

丁文超：如果直接將 video prediction（視頻預(yù)測）引入世界模型，最常見的幻覺問題是穿模，比如模型視野中被抓取的物體突然消失，導(dǎo)致動作策略異常。

我們解決該問題的核心是對 3D 隱空間進行建模。現(xiàn)有世界模型普遍缺乏長時記憶，只有短時的像素到像素預(yù)測能力，而對空間的理解需要沉淀下來的長時信息。我們的模型在預(yù)訓(xùn)練階段針對性強化了空間感知建模，在模型工作空間內(nèi)基本能實現(xiàn)極強的一致性，這是 AWE 模型的特色之一。

▎AI科技評論：在真實環(huán)境中，有哪些機制能保障模型工作的安全性和可靠性？

丁文超：主要有二層保障機制。第一，訓(xùn)練模型自主從錯誤中恢復(fù)的能力，訓(xùn)練階段會特意加入相關(guān)數(shù)據(jù)進行針對性訓(xùn)練。第二，搭建完整的數(shù)據(jù)閉環(huán)體系，這也是從自動駕駛領(lǐng)域借鑒的經(jīng)驗。模型始終會犯錯，關(guān)鍵是能回收失敗案例的數(shù)據(jù)，通過快速的數(shù)據(jù)閉環(huán)挖掘正確數(shù)據(jù)和故障恢復(fù)數(shù)據(jù)，持續(xù)迭代模型。目前具身行業(yè)的數(shù)據(jù)閉環(huán)完備程度普遍低于端到端自動駕駛，我們正在加速搭建這套體系，實現(xiàn)模型安全性和可靠性的漸進式提升。

數(shù)據(jù)并非越多越好，

重點是高質(zhì)量數(shù)據(jù)

▎AI科技評論：你們很早就提出了以人為中心的數(shù)據(jù)范式，為何從一開始就押注這條路線？對于遙操作、仿真合成、UMI等其他數(shù)據(jù)采集方式您又是如何看待的？

丁文超：因為在我們的判斷中，其他方式都無法支撐通用具身基礎(chǔ)模型的規(guī)模化發(fā)展。

遙操作僅適合后訓(xùn)練，不適合預(yù)訓(xùn)練和規(guī)模化，無法走向通用具身基礎(chǔ)模型。

仿真數(shù)據(jù)僅在局部簡單任務(wù)中有價值，比如局部運動仿真，能模擬全身運動和環(huán)境的簡單接觸交互，但無法模擬真實世界的復(fù)雜交互，不具備可擴展性。

UMI更多是科研態(tài)的方案，能通過單末端完成部分任務(wù)，為規(guī)模化提供科研牽引，但并非完整的系統(tǒng)，無法真正實現(xiàn)規(guī)模化。

我們自研的數(shù)采套件綜合考慮了以上所有因素，具備三大特點：一是兼容多種采集模式，支持純頭帶、頭帶加手套、頭帶加夾爪等組合；二是所有傳感器均實現(xiàn)高精度時空同步，滿足部署態(tài)要求；三是動作精度高，配套自動化數(shù)據(jù)管線可恢復(fù)動作和場景語義，且設(shè)備便攜，能以人為中心獲取各行各業(yè)的數(shù)據(jù)。

▎AI科技評論：行業(yè)存在仿真和真機數(shù)據(jù)配比的爭論，你們是否有明確的配比？

丁文超：目前行業(yè)基本共識是用 Human-centric 數(shù)據(jù)做預(yù)訓(xùn)練，但用仿真做后訓(xùn)練并非好選擇，因為仿真器存在太多人工痕跡，適合做評測，無法支撐模型的持續(xù)自我提升。

數(shù)據(jù)配比需根據(jù)任務(wù)精度要求調(diào)整：對于線束這類精度要求極高的任務(wù)，基本采用全人類數(shù)據(jù)，因為只有人能達到對應(yīng)的精度；對于亞厘米級精度的任務(wù)，可加入部分機器人數(shù)據(jù)。理想狀態(tài)下，通用模型用 50 萬小時人類數(shù)據(jù)做預(yù)訓(xùn)練，單個任務(wù)僅需 1 小時左右的單任務(wù)數(shù)據(jù)即可完成適配。

▎AI科技評論：你們目前的數(shù)據(jù)積累進度如何？數(shù)據(jù)量增加是否會讓模型能力提升更快？

丁文超：我們?nèi)栽诔偃f小時有效數(shù)據(jù)的目標推進。排除高度重復(fù)的無效數(shù)據(jù)后，我們每日獲取的豐富多樣的有效數(shù)據(jù)規(guī)模處于行業(yè) top1。

隨著數(shù)據(jù)量增加，模型能力提升速度的確會明顯加快，這也是我們計劃在 2026 年中進行系列發(fā)布的原因，預(yù)計 2026-2027 年具身智能在操作側(cè)會取得巨大進步。

▎AI科技評論：以后會不會發(fā)現(xiàn)實際需要的數(shù)據(jù)并沒有那么多？

丁文超：數(shù)據(jù)并非越多越好。低質(zhì)量的純 ego 數(shù)據(jù)會越來越便宜、越來越平權(quán)，只能作為打底數(shù)據(jù)讓模型具備基本認知，類似大模型的通用語料。互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)并未催生出通用具身智能，也證明了純低質(zhì)量數(shù)據(jù)的局限性。

而高質(zhì)量的場景化數(shù)據(jù)價值會持續(xù)凸顯，這和大模型的發(fā)展趨勢一致，未來數(shù)據(jù)的競爭核心是高質(zhì)量數(shù)據(jù)而非數(shù)據(jù)總量。

▎AI科技評論：數(shù)據(jù)跨境和隱私安全是第三方數(shù)采公司關(guān)心的重點，您認為未來國內(nèi)外數(shù)據(jù)是否會互通？

丁文超：未來國內(nèi)外數(shù)據(jù)不互通的可能性較大，數(shù)據(jù)的流通性和場景高度相關(guān)。如果企業(yè)有海外業(yè)務(wù)，需要在當(dāng)?shù)睾弦?guī)、合法、符合隱私政策地獲取數(shù)據(jù)。

好的靈巧手要“手腦一體”，

滿足模型的部署需求

▎AI科技評論：數(shù)據(jù)與硬件存在綁定關(guān)系，這是咱們自研硬件的原因之一嗎？這次ICRA亮相的靈巧手有何特點？

丁文超：是的，很多公司低估了外采數(shù)據(jù)的難度，傳感器配置的差異會大幅降低外采數(shù)據(jù)對模型的收益。同時，硬件是產(chǎn)品交付的核心，僅提供大腦方案無法形成完整產(chǎn)品。

靈巧手從技術(shù)路線上分為低自由度（11 自由度及以下）和高自由度（典型為 21 自由度）兩類，低自由度多采用連桿式，高自由度以直驅(qū) / 準直驅(qū)為主。高自由度技術(shù)可向下兼容低自由度，反之則不行。

高自由度靈巧手又分為繩驅(qū)和準直驅(qū)兩條路線，優(yōu)勢是出力大，但一致性差，需動態(tài)調(diào)節(jié)且依賴新材料突破；我們采用準直驅(qū)方案，核心挑戰(zhàn)是精密制造，需要在極小體積內(nèi)集成 21 個自由度，同時平衡減速比、靈活性和負重，是硬件、軟件、算法的全棧挑戰(zhàn)。

目前能做到 20 自由度以上準直驅(qū)靈巧手的公司極少，同時具備高自由度靈巧手和對應(yīng)模型的公司更是屈指可數(shù)。

▎AI科技評論：在你看來，一個好的靈巧手最需要什么特質(zhì)？

丁文超：能滿足模型部署的需求。比如在實際部署時會有很多執(zhí)行的 gap，所以我們做了一些針對性設(shè)計，比如從人的 data description 里面去做統(tǒng)計，看人動作的分布，從而反向推導(dǎo)我們硬件，比如關(guān)節(jié)減速比是多少，電機的轉(zhuǎn)速是多少，所以才有了這樣1:1的設(shè)計。

就像 locomotion 領(lǐng)域越做越類人一樣，要考慮人的很多的質(zhì)量、慣量、運動習(xí)慣，這樣最后硬件和數(shù)據(jù)間的 gap 才能最小。

▎AI科技評論：這次ICRA上，它石反復(fù)提到DexHand不是單純的末端執(zhí)行器，而是一只“有腦子的手”。這個“有腦子”具體體現(xiàn)在哪里？

丁文超：我們理解的靈巧手，不應(yīng)該只是一個能張合、能抓取的硬件。真正進入具身智能階段后，手需要和數(shù)據(jù)、模型、物理世界連接起來，才能從“會運動”走向“會操作”。

DexHand的“有腦子”，首先體現(xiàn)在它接入了AWE 3.0 通用具身大模型。也就是說，靈巧手不是孤立執(zhí)行指令，而是能夠在模型的感知、理解和決策下，結(jié)合當(dāng)前任務(wù)和接觸狀態(tài)調(diào)整動作。它背后是一套從Human-centric數(shù)據(jù)采集、AWE模型理解，到DexHand物理執(zhí)行的手腦一體閉環(huán)。

▎AI科技評論：高自由度靈巧手在線束等任務(wù)中有哪些獨特優(yōu)勢？最后一厘米的問題是如何突破的？

丁文超：高自由度靈巧手能大幅提升任務(wù)執(zhí)行效率，統(tǒng)計顯示，用靈巧手完成任務(wù)的速度是夾爪的 3 倍，能顯著提升生產(chǎn)效率。同時，靈巧手作為統(tǒng)一末端執(zhí)行器，可以完成夾爪無法實現(xiàn)的復(fù)雜操作，避免了針對不同任務(wù)設(shè)計專用末端的問題，具備極強的硬件泛化性。

我們將靈巧手設(shè)計為 21 自由度，是因為21 自由度為硬件可承受極限內(nèi)最貼近人手的配置，能最大化提升抓取和操作的泛化能力。

▎AI科技評論：你們對靈巧手做了大量摩擦測試，這些測試對產(chǎn)線部署有什么幫助？

丁文超：摩擦測試主要覆蓋兩個層面的耐久度驗證。第一是關(guān)節(jié)耐久度，早期高自由度靈巧手普遍存在電機易燒毀的問題，關(guān)節(jié)故障會導(dǎo)致算法迭代速度大幅變慢，我們針對性優(yōu)化了關(guān)節(jié)設(shè)計，保證其持續(xù)穩(wěn)定運行。第二是指尖耐久度，靈巧手的觸覺硅膠指尖易磨損，我們發(fā)布過大型觸覺數(shù)據(jù)集，深知觸覺傳感器磨損對數(shù)據(jù)采集和模型性能的影響，因此對指尖材料和結(jié)構(gòu)做了大量測試和優(yōu)化。

▎AI科技評論：主要部署在哪些場景？

丁文超：像很多需要非常精細的場景，如電線纏膠等長程任務(wù)，這樣只需更換末端就能勝任。所以靈巧手就是一個很好的選擇。

▎AI科技評論：你們的靈巧手開放預(yù)訂了嗎？價格怎么樣？

丁文超：確實有很多客戶想要預(yù)訂，ICRA現(xiàn)場也一直都有人來問我們什么時候賣，賣多少錢（笑）。不過我們希望先把它迭代到一個非常穩(wěn)定的工程化水平，再對外集中公布這些信息。

TacForeSight

將模型從被動修正升級為主動預(yù)判

▎AI科技評論：這次ICRA會發(fā)布的TacForeSight成果，其創(chuàng)新點在哪里？

丁文超：TacForeSight是我們年初觸覺世界模型及數(shù)據(jù)集工作的延續(xù)。靈巧操作的本質(zhì)是通過接觸改變世界，接觸是核心，而觸覺是唯一能直接感知接觸的模態(tài)。我們此前的工作證明，觸覺與視覺融合的世界模型能實現(xiàn)高頻的動作微調(diào)，比純視覺環(huán)路的修正更直接、更快。

TacForeSight的核心創(chuàng)新是將模型從被動修正升級為主動預(yù)判。此前的模型只能在出現(xiàn)滑動、偏移等問題后被動修正，而基于視觸覺世界模型，我們的模型能提前預(yù)判潛在問題并主動微調(diào)動作。比如抓取滑的物體時提前加大力度，在光滑地面行走時提前收力，操作姿態(tài)不佳時提前調(diào)整。

基于該技術(shù)，我們實現(xiàn)了柔順刷卡、精細試管操作、動態(tài)擦花瓶等演示，未來可應(yīng)用于拋光打磨、洗車等所有與接觸相關(guān)的場景。我們認為觸覺是未來靈巧操作的核心，會持續(xù)深化相關(guān)研究。

▎AI科技評論：演示的任務(wù)設(shè)計有哪些考量？我們看到成功率超過80%，這在行業(yè)里處于什么水準？

丁文超：我們希望任務(wù)盡可能多一些，也更貼近于生活的實際場景。這個成功率在觸覺的 paper 里，應(yīng)該是 SOTA。

▎AI科技評論：具體到場景，這個工作有什么應(yīng)用？

丁文超：將來有一些柔性的、高精度的這種操作，是非常需要觸覺的，因為視覺的反應(yīng)頻率只有30赫茲或60赫茲，但是你會發(fā)現(xiàn)你做非常精細的 manipulation 的時候，你要的反應(yīng)頻率就需要上百赫茲，而觸覺是唯一一個在末端能夠提供這么高頻反饋的模態(tài)。

▎AI科技評論：這次ICRA它石還有哪些入選成果可以分享？未來的重點工作是什么？

丁文超：還有一項關(guān)于空間感知與動作策略融合的成果。現(xiàn)有模型對視角變化非常敏感，如果采集數(shù)據(jù)的視角有 30 度擾動時，操作成功率會下降。我們將空間基礎(chǔ)模型融入動作策略，讓模型具備新視角的假想能力，大幅提升了視角變化下的操作成功率。

未來我們的核心工作有兩點：第一是持續(xù)推進規(guī)模化，深化數(shù)據(jù)和模型的打磨，放大 scaling 效應(yīng)；第二是打穿垂直場景，以線束場景為核心，逐步拓展更多場景。隨著模型泛化能力的提升，新場景的工程化周期會大幅縮短。

▎AI科技評論：我們看到ICRA現(xiàn)場有不少國內(nèi)的年輕學(xué)者，它石和學(xué)術(shù)界有什么合作嗎？

丁文超：我們今年ICRA發(fā)表了9篇paper，數(shù)量也是在具身企業(yè)中名列前茅；并且和清華、交大、復(fù)旦都有人才合作項目，未來肯定會再擴展到其他高校。今年 ICRA 我們還舉辦了人才晚宴，吸引各個學(xué)校的最 top 的學(xué)生。

▎AI科技評論：最后聊聊行業(yè)，您認為阻礙具身智能商業(yè)化落地的最大因素是什么？

丁文超：核心瓶頸是模型的泛化性和吞吐率，吞吐率等于成功率乘以任務(wù)完成效率，這兩個指標決定了機器人能否替代人工產(chǎn)生實際生產(chǎn)力。

▎AI科技評論：明年具身智能行業(yè)可能出現(xiàn)哪些變化？

丁文超：第一，機器人的操作能力會取得重大突破，核心體現(xiàn)為 Zero-Shot 和 Few-Shot 能力的提升，在新場景中能快速展示出基礎(chǔ)能力。第二，行業(yè)競爭烈度會大幅上升，兩極分化加劇，規(guī)模化需要更大的資金投入和決心，頭部效應(yīng)會越來越明顯。

▎AI科技評論：假如未來具身智能進入3.0時代，需要達到什么標準？

丁文超：2.0時代的核心是泛化，能在新場景達到80% 左右的成功率；3.0時代的核心是機器人能在多個不局限于單一領(lǐng)域的任務(wù)中，表現(xiàn)出超過人類的能力，雖未達到物理 AGI，但在多個細分任務(wù)上具備顯著優(yōu)勢。

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨，雷峰網(wǎng)已全面上線【ICRA 2026 深度專區(qū)】。

專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續(xù)更新前方記者的第一手會議動態(tài)。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.