![]()
基座模型、數(shù)據(jù)飛輪與末端執(zhí)行缺一不可。
作者丨高景輝
編輯丨馬曉寧
2026 年 6 月的維也納,ICRA展廳里擠滿了來自全球的機器人公司,三年前還在 PPT 上展示概念的具身智能,如今已經(jīng)變成了滿地跑的人形機器人。
但熱鬧之下,焦慮正在蔓延。當(dāng)下的機器人雖然能跑能跳,但依然難以進入真實場景創(chuàng)造價值,形成技術(shù)和商業(yè)的閉環(huán),其所需要的模型、硬件和數(shù)據(jù)能力,似乎也只有為數(shù)不多的企業(yè)具備。以至于業(yè)內(nèi)的感受是,當(dāng)下大多數(shù)的具身智能,都還停留在“1.0時代”。
那么,具身智能要如何進入“2.0時代”,實現(xiàn)階段性的突破呢?
帶著這個問題,AI科技評論來到了 ICRA 2026 的現(xiàn)場,試圖從全球具身智能領(lǐng)域的頂尖學(xué)術(shù)成果和頭部企業(yè)中找到答案。
在這樣的背景下,它石智航提供了一個值得觀察的樣本。作為兩個月前剛完成中國具身智能最大單筆融資的明星企業(yè),相比單獨展示某個demo,它石智航選擇對世界強調(diào)一套完整鏈路:從真實人類數(shù)據(jù)的采集,到模型側(cè)成果AWE 3.0,再到此次正式首秀的靈巧手,與機器人本體復(fù)雜操作的執(zhí)行。
這也讓問題進一步聚焦:人形機器人要真正創(chuàng)造價值,比的已不是單一的“長板”,而是面面俱到的全棧能力?
為了回答這個問題,AI科技評論在 ICRA 2026 現(xiàn)場與它石智航首席科學(xué)家丁文超博士進行了一次深度交流,試圖從最頂級的這批從業(yè)者口中,找到具身智能通往2.0時代的鑰匙。
![]()
01
具身智能進入2.0時代,
離不開工程化能力
▎AI科技評論:它石這次在ICRA上會帶來模型、靈巧手及相關(guān)數(shù)采方案,為何選擇這個時間點進行系列成果發(fā)布?
丁文超:主要有兩方面原因。第一是行業(yè)規(guī)律,物理 AI 行業(yè)中往往會在關(guān)鍵技術(shù)積累到一定階段后,迎來一波技術(shù)爆發(fā),它石智航從成立到此次 ICRA,也基本走到了這樣一個階段,今年年中除 ICRA 外,我們還有其他成體系的對外展示規(guī)劃,技術(shù)狀態(tài)也已到位。
第二是 ICRA 是全球綜合規(guī)模、含金量和技術(shù)扎實程度都屬旗艦級的會議,受眾覆蓋大眾,業(yè)界和學(xué)術(shù)界專家學(xué)者參與度高,國內(nèi)贊助商均為頭部企業(yè),是很好的國際化展示窗口。當(dāng)然不止是ICRA,后續(xù)幾個節(jié)點我們也有相關(guān)發(fā)布規(guī)劃。
▎AI科技評論:現(xiàn)在有人將具身智能分為1.0、2.0時代,您認為出現(xiàn)這種區(qū)分的原因是什么?兩個時代的本質(zhì)區(qū)別在哪里?
丁文超:核心是技術(shù)范式的改變。具身智能大致分為幾個階段:首先是萌芽期,2023 年初到 2024 年,行業(yè)對具身智能的落地場景和實現(xiàn)方法尚不明確,企業(yè)主要做兩件事,一是造本體,當(dāng)時涌現(xiàn)出了大量本體公司;二是智能層面方法論不明晰,出現(xiàn)了 ACT、DP 等小模型。
接著是具身智能 1.0 時代,以 2024 年為代表,VLA 范式進入具身及自動駕駛等領(lǐng)域,該范式以遙操作為核心數(shù)據(jù)采集方法,以大模型為骨干網(wǎng)絡(luò)加動作的“頭”,實現(xiàn)一定泛化能力。這一時代催生了首批“大腦”企業(yè),大家同質(zhì)化地建設(shè)數(shù)據(jù)采集工廠、售賣機器人本體作為數(shù)采設(shè)備、訓(xùn)練 VLA 模型。但 1.0 時代存在明顯問題:一是遙操作依賴限定場景的數(shù)據(jù)獲取,無法深入千行百業(yè);二是簡單拼接 VLM 的模型架構(gòu)并非根本解法,VLM 的泛化能力并未真正遷移到機器人上,行業(yè)對此較為失望。
2025-2026年進入具身智能2.0 時代,包括它石在內(nèi)的公司開始探索更加scalable 的數(shù)據(jù)采集方式和更通用的模型范式。2.0 時代有兩大核心特征:一是以 Human-centric/Ego-centric 為核心的數(shù)據(jù)范式爆發(fā),2026年被稱為無本體數(shù)據(jù)采集元年;二是以World Action Model 世界動作模型為核心的模型范式爆發(fā),其泛化性和可擴展性較上一代有明顯提升。
未來具身還會迎來 3.0 時代,當(dāng)前 2.0 時代主要在吸收預(yù)訓(xùn)練紅利,3.0 時代將引入以世界模型為驅(qū)動的后訓(xùn)練能力,讓具身智能同時具備泛化能力和場景生產(chǎn)力。每個時代都會催生新的技術(shù)范式和對應(yīng)團隊。
▎AI科技評論:部分企業(yè)仍停留在1.0時代,他們卡在哪一步?是數(shù)據(jù)問題嗎?
丁文超:短期來說是范式轉(zhuǎn)變的難度。有一個反常識的點,盡管 Human-centric/Ego-centric 理念看似深入人心,但不少人仍對此持質(zhì)疑和觀望態(tài)度。這種狀態(tài)在自動駕駛端到端技術(shù)推廣早期也出現(xiàn)過,當(dāng)時很多人質(zhì)疑其安全性、可解釋性,可能只有被市場倒逼時才會轉(zhuǎn)向。
▎AI科技評論:它石為何能快速進入2.0時代?
丁文超:核心有兩點。第一是堅持第一性原理思考,這聽上去很簡單,但其實蠻難的。在 2024 年底 VLA 和遙操作火熱時,我們就開始思考如何進一步 scale up,不受外部主流技術(shù)路線影響。
第二是極強的工程化能力,目前很多企業(yè)開始做 Human-centric/Ego-centric,但還未進入深水區(qū),而我們2025 年就已投入大量精力迭代數(shù)采設(shè)備,從零到一設(shè)計制造了一套可穿戴數(shù)采設(shè)備SenseHub,打通了適用于無本體數(shù)據(jù)的模型訓(xùn)練和部署范式,并在本體上優(yōu)化到極致。這兩點是我們能提前布局并取得成果的關(guān)鍵。
▎AI科技評論:今年被很多人稱為具身智能商業(yè)化元年,2.0時代也很看重商業(yè)閉環(huán)能力,你們在商業(yè)化和真實場景應(yīng)用方面有哪些進展?
丁文超:具身公司容易陷入兩個極端,一是布局過多場景,分散注意力,拖慢基礎(chǔ)模型迭代速度;二是不落地,只專注刷模型,這兩種都無法形成良性循環(huán)。
其實參考大模型的商業(yè)化經(jīng)驗,大模型理論上可覆蓋千行百業(yè),其中 ROI 最高的是 Vibe coding,而這項能力還能反向解鎖更多場景。具身智能目前也處于類似狀態(tài),在通用模型爆發(fā)前夜,既需要保持通用模型的持續(xù)競爭力,也要聚焦核心落地場景。
我們目前聚焦線束柔性裝配場景,這個場景需要將柔性線束以毫米級精度插入孔位,完成長程連續(xù)的布線、插接及纏膠等工序,相當(dāng)于制造汽車的 “血管”。我們現(xiàn)在的商業(yè)化的進展還不錯。
而之所以選擇該場景主要有三點考量:一是單場景用工需求量大,避免了部分場景需求分散、設(shè)備用量少的問題;二是屬于柔性制造且是長程任務(wù),技術(shù)門檻高,同質(zhì)化競爭少;三是能反向推動基礎(chǔ)模型迭代。
▎AI科技評論:上次在AWE上看到了你們的線束演示,和這次ICRA現(xiàn)場展示的有何不同?
丁文超:這次現(xiàn)場除了會展示線束子任務(wù),還會展示多個其他任務(wù),體現(xiàn)模型的泛化能力。和上次 AWE 展示不同,本次會展示線束長程任務(wù),讓模型端到端連續(xù)完成多根線的抓取、插接操作,過程中可自主糾錯、自主適應(yīng),每根線的插入精度達到亞毫米級。
![]()
02
如果具身智能存在 scaling law,
一定是由原生基座模型涌現(xiàn)出來的
▎AI科技評論:什么樣的模型是好的模型?
丁文超:好的模型核心特點是要足夠簡單,只有簡單的架構(gòu)才容易規(guī)模化。好模型的架構(gòu)清晰直接,但能消化各類數(shù)據(jù)。數(shù)據(jù)處理和模型部署的工程化可以復(fù)雜,但模型結(jié)構(gòu)本身要簡單直接。
對具身模型來說,這個領(lǐng)域其實沒有新鮮事。VLA 模型的本質(zhì)是大語言的 scaling law 被驗證后,行業(yè)將 VLM 的泛化能力遷移到具身領(lǐng)域的嘗試,但其核心問題是真正可規(guī)模化的部分與實際場景脫節(jié)。VLA 的訓(xùn)練數(shù)據(jù)分為兩類,一類是易規(guī)模化的傳統(tǒng)大模型數(shù)據(jù),另一類是極少的機器人執(zhí)行任務(wù)數(shù)據(jù),兩者嚴重不對等。所謂 VLA 的泛化能力其實是 VLM 的能力,并未真正遷移到機器人上,在全新場景中,VLA 仍需通過遙操作采集動作數(shù)據(jù)微調(diào)動作頭部才能運行。
當(dāng)前世界模型成為熱點,核心是將視頻預(yù)測模型應(yīng)用于具身智能,視頻預(yù)測模型本身具備 scaling law,相比 VLA 有兩大優(yōu)勢:一是統(tǒng)一了跨本體問題,不挑視角,能吸收來自人或機器人的各類視頻和動作數(shù)據(jù),縮小了人與機器人任務(wù)數(shù)據(jù)的差距;二是放松了對現(xiàn)場遙操作數(shù)據(jù)的依賴。但世界模型仍是將視頻模型能力遷移到具身領(lǐng)域,并非最優(yōu)解。
目前行業(yè)頭部公司都在追求訓(xùn)練具身原生基座模型,即從數(shù)據(jù)采集到模型訓(xùn)練、預(yù)測、推理全流程貫穿語言、視覺、動作三種模態(tài),吸收千行百業(yè)的數(shù)據(jù)。如果具身智能存在 scaling law,一定是由原生基座模型涌現(xiàn)出來的。
我們的 AWE 模型全稱是 AI World Engine,本質(zhì)是以 AI 為驅(qū)動的世界引擎。仿真器難以規(guī)模化,而用數(shù)據(jù)學(xué)習(xí)的世界模型能同時告知未來的動作和動作的后果,具備極強的可擴展性,其終局是成為具身原生基座模型。
▎AI科技評論:你們的模型相比其他世界模型和之前的VLA,在實際執(zhí)行任務(wù)時有什么優(yōu)勢?線束任務(wù)的出色效果是如何實現(xiàn)的?
丁文超:核心優(yōu)勢體現(xiàn)在數(shù)據(jù)和訓(xùn)練范式兩個點上。第一,我們的無本體采集數(shù)據(jù)質(zhì)量遠超行業(yè)平均水平。很多企業(yè)低估了數(shù)據(jù)部署到機器人上的難度和精度要求,人作為靈活的本體,需要輕量且高精度的采集設(shè)備,我們自研的數(shù)采設(shè)備能獲取高質(zhì)量的人的末端動作數(shù)據(jù),在數(shù)據(jù)多樣性和動作精度上優(yōu)勢明顯。
第二,我們采用了獨特的技能轉(zhuǎn)換訓(xùn)練范式。預(yù)訓(xùn)練階段吸收大量人類數(shù)據(jù)后,在特定場景的后訓(xùn)練階段,我們摒棄了遙操作采集數(shù)據(jù)的方式,因為遙操作容易引入抖動等噪聲數(shù)據(jù),純?nèi)祟悢?shù)據(jù)訓(xùn)練反而更干凈簡潔。
模型精度的提升需要全流程打磨,從數(shù)據(jù)采集、動作標簽增值、模型訓(xùn)練到部署,每個環(huán)節(jié)都存在技術(shù)難點。
▎AI科技評論:這次ICRA現(xiàn)場它石展示了亞毫米級線束操作和打包任務(wù),這兩個任務(wù)分別有哪些技術(shù)難點?
丁文超:兩個任務(wù)的難點差異明顯。線束任務(wù)的核心難點是動作精細度要求極高,需要在操作柔性物體的同時達到亞毫米級精度。該任務(wù)對數(shù)據(jù)的穩(wěn)定性要求極高,因為模型是端到端的,數(shù)據(jù)中的瑕疵會直接映射為模型的瑕疵。
打包等其他泛化任務(wù)的精度要求為毫米級或亞厘米級,核心難點是應(yīng)對動態(tài)變化的任務(wù)場景,考驗?zāi)P偷淖灾骷m錯和自主恢復(fù)能力。這種能力只有在訓(xùn)練數(shù)據(jù)和任務(wù)的多樣性、量級達到一定程度時才會涌現(xiàn),我們本次展示的不同任務(wù)正是針對性體現(xiàn)模型不同層面的能力,現(xiàn)場還會設(shè)置互動任務(wù),模型可克服人為擾動完成操作。
![]()
▎AI科技評論:行業(yè)普遍擔(dān)心世界模型的幻覺問題會導(dǎo)致嚴重后果,你們是如何解決這個問題的?
丁文超:如果直接將 video prediction(視頻預(yù)測)引入世界模型,最常見的幻覺問題是穿模,比如模型視野中被抓取的物體突然消失,導(dǎo)致動作策略異常。
我們解決該問題的核心是對 3D 隱空間進行建模。現(xiàn)有世界模型普遍缺乏長時記憶,只有短時的像素到像素預(yù)測能力,而對空間的理解需要沉淀下來的長時信息。我們的模型在預(yù)訓(xùn)練階段針對性強化了空間感知建模,在模型工作空間內(nèi)基本能實現(xiàn)極強的一致性,這是 AWE 模型的特色之一。
▎AI科技評論:在真實環(huán)境中,有哪些機制能保障模型工作的安全性和可靠性?
丁文超:主要有二層保障機制。第一,訓(xùn)練模型自主從錯誤中恢復(fù)的能力,訓(xùn)練階段會特意加入相關(guān)數(shù)據(jù)進行針對性訓(xùn)練。第二,搭建完整的數(shù)據(jù)閉環(huán)體系,這也是從自動駕駛領(lǐng)域借鑒的經(jīng)驗。模型始終會犯錯,關(guān)鍵是能回收失敗案例的數(shù)據(jù),通過快速的數(shù)據(jù)閉環(huán)挖掘正確數(shù)據(jù)和故障恢復(fù)數(shù)據(jù),持續(xù)迭代模型。目前具身行業(yè)的數(shù)據(jù)閉環(huán)完備程度普遍低于端到端自動駕駛,我們正在加速搭建這套體系,實現(xiàn)模型安全性和可靠性的漸進式提升。
03
數(shù)據(jù)并非越多越好,
重點是高質(zhì)量數(shù)據(jù)
▎AI科技評論:你們很早就提出了以人為中心的數(shù)據(jù)范式,為何從一開始就押注這條路線?對于遙操作、仿真合成、UMI等其他數(shù)據(jù)采集方式您又是如何看待的?
丁文超:因為在我們的判斷中,其他方式都無法支撐通用具身基礎(chǔ)模型的規(guī)模化發(fā)展。
遙操作僅適合后訓(xùn)練,不適合預(yù)訓(xùn)練和規(guī)模化,無法走向通用具身基礎(chǔ)模型。
仿真數(shù)據(jù)僅在局部簡單任務(wù)中有價值,比如局部運動仿真,能模擬全身運動和環(huán)境的簡單接觸交互,但無法模擬真實世界的復(fù)雜交互,不具備可擴展性。
UMI更多是科研態(tài)的方案,能通過單末端完成部分任務(wù),為規(guī)模化提供科研牽引,但并非完整的系統(tǒng),無法真正實現(xiàn)規(guī)模化。
我們自研的數(shù)采套件綜合考慮了以上所有因素,具備三大特點:一是兼容多種采集模式,支持純頭帶、頭帶加手套、頭帶加夾爪等組合;二是所有傳感器均實現(xiàn)高精度時空同步,滿足部署態(tài)要求;三是動作精度高,配套自動化數(shù)據(jù)管線可恢復(fù)動作和場景語義,且設(shè)備便攜,能以人為中心獲取各行各業(yè)的數(shù)據(jù)。
![]()
▎AI科技評論:行業(yè)存在仿真和真機數(shù)據(jù)配比的爭論,你們是否有明確的配比?
丁文超:目前行業(yè)基本共識是用 Human-centric 數(shù)據(jù)做預(yù)訓(xùn)練,但用仿真做后訓(xùn)練并非好選擇,因為仿真器存在太多人工痕跡,適合做評測,無法支撐模型的持續(xù)自我提升。
數(shù)據(jù)配比需根據(jù)任務(wù)精度要求調(diào)整:對于線束這類精度要求極高的任務(wù),基本采用全人類數(shù)據(jù),因為只有人能達到對應(yīng)的精度;對于亞厘米級精度的任務(wù),可加入部分機器人數(shù)據(jù)。理想狀態(tài)下,通用模型用 50 萬小時人類數(shù)據(jù)做預(yù)訓(xùn)練,單個任務(wù)僅需 1 小時左右的單任務(wù)數(shù)據(jù)即可完成適配。
▎AI科技評論:你們目前的數(shù)據(jù)積累進度如何?數(shù)據(jù)量增加是否會讓模型能力提升更快?
丁文超:我們?nèi)栽诔偃f小時有效數(shù)據(jù)的目標推進。排除高度重復(fù)的無效數(shù)據(jù)后,我們每日獲取的豐富多樣的有效數(shù)據(jù)規(guī)模處于行業(yè) top1。
隨著數(shù)據(jù)量增加,模型能力提升速度的確會明顯加快,這也是我們計劃在 2026 年中進行系列發(fā)布的原因,預(yù)計 2026-2027 年具身智能在操作側(cè)會取得巨大進步。
▎AI科技評論:以后會不會發(fā)現(xiàn)實際需要的數(shù)據(jù)并沒有那么多?
丁文超:數(shù)據(jù)并非越多越好。低質(zhì)量的純 ego 數(shù)據(jù)會越來越便宜、越來越平權(quán),只能作為打底數(shù)據(jù)讓模型具備基本認知,類似大模型的通用語料。互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)并未催生出通用具身智能,也證明了純低質(zhì)量數(shù)據(jù)的局限性。
而高質(zhì)量的場景化數(shù)據(jù)價值會持續(xù)凸顯,這和大模型的發(fā)展趨勢一致,未來數(shù)據(jù)的競爭核心是高質(zhì)量數(shù)據(jù)而非數(shù)據(jù)總量。
▎AI科技評論:數(shù)據(jù)跨境和隱私安全是第三方數(shù)采公司關(guān)心的重點,您認為未來國內(nèi)外數(shù)據(jù)是否會互通?
丁文超:未來國內(nèi)外數(shù)據(jù)不互通的可能性較大,數(shù)據(jù)的流通性和場景高度相關(guān)。如果企業(yè)有海外業(yè)務(wù),需要在當(dāng)?shù)睾弦?guī)、合法、符合隱私政策地獲取數(shù)據(jù)。
04
好的靈巧手要“手腦一體”,
滿足模型的部署需求
▎AI科技評論:數(shù)據(jù)與硬件存在綁定關(guān)系,這是咱們自研硬件的原因之一嗎?這次ICRA亮相的靈巧手有何特點?
丁文超:是的,很多公司低估了外采數(shù)據(jù)的難度,傳感器配置的差異會大幅降低外采數(shù)據(jù)對模型的收益。同時,硬件是產(chǎn)品交付的核心,僅提供大腦方案無法形成完整產(chǎn)品。
靈巧手從技術(shù)路線上分為低自由度(11 自由度及以下)和高自由度(典型為 21 自由度)兩類,低自由度多采用連桿式,高自由度以直驅(qū) / 準直驅(qū)為主。高自由度技術(shù)可向下兼容低自由度,反之則不行。
高自由度靈巧手又分為繩驅(qū)和準直驅(qū)兩條路線,優(yōu)勢是出力大,但一致性差,需動態(tài)調(diào)節(jié)且依賴新材料突破;我們采用準直驅(qū)方案,核心挑戰(zhàn)是精密制造,需要在極小體積內(nèi)集成 21 個自由度,同時平衡減速比、靈活性和負重,是硬件、軟件、算法的全棧挑戰(zhàn)。
目前能做到 20 自由度以上準直驅(qū)靈巧手的公司極少,同時具備高自由度靈巧手和對應(yīng)模型的公司更是屈指可數(shù)。
▎AI科技評論:在你看來,一個好的靈巧手最需要什么特質(zhì)?
丁文超:能滿足模型部署的需求。比如在實際部署時會有很多執(zhí)行的 gap,所以我們做了一些針對性設(shè)計,比如從人的 data description 里面去做統(tǒng)計,看人動作的分布,從而反向推導(dǎo)我們硬件,比如關(guān)節(jié)減速比是多少,電機的轉(zhuǎn)速是多少,所以才有了這樣1:1的設(shè)計。
就像 locomotion 領(lǐng)域越做越類人一樣,要考慮人的很多的質(zhì)量、慣量、運動習(xí)慣,這樣最后硬件和數(shù)據(jù)間的 gap 才能最小。
▎AI科技評論:這次ICRA上,它石反復(fù)提到DexHand不是單純的末端執(zhí)行器,而是一只“有腦子的手”。這個“有腦子”具體體現(xiàn)在哪里?
丁文超:我們理解的靈巧手,不應(yīng)該只是一個能張合、能抓取的硬件。真正進入具身智能階段后,手需要和數(shù)據(jù)、模型、物理世界連接起來,才能從“會運動”走向“會操作”。
DexHand的“有腦子”,首先體現(xiàn)在它接入了AWE 3.0 通用具身大模型。也就是說,靈巧手不是孤立執(zhí)行指令,而是能夠在模型的感知、理解和決策下,結(jié)合當(dāng)前任務(wù)和接觸狀態(tài)調(diào)整動作。它背后是一套從Human-centric數(shù)據(jù)采集、AWE模型理解,到DexHand物理執(zhí)行的手腦一體閉環(huán)。
![]()
▎AI科技評論:高自由度靈巧手在線束等任務(wù)中有哪些獨特優(yōu)勢?最后一厘米的問題是如何突破的?
丁文超:高自由度靈巧手能大幅提升任務(wù)執(zhí)行效率,統(tǒng)計顯示,用靈巧手完成任務(wù)的速度是夾爪的 3 倍,能顯著提升生產(chǎn)效率。同時,靈巧手作為統(tǒng)一末端執(zhí)行器,可以完成夾爪無法實現(xiàn)的復(fù)雜操作,避免了針對不同任務(wù)設(shè)計專用末端的問題,具備極強的硬件泛化性。
我們將靈巧手設(shè)計為 21 自由度,是因為21 自由度為硬件可承受極限內(nèi)最貼近人手的配置,能最大化提升抓取和操作的泛化能力。
▎AI科技評論:你們對靈巧手做了大量摩擦測試,這些測試對產(chǎn)線部署有什么幫助?
丁文超:摩擦測試主要覆蓋兩個層面的耐久度驗證。第一是關(guān)節(jié)耐久度,早期高自由度靈巧手普遍存在電機易燒毀的問題,關(guān)節(jié)故障會導(dǎo)致算法迭代速度大幅變慢,我們針對性優(yōu)化了關(guān)節(jié)設(shè)計,保證其持續(xù)穩(wěn)定運行。第二是指尖耐久度,靈巧手的觸覺硅膠指尖易磨損,我們發(fā)布過大型觸覺數(shù)據(jù)集,深知觸覺傳感器磨損對數(shù)據(jù)采集和模型性能的影響,因此對指尖材料和結(jié)構(gòu)做了大量測試和優(yōu)化。
![]()
▎AI科技評論:主要部署在哪些場景?
丁文超:像很多需要非常精細的場景,如電線纏膠等長程任務(wù),這樣只需更換末端就能勝任。所以靈巧手就是一個很好的選擇。
▎AI科技評論:你們的靈巧手開放預(yù)訂了嗎?價格怎么樣?
丁文超:確實有很多客戶想要預(yù)訂,ICRA現(xiàn)場也一直都有人來問我們什么時候賣,賣多少錢(笑)。不過我們希望先把它迭代到一個非常穩(wěn)定的工程化水平,再對外集中公布這些信息。
05
TacForeSight
將模型從被動修正升級為主動預(yù)判
▎AI科技評論:這次ICRA會發(fā)布的TacForeSight成果,其創(chuàng)新點在哪里?
丁文超:TacForeSight是我們年初觸覺世界模型及數(shù)據(jù)集工作的延續(xù)。靈巧操作的本質(zhì)是通過接觸改變世界,接觸是核心,而觸覺是唯一能直接感知接觸的模態(tài)。我們此前的工作證明,觸覺與視覺融合的世界模型能實現(xiàn)高頻的動作微調(diào),比純視覺環(huán)路的修正更直接、更快。
TacForeSight的核心創(chuàng)新是將模型從被動修正升級為主動預(yù)判。此前的模型只能在出現(xiàn)滑動、偏移等問題后被動修正,而基于視觸覺世界模型,我們的模型能提前預(yù)判潛在問題并主動微調(diào)動作。比如抓取滑的物體時提前加大力度,在光滑地面行走時提前收力,操作姿態(tài)不佳時提前調(diào)整。
基于該技術(shù),我們實現(xiàn)了柔順刷卡、精細試管操作、動態(tài)擦花瓶等演示,未來可應(yīng)用于拋光打磨、洗車等所有與接觸相關(guān)的場景。我們認為觸覺是未來靈巧操作的核心,會持續(xù)深化相關(guān)研究。
![]()
▎AI科技評論:演示的任務(wù)設(shè)計有哪些考量?我們看到成功率超過80%,這在行業(yè)里處于什么水準?
丁文超:我們希望任務(wù)盡可能多一些,也更貼近于生活的實際場景。這個成功率在觸覺的 paper 里,應(yīng)該是 SOTA。
▎AI科技評論:具體到場景,這個工作有什么應(yīng)用?
丁文超:將來有一些柔性的、高精度的這種操作,是非常需要觸覺的,因為視覺的反應(yīng)頻率只有30赫茲或60赫茲,但是你會發(fā)現(xiàn)你做非常精細的 manipulation 的時候,你要的反應(yīng)頻率就需要上百赫茲,而觸覺是唯一一個在末端能夠提供這么高頻反饋的模態(tài)。
▎AI科技評論:這次ICRA它石還有哪些入選成果可以分享?未來的重點工作是什么?
丁文超:還有一項關(guān)于空間感知與動作策略融合的成果。現(xiàn)有模型對視角變化非常敏感,如果采集數(shù)據(jù)的視角有 30 度擾動時,操作成功率會下降。我們將空間基礎(chǔ)模型融入動作策略,讓模型具備新視角的假想能力,大幅提升了視角變化下的操作成功率。
未來我們的核心工作有兩點:第一是持續(xù)推進規(guī)模化,深化數(shù)據(jù)和模型的打磨,放大 scaling 效應(yīng);第二是打穿垂直場景,以線束場景為核心,逐步拓展更多場景。隨著模型泛化能力的提升,新場景的工程化周期會大幅縮短。
▎AI科技評論:我們看到ICRA現(xiàn)場有不少國內(nèi)的年輕學(xué)者,它石和學(xué)術(shù)界有什么合作嗎?
丁文超:我們今年ICRA發(fā)表了9篇paper,數(shù)量也是在具身企業(yè)中名列前茅;并且和清華、交大、復(fù)旦都有人才合作項目,未來肯定會再擴展到其他高校。今年 ICRA 我們還舉辦了人才晚宴,吸引各個學(xué)校的最 top 的學(xué)生。
▎AI科技評論:最后聊聊行業(yè),您認為阻礙具身智能商業(yè)化落地的最大因素是什么?
丁文超:核心瓶頸是模型的泛化性和吞吐率,吞吐率等于成功率乘以任務(wù)完成效率,這兩個指標決定了機器人能否替代人工產(chǎn)生實際生產(chǎn)力。
▎AI科技評論:明年具身智能行業(yè)可能出現(xiàn)哪些變化?
丁文超:第一,機器人的操作能力會取得重大突破,核心體現(xiàn)為 Zero-Shot 和 Few-Shot 能力的提升,在新場景中能快速展示出基礎(chǔ)能力。第二,行業(yè)競爭烈度會大幅上升,兩極分化加劇,規(guī)模化需要更大的資金投入和決心,頭部效應(yīng)會越來越明顯。
▎AI科技評論:假如未來具身智能進入3.0時代,需要達到什么標準?
丁文超:2.0時代的核心是泛化,能在新場景達到80% 左右的成功率;3.0時代的核心是機器人能在多個不局限于單一領(lǐng)域的任務(wù)中,表現(xiàn)出超過人類的能力,雖未達到物理 AGI,但在多個細分任務(wù)上具備顯著優(yōu)勢。
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網(wǎng)已全面上線【ICRA 2026 深度專區(qū)】。
專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方記者的第一手會議動態(tài)。
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.