連續(xù)入選ICRA最佳論文,RoboScience機器科學如何突破具身智能瓶頸

2026-06-08 12:10:00　來源: 機器之心Pro

河北舉報

分享至

編輯｜Sia

在具身智能最難的泛化問題上，他們連續(xù)拿出頂會級成果，并把它們沉淀進其創(chuàng)新 VLOA 大模型，推動機器人邁向廣闊現(xiàn)實。

6 月 1 日至 5 日，機器人領域頂級會議 ICRA 2026 在奧地利維也納舉行。RoboScience 機器科學首席科學家、新加坡國立大學助理教授邵林團隊的論文《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects via Semantic Correspondence》入圍機器人操作與運動方向（Robot Manipulation and Locomotion）最佳論文獎提名（Finalist）。同時入圍該獎項提名的，還包括來自伯克利大學、斯坦福大學、麻省理工學院、清華大學等全球頂級高校的研究團隊。

這已經不是邵林團隊第一次站上 ICRA 的高光位置。去年 ICRA 2025 ，團隊曾憑借通用靈巧抓取框架 D(R,O) Grasp 從四千多篇投稿中脫穎而出，斬獲機器人操作與運動方向最佳論文獎（ Winner ），成為近五年來亞洲機構首次以第一單位身份獲此殊榮的團隊。

而在 ICRA 2026 論文錄用結果中，邵林帶領的團隊共有 10 篇研究成果成功入選。這些論文聚焦靈巧抓取、社交導航、低成本力感知與混合任務規(guī)劃等核心方向，系統(tǒng)性地推進了具身智能的技術邊界。

從 2025 年獲獎，到 2026 年再度入圍，邵林團隊也成為近五年來亞洲唯一連續(xù)兩年獲得該方向最佳論文獎項認可的團隊。這一成績不僅體現(xiàn)其在機器人操作領域的持續(xù)創(chuàng)新能力，也進一步凸顯中國具身智能企業(yè)在國際頂級學術舞臺上的技術影響力。

但相比獎項本身，這兩篇論文更值得關注的地方在于它們共同指向了具身智能走向真實世界前必須跨過的門檻：泛化操作能力。

Bi-Adapt：

一種用于高效學習通用雙手操作的新型框架

對機器人來說，雙臂操作遠比單臂抓取復雜得多。兩只手不僅要分別判斷接觸點和動作方向，還必須彼此配合。傳統(tǒng)解決方案要么針對不同物體人工設計動作，要么依賴大規(guī)模數(shù)據(jù)，通過大量示范或交互訓練模型。但前者難以覆蓋真實世界復雜多變的幾何結構，后者意味著高昂的數(shù)據(jù)采集和訓練成本。

Bi-Adapt 的核心突破在于：機器人能將已經學會的雙臂操作經驗遷移到沒見過的新物體類別上，并且只需要少量試錯，就能在仿真和真實環(huán)境中保持較高成功率。

Bi-Adapt ，一種用于高效學習通用雙臂操作的新框架。

仿真測試顯示，Bi-Adapt 在五類新類別雙臂操作任務上的成功率達到 59%—70%，顯著超過多個基線方法。

仿真測試結果顯示Bi-Adapt 在五類雙臂任務上均顯著超過啟發(fā)式規(guī)則、M-Where2Act、DualAfford 等基線方法。

在真實機器人實驗中，它也完成了展開、打開、取蓋等任務，驗證了跨類別操作能力從仿真到真實環(huán)境的可遷移性。

真實機器人驗證。

簡單來說，Bi-Adapt 把跨類別雙臂操作變成了三步曲：先找對位置，再學會配合，最后用少量試錯修正。

Bi-Adaptpipeline 主要包括動作學習、可供性遷移、少樣本適配和最終執(zhí)行四個階段。

第一步，是在已知類別上建立「操作經驗庫」。系統(tǒng)會記錄成功操作時，兩只夾爪分別接觸哪里、以什么方向運動、如何協(xié)同發(fā)力。

這里有一個關鍵設計：Bi-Adapt 沒有把兩只手當成兩個獨立執(zhí)行器，而是把雙臂動作拆成兩個相互依賴的模塊。

與推理不同，訓練時采用了反向數(shù)據(jù)流：先訓練第二只夾爪在不同第一手動作下如何協(xié)同，再訓練第一只夾爪學會提出更有利于整體協(xié)作的動作，讓第一只手學會為第二只手創(chuàng)造配合條件。

第二步，是用視覺基礎模型做跨類別語義對應。

機器人雖然沒有見過鉗子，但如果學過如何操作剪刀，就可以借助視覺基礎模型判斷：剪刀上的成功接觸點，在鉗子上最可能對應哪里。

論文中使用了 DIFT，也就是 diffusion feature，從擴散模型中提取圖像特征，并比較源圖像接觸點與目標圖像各個像素之間的相似度。相似度最高的位置，就被視為新物體上的候選接觸點。

第三步，少樣本交互適配。

視覺上的相似并不等于物理上一定可操作，因此機器人會拿候選接觸點執(zhí)行少量嘗試，根據(jù)成功或失敗反饋微調模型，過濾掉錯誤接觸點，修正兩只夾爪的動作方向。

最后，最終的控制策略被部署于全新類別的未知實例上。

如果說 Bi-Adapt 試圖解決「不同物體怎么操作」，那么ICRA 2025 獲獎的 D(R,O) Grasp 應對的是另一個泛化挑戰(zhàn)：不同靈巧手之間如何復用同一套抓取能力。

通過將機器人手和物體都表示成點云，學習二者在穩(wěn)定抓取時應該形成的空間距離關系，D(R,O) Grasp突破了傳統(tǒng)「一機一策」的局限——基于這一統(tǒng)一表示，一個 AI 模型即可支持 LeapHand、Shadow Lite、XHand、SoftHand 等多種靈巧手，覆蓋 3/4/5 指、軟體與硬質等不同形態(tài)，完成復雜抓取操作。

兩項頂會級工作放在一起，構成了邵林團隊近兩年的技術主線：機器人操作能力不應該綁定單一硬件、單一物體或單一場景，而應該逐步沉淀為可復用、可遷移的通用能力。

頂會神技「并網(wǎng)」到通用具身大腦 VLOA

邵林曾指出，具身智能大模型不能簡單照搬 CV 或 NLP 的 scaling 經驗。圖像和文本天然擁有相對統(tǒng)一的數(shù)據(jù)格式，但機器人操作面對的是任務、物體和機器人本體三重多樣性，若沒有統(tǒng)一的數(shù)據(jù)格式，這些數(shù)據(jù)很難被納入同一體系學習，模型也很難形成真正可遷移的操作能力。這也是現(xiàn)有 VLA 路線面臨的核心瓶頸。

RoboScience 機器科學提出的 VLOA（Vision-Language-Object-Action）路線，正是為了解決這一問題。相比直接從 Vision-Language 跳到 Action，VLOA 在中間引入了Object，也就是以物體為中心的狀態(tài)變化表示——

無論是拿起杯子、打開盒蓋，還是插入零件，最終都可以被描述為物體在三維空間中的位置、姿態(tài)和形態(tài)變化。Object Trajectory （物體 3D 連續(xù)點云軌跡）正是對這種變化的統(tǒng)一表達。

基于這一思考，邵林團隊搭建了一個「具身世界模型 + 通用操作模型」的雙引擎架構，指導「任意機器人操作任意對象、完成任意任務」。

RoboScience機器科學提出的 VLOA（Vision-Language-Object-Action）框架，一個雙引擎架構。

在這一框架中，上層具身世界模型負責理解任務語義，預演物體在三維空間中的狀態(tài)變化，也就是 object trajectory。它更多從互聯(lián)網(wǎng)視頻、說明書、多模態(tài)數(shù)據(jù)中學習語義和常識。

下層通用操作模型負責把 object trajectory 轉成具體機器人的動作。它學習的是物理規(guī)律、接觸、力、約束和控制，可以通過公司自研的物理引擎和仿真數(shù)據(jù)大規(guī)模訓練。

連接它們的靈魂紐帶就是 Object Trajectory（物體 3D 連續(xù)點云軌跡）接口。有了這一中間表示，不同來源的數(shù)據(jù)才能被統(tǒng)一納入同一體系，猶如海納百川。

這一框架的能力，也已經在真實任務中得到驗證。2025 年 5 月，RoboScience基于 VLOA 大模型完成了全球范圍內復雜度、精度和步驟數(shù)都極高的具身操作任務拼家具。

基于 VLOA 大模型完成拼家具人物，一鏡到底。

這類任務考驗的不是某一個單項「神技」，而是模型能否把一系列分散能力有效整合起來，在復雜物理環(huán)境中完成穩(wěn)定、精細、連貫的操作。

也正是在這個背景下，Bi-Adapt 和D(R,O) Grasp 的價值不止于頂會論文，而是在為 VLOA 補齊關鍵底層能力——跨類別操作泛化、一個模型適配多種末端執(zhí)行器。這一系列研究成果的落地，將顯著降低機器人操作技能的學習成本與部署門檻，推動具身智能擺脫遙控器和預設技能庫，自主理解世界，并在真實物理環(huán)境中穩(wěn)定執(zhí)行任務。

可以說，融合了世界模型的 VLA，也就是VLOA 路線，正成為具身智能邁向真實場景的一種更優(yōu)解。

斯坦福學術 × 硅谷工程：

RoboScience 機器科學的雙重底座

RoboScience 機器科學成立于 2024 年 12 月，是一家聚焦通用具身智能的全球領先企業(yè)，由前蘋果 AI 平臺技術負責人、斯坦福大學 AI Lab 碩士田野，與新加坡國立大學助理教授、斯坦福大學 AI Lab 博士邵林聯(lián)合創(chuàng)立。

邵林（左）和田野（右）

這組創(chuàng)始人搭配，正好對應了RoboScience 機器科學的技術路線：一端是機器人操作、靈巧手、跨本體抓取與仿真等方向的前沿學術積累，另一端則是大規(guī)模 AI 基礎設施和工程系統(tǒng)的落地經驗。

邵林本科畢業(yè)于南京大學，斯坦福大學博士，師從機器人學習領域學者 Jeannette Bohg，聯(lián)合導師為美國三院院士 Leonidas J. Guibas，長期深耕機器人操作、靈巧手、跨本體抓取與仿真等方向。值得一提的是，邵林與 Hillbot 創(chuàng)始人蘇昊、銀河通用創(chuàng)始人王鶴、穹徹智能創(chuàng)始人盧策吾等同屬斯坦福機器人與 AI 學術譜系，其中與王鶴為同屆，蘇昊、盧策吾為其師弟。

田野本科畢業(yè)于中科大物理系，后進入斯坦福大學 AI Lab 攻讀碩士，師從「AI 布道者」吳恩達。他曾在蘋果擔任 AI Platform 技術負責人，主導打造了「蘋果的 PyTorch 與 CUDA」核心平臺，推動多項關鍵 AI 技術在蘋果生態(tài)中大規(guī)模落地。

目前，公司已在機器人本體、末端執(zhí)行器、多模態(tài)物理仿真等關鍵環(huán)節(jié)實現(xiàn)全棧布局，希望通過軟硬一體路線，加速具身智能技術規(guī)模化落地。

自研的高精度通用物理仿真平臺「RoboMirage」

RoboScience 機器科學已獲得京東集團、商湯科技、達晨財智、招商局創(chuàng)投、零一創(chuàng)投、普華資本等多家 CVC 和財務機構的投資及產業(yè)支持，近期又獲得了多家國內外產業(yè)龍頭、互聯(lián)網(wǎng)大廠、頭部財務機構等多輪注資，并在北京、深圳、蘇州、杭州設有研發(fā)和生產中心。團隊成員來自斯坦福、中科大、新加坡國立大學等頂尖高校，以及蘋果、字節(jié)、騰訊、大疆等頭部科技企業(yè)。

在產業(yè)化方面，公司已與多家零售、物流、康養(yǎng)服務企業(yè)，以及機器人本體、靈巧手公司開展試點合作，并計劃于今年實現(xiàn)面向工業(yè)與商業(yè)場景的標準化機器人本體產品量產。

隨著機器人進入零售、物流、工業(yè)、家庭等真實場景，真正的競爭也將從單點演示轉向通用操作能力、數(shù)據(jù)閉環(huán)和系統(tǒng)工程能力。在這一行業(yè)拐點上，從頂會論文到工程系統(tǒng)，從泛化算法到真實機器人生產力，RoboScience 機器科學正試圖打通具身智能從「學術頂尖」走向「規(guī)模化落地」的關鍵鏈路。在這場通往物理世界的萬億級長跑中，他們不僅在探索機器的邊界，更在真實世界中加速未來的到來

https://nus-lins-lab.github.io/drograspweb/static/data/D(R,O)Grasp.pdf

https://arxiv.org/pdf/2602.08425

文中視頻鏈接：https://mp.weixin.qq.com/s/DjQL_fBenrHlf_sNGeljzw

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.