網易首頁 > 網易號 > 正文 申請入駐

SpatialActor通過解耦語義與幾何,為具身智能注入強魯棒空間基因

0
分享至



機器人操作模型雖然在語義理解上取得巨大成功,但往往被困在 2D 圖像的「錯覺」中。現有的機器人操作模型主要依賴 2D 圖像作為輸入,這意味著它們容易丟失關鍵的深度信息和 3D 幾何結構。

具體而言,基于點云的方法受限于稀疏采樣,導致細粒度語義信息的丟失;基于圖像的方法通常將 RGB 和深度信息輸入到在 3D 輔助任務上訓練的 2D 骨干網絡中,但它們糾纏在一起的語義和幾何特征對現實世界中固有的深度噪聲非常敏感,從而干擾了語義理解。



圖 1:不同方法的對比

針對這一痛點,Dexmal 原力靈機作者團隊提出 SpatialActor,該工作核心在于 「解耦」(Disentanglement):它不再將視覺信息混為一談,而是明確地將語義信息(這是什么?)與空間幾何信息(它在哪里?形狀如何?)分離開來,從而實現語義流與空間流的雙流解耦與后期融合。

作者通過引入顯式的 3D 空間編碼器,并將其與強大的視覺語言模型結合,使機器人不僅能「讀懂」指令,更能「感知」三維空間。作者在包含 50 多個任務的多個仿真和真實世界場景中評估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成績,達到 SOTA 水平;在不同噪聲條件下,性能提升了 13.9% 至 19.4%,展現出強大的魯棒性。目前該論文已被收錄為 AAAI 2026 Oral,并將于近期開源。



  • 論文名稱:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
  • 論文鏈接:https://arxiv.org/abs/2511.09555
  • 項目主頁:https://shihao1895.github.io/SpatialActor/

方法與架構

作者認為,機器人操作本質上需要兩種能力的協同:一是對任務目標的語義理解(由 VLM 提供),二是對環境幾何的精確把控(由 3D 表征提供)。SpatialActor 并沒有試圖訓練一個全能的端到端網絡,而是采用了一種「雙流解耦 - 融合」的架構設計。

整體架構



圖 2:SpatialActor 架構概覽

該架構采用了獨立的視覺與深度編碼器。語義引導幾何模塊(SGM)通過門控融合機制,將來自預訓練深度專家的魯棒但缺乏細粒度信息的幾何先驗與含噪但有逐像素細節的深度特征自適應地結合,從而生成高層幾何表征。

在空間 Transformer(SPT)中,低層空間線索被編碼為位置嵌入,用以驅動空間交互。最后,視圖級交互優化了視圖內的特征,而場景級交互則整合了跨視圖的跨模態信息,為后續的動作頭提供支持。

語義引導幾何模塊(SGM)

由于傳感器的局限性和環境干擾,現實世界的深度測量往往含有噪聲,而 RGB 圖像則能提供高信噪比的語義線索。大規模預訓練深度估計模型學習到了平滑的 “語義到幾何” 映射,能夠提供魯棒且通用的幾何先驗。相比之下,原始深度特征雖然保留了細粒度的像素級細節,但對噪聲高度敏感。

為此,SGM 模塊通過一個凍結的大規模預訓練深度估計專家模型從 RGB 輸入中提取魯棒但粗粒度的幾何先驗,同時利用深度編碼器從原始深度中提取細粒度但含噪的幾何特征。如圖 3 (a) 所示,SGM 模塊通過一個多尺度門控機制自適應地融合這些特征,從而生成優化后的幾何表征;該表征在保留細微細節的同時降低了噪聲,并與語義線索保持對齊。



圖 3:語義引導幾何模塊和空間 Transformer

空間 Transformer(SPT)

如圖 3 (b) 所示,SPT 模塊旨在建立精確的 2D 至 3D 映射并融合多模態特征,是生成精準動作的關鍵。首先,模塊將視覺得到的空間特征與機器人本體感知信息(如關節狀態)融合。利用相機內外參矩陣和深度信息,模型將圖像像素坐標轉換為機器人基座坐標系下的三維坐標,并采用旋轉位置編碼技術將這些三維幾何信息嵌入特征中,賦予其低層的空間感知。

在特征交互層面,SPT 依次執行視圖級和場景級注意力機制:前者優化單視圖內部表征,后者聚合所有視圖與語言指令特征,實現跨模態的全局上下文融合。最終,解碼器通過預測熱力圖確定動作的三維平移位置,并基于該位置的局部特征回歸計算旋轉角度和夾爪開閉狀態,完成端到端的動作生成。

實驗結果

為了全面評估 SpatialActor 的有效性,作者在仿真和真實世界環境中均開展了實驗,既比較其與當前最先進方法的表現,也考察其在噪聲干擾下的魯棒性,并進一步驗證其在真實機器人上的實際表現。

仿真基準測試結果



表 1:RLBench 仿真測試結果

作者給出了 SpatialActor 在 18 個 RLBench 任務及其 249 種變體上的成功率。SpatialActor 取得了最佳的整體性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在諸如 Insert Peg(插銷釘)和 Sort Shape(形狀分類)等需要高空間精度的任務中,SpatialActor 的表現分別優于 RVT-2 53.3% 和 38.3%。

不同程度噪聲下的表現



表 2:不同程度噪聲下的表現

在噪聲實驗中,作者通過加入不同強度的高斯擾動模擬噪聲。結果表明,無論是輕度、中度還是重度噪聲,SpatialActor 的表現都始終明顯優于 RVT-2,平均成功率分別提升 13.9%、16.9% 和 19.4%。在諸如 Insert Peg(插銷釘)這類需要高精度對位的任務中,這一差距更為突出,在三檔噪聲下分別高出 88.0%、78.6% 和 61.3%,展現出對噪聲干擾的強魯棒性。

真機實驗結果



圖 4:真機任務

在真機實驗中,作者使用一臺配備 Intel RealSense D435i RGB-D 相機的 WidowX 單臂機器人;并采用 8 個不同的任務,共計 15 種變體。



表 6:真機結果

真機實驗結果如表 6 所示,SpatialActor 的表現持續優于 RVT-2,各任務平均提升約 20%,證明其在真實場景中的有效性。為了評估針對分布變化的魯棒性,作者在被操作物體、接收物體、光照和背景發生變化的情況下對 SpatialActor 進行了測試。在這些多樣且極具挑戰性的條件下,SpatialActor 始終保持了高水平表現,有力證明了其在復雜真實世界場景中的強大魯棒性與泛化能力。

結論

在本文中,作者提出了 SpatialActor,這是一個用于機器人操作的魯棒空間表征框架,旨在解決精確空間理解、傳感器噪聲以及有效交互帶來的挑戰。SpatialActor 將語義信息與幾何信息進行了解耦,并將幾何分支劃分為高層和低層兩個組件:SGM 將語義引導的幾何先驗與原始深度特征自適應融合,以構建魯棒的高層幾何;而 SPT 則通過位置感知交互捕捉低層空間線索。

在 50 多個仿真和真實世界任務上進行的廣泛實驗表明,SpatialActor 在多樣化的條件下均取得了更高的成功率和強大的魯棒性。這些結果凸顯了解耦的空間表征對于開發更加魯棒且具備泛化能力的機器人系統的重要性。

附論

機器人操作可以分解為兩個維度:空間感知與時序理解。前者關注如何將視覺與語言映射為精確的 6-DoF 位姿,實現對當前場景的物理 Grounding;后者則需要基于當前與過往的歷史狀態,連續做出多個決策以完成長期目標。



但是,真實世界的操作并非靜態的空間問題,而是貫穿時間的連續過程。機器人不僅要抓得準,還必須記得住之前的關鍵狀態,才能在長程任務中真正抓得對。這使得記憶機制成為連接空間操作與長程決策的關鍵能力。

受人類大腦「工作記憶」與「海馬體」記憶機制的啟發,作者團隊還提出了 MemoryVLA,創新性地引入「感知 - 認知記憶」到 VLA,在決策時智能地從記憶庫中「回憶」相關歷史信息,實現時序感知的決策。更多信息可以參考:

  • 論文:https://arxiv.org/abs/2508.19236
  • 項目主頁:https://shihao1895.github.io/MemoryVLA
  • GitHub:https://github.com/shihao1895/MemoryVLA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沒等到訪華邀請,高市準備報復?中方接到美媒消息,日本或掀桌

沒等到訪華邀請,高市準備報復?中方接到美媒消息,日本或掀桌

阿天愛旅行
2026-04-26 07:16:22
5天生死戰!北京女排雙外援壓陣,16點硬剛衛冕冠軍,繆伊雯成焦點

5天生死戰!北京女排雙外援壓陣,16點硬剛衛冕冠軍,繆伊雯成焦點

冷桂零落
2026-04-26 12:14:11
港媒:中國正從伊朗的廢墟中汲取關于“持久戰”的冷酷經驗

港媒:中國正從伊朗的廢墟中汲取關于“持久戰”的冷酷經驗

矚望云霄
2026-04-24 23:33:38
張朝陽:我一不談戀愛、二不喜歡應酬,我有得是錢,沒必要結婚!

張朝陽:我一不談戀愛、二不喜歡應酬,我有得是錢,沒必要結婚!

說點事
2026-04-17 16:40:09
張蘭發聲!自己要扛起養孫女孫子的責任,內涵馬筱梅沒有旺三代!

張蘭發聲!自己要扛起養孫女孫子的責任,內涵馬筱梅沒有旺三代!

看盡落塵花q
2026-04-25 22:01:48
高市早苗最擔心的事發生了!中方截胡日本,大批美國原油直運中國

高市早苗最擔心的事發生了!中方截胡日本,大批美國原油直運中國

南宗歷史
2026-04-26 13:42:10
悲催!畢業后拼到的浙江體制工作,被媽媽毀了,孩子現去新疆發展

悲催!畢業后拼到的浙江體制工作,被媽媽毀了,孩子現去新疆發展

火山詩話
2026-04-25 09:47:37
石宇奇談羽毛球15分制:要以積極態度面對,主動去適應規則

石宇奇談羽毛球15分制:要以積極態度面對,主動去適應規則

懂球帝
2026-04-26 11:20:11
首次破例參會便遇“槍擊”!特朗普撤離后重返晚宴:度過非同尋常的夜晚,槍手已被抓

首次破例參會便遇“槍擊”!特朗普撤離后重返晚宴:度過非同尋常的夜晚,槍手已被抓

紅星新聞
2026-04-26 10:17:36
7歲男童僅18斤被當腦癱治7年,多位專家:其出生就遭受顱骨骨折,醫院隱瞞真相,已提起訴訟

7歲男童僅18斤被當腦癱治7年,多位專家:其出生就遭受顱骨骨折,醫院隱瞞真相,已提起訴訟

觀威海
2026-04-26 09:40:13
3大生死劫:民營企業家為何是最難、最焦慮的群體?反問:你能扛住哪一關?

3大生死劫:民營企業家為何是最難、最焦慮的群體?反問:你能扛住哪一關?

蘇格拉高
2026-04-26 07:39:57
東方甄選全員告別:這場逼宮為何徹底失控?

東方甄選全員告別:這場逼宮為何徹底失控?

時尚的弄潮
2026-04-26 06:43:56
玻利維亞坐擁巨型鐵礦,想出口給“貧鐵”的中國,為何卻遭拒絕?

玻利維亞坐擁巨型鐵礦,想出口給“貧鐵”的中國,為何卻遭拒絕?

誮惜顏a
2026-04-26 03:09:43
1959年,林彪回鄉讓公社書記給原配3000元,原配到死這錢也沒花

1959年,林彪回鄉讓公社書記給原配3000元,原配到死這錢也沒花

史不語
2026-04-26 13:45:03
從《快樂男聲》全國亞軍到百億影帝,靠狠勁撕碎“軟飯男”標簽

從《快樂男聲》全國亞軍到百億影帝,靠狠勁撕碎“軟飯男”標簽

慕姑娘的讀行生活
2026-04-26 07:20:11
上港4比0大勝三鎮!蔣光太賽后卻唯獨點名表揚他,引發熱議

上港4比0大勝三鎮!蔣光太賽后卻唯獨點名表揚他,引發熱議

振剛說足球
2026-04-26 13:25:27
40萬的蔚來ES8賣爆了,為什么沒人嫌李斌賣貴了?

40萬的蔚來ES8賣爆了,為什么沒人嫌李斌賣貴了?

少數派報告Report
2026-04-26 11:04:04
高考預測700分實際450分,上海6名學霸家長聯合舉報,最終如何

高考預測700分實際450分,上海6名學霸家長聯合舉報,最終如何

第四思維
2025-06-21 18:35:36
中國幫沙特建的高鐵,干了九年賠了41億,為何如今卻說賺翻了?

中國幫沙特建的高鐵,干了九年賠了41億,為何如今卻說賺翻了?

悅君兮君不知
2026-04-25 13:31:44
經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

芹姐說生活
2026-04-25 16:12:39
2026-04-26 14:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12855文章數 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

數碼
家居
房產
藝術
軍事航空

數碼要聞

同檔最強小平板!OPPO Pad Mini下周首銷:3199元起

家居要聞

自然肌理 溫潤美學

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版