无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ICRA 2026|北京大學董豪團隊Imagine2Act:讓機器人“先想象、再動手”,攻克精細家務難題

0
分享至

來源:公眾號“北京大學前沿計算研究中心”

原文鏈接:https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q

論?地址:https://arxiv.org/abs/2509.17125

前言:本文是對發表于機器人和自動化領域頂級會議 ICRA 2026 的論文Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals forRobotic Manipulation的解讀。該論文由北京大學董豪團隊主導完成。

該研究聚焦家庭服務機器人高精度操作的核心難題,為插花,放盤,疊杯等關系性物體重排任務提供了全新的解決方案。

01

研究背景

關系性物體重排是家庭服務機器人的核心能力之一,典型任務包括“將花插入花瓶”“將盤子放入碗架”“將筆插入筆筒”等。這類任務不僅需要機器人理解“什么物體應該放在哪里”的語義關系,還必須滿足精確的幾何約束——例如,盤子必須垂直插入碗架的狹窄槽位,存在微小偏差就可能導致任務失敗。

當前機器人操作的主流方法存在兩大明顯瓶頸:

傳統 3D 模仿學習方法,雖然能夠直接從 RGB-D 觀測映射到機器人動作,但它們通常缺乏對物體間復雜幾何關系的顯式推理能力,只能在隱式空間學習約束,高精度對齊任務中表現極不穩定;

一些方法嘗試利用生成模型生成目標狀態觀測,為策略提供語義幾何先驗,然而這些方法往往直接將生成的物體變換作為機器人動作執行,或者僅將其作為策略的輔助輸入而未建立顯式關聯。由于生成過程不可避免地存在噪聲,直接執行會導致誤差累積,而松散關聯則無法有效利用幾何信息。

于是,我們提出了Imagine2Act——一個將物體的語義幾何約束融入策略學習的 3D 模仿學習框架,旨在增強幾何感知能力,并通過想象物體變換信號的引導實現精確的動作預測。

02

核心方法


如上圖所示,Imagine2Act 的整體架構包含語義幾何約束生成模塊和物體-動作一致性學習模塊兩大核心,整個流程包括在機器人執行前生成想象目標,并在訓練中通過軟監督機制對齊動作與物體變換。


上圖為 Imagine2Act 兩大核心模塊的詳細執行流程圖。

語義幾何約束生成模塊:生成與真實場景對齊的想象目標

這個模塊的核心是基于人類的語言指令,生成一個與實際場景對齊的、包含正確語義幾何關系的目標圖像,再將其轉化為 3D 點云,為機器人提供高質量的幾何先驗,如上圖左下方所示,整個過程分為三步:

第一步是圖像編輯:如上圖左下方所示,我們首先使用圖像編輯模型(如 GPT-Image),輸入初始觀測圖像與語言指令,生成一幅描繪任務完成場景的圖像。生成圖像與初始觀測保持相同的相機視角,為后續 3D 對齊奠定基礎;

第二步是點云重建:為了減少生成噪聲,我們確保只修改與任務相關的物體,而保持場景其余部分不變。具體來說,我們通過分割模型(如 Grounded-SAM)從生成圖像中分割出前景物體(即運動物體和錨定物體),利用 3D 重建模型(如 TripoSR)為前景物體生成點云。這些點云編碼了想象中的幾何約束;

第三步是幾何對齊:從初始觀測中估計錨定物體的 6D 姿態,并將生成的前景點云以該姿態和適當比例變換到世界坐標系中。背景點云則直接從初始觀測中提取,保持不變。最終拼接得到的想象目標點云既包含了任務所需的語義布局,又與實際場景在幾何上對齊。

有了想象目標點云后,我們對它進行投影以獲得相應的想象目標觀測的 RGB 圖和深度圖,進而以對當前觀測數據的處理方式來對想象目標觀測進行特征提取處理,將其作為模型的額外輸入。

物體-動作一致性學習模塊:讓機器人動作匹配物體變換

如上圖右下方所示,通過想象的目標觀測,我們可以計算將可移動物體從初始姿態移動到想象目標姿態所需的剛體變換。由于末端執行器是物體運動的直接執行器,其軌跡本質上與物體的變換相似,使兩者高度相關。然而,直接將生成物體運動作為末端執行器的作用運動,可能導致生成過程中潛在的誤差,導致誤差累積。因此我們設計了雙重對齊機制:編碼變換 token 與軟姿態一致性損失。

編碼變換 token:通過計算運動物體從初始狀態到想象目標狀態的剛性變換(旋轉矩陣與平移向量),將其編碼為一個緊湊的變換 token。該 token 與視覺、語言、歷史狀態 tokens 一同輸入動作生成模塊,為動作預測提供明確的物體運動先驗;

軟姿態一致性損失:設計了一種閾值化的損失函數,僅在預測的末端執行器運動與物體變換之間的偏差超過容忍閾值時才施加懲罰。具體包括計算預測旋轉與物體旋轉之間的測地距離,以及計算平移的歐幾里得距離,使用 Sigmoid 函數實現平滑懲罰,避免硬約束導致的訓練不穩定。這一設計既利用了物體變換的強信號引導策略,又通過軟監督容忍了生成噪聲與小偏差,防止誤差在動作序列中累積。

03

實驗驗證

為了驗證 Imagine2Act 的效果,我們在仿真環境 RLBench 和真實世界機器人平臺開展了全面實驗,測試任務均圍繞家庭服務機器人的日常家務操作展開,同時設置了 3D Diffuser Actor、Imagine Policy 等主流基線模型進行對比。

仿真實驗:高精度完成家庭物體重排任務

我們在仿真環境 RLBench 與真實世界機器人平臺上進行了全面驗證,并進行了詳細的消融實驗。RLBench 仿真實驗中,我們選取了 7 個具有挑戰性的關系性重排任務,如 Put-Knife、Stack-Wine、Place-Cups 等,每個任務需 100 條演示進行訓練,25 次測試評估。對比基線包括基于 3D 場景表示的擴散策略 3D Diffuser Actor、生成目標點云并直接作為動作執行的 Imagine Policy,以及基于語言條件點云 Transformer 的 3D-LOTUS。實驗所涉及的任務類型與驗證維度如下圖所示。


實驗結果顯示,Imagine2Act 在 7 個任務上的平均成功率達到 0.79,顯著優于所有基線模型:相比 3D Diffuser Actor,通過語義幾何約束大幅提升了空間推理精度;相比 Imagine Policy,通過物體-動作對齊機制徹底避免了生成噪聲的直接傳播。

通過系統的消融實驗,我們驗證了各模塊的貢獻。完整模型在變換 token、軟損失和想象點云都使用的情況下取得了 0.79 的平均成功率。相比之下,當移除想象模塊時,性能下降至 0.67,這證明了語義幾何先驗的有效性。僅使用想象目標生成的配置取得了 0.72 的成功率,與使用真實目標狀態的 0.74 接近,說明我們的生成模塊能高質量逼近真實目標狀態。分別添加變換 token 或軟損失都帶來了性能提升,且二者結合效果最佳,驗證了雙重對齊機制的必要性。這些結果表明,想象目標生成、變換 token 輸入和軟姿態一致性損失共同構成了一個有效的學習框架。

為了進一步測試方法的泛化性,我們還在 RLBench 上額外評估了 5 個鉸鏈物體操作任務,包括關盒子、關抽屜、開微波爐等。Imagine2Act 在這些任務上取得了與 3D Diffuser Actor 相當的性能,證明了其對不同任務類型的適應性。

真實世界實驗:適配真實家庭的噪聲環境


真實世界實驗中,如上圖所示,我們在 Franka Emika 機器人平臺上部署了 Imagine2Act,執行包括疊杯子、關罐子、插花、放盤子等 6 個日常操作任務。

實驗結果顯示,Imagine2Act 在真實世界的平均成功率達到 0.68,遠高于 3D Diffuser Actor 的 0.43,這些結果證明了該框架不僅能解決仿真任務,更能遷移到真實世界的噪聲、不確定性環境中,具備實際部署潛力。

04

總結與展望

Imagine2Act 的核心創新,是讓家庭服務機器人學會 “先想象、再動手”:通過生成與真實場景對齊的想象目標點云,為機器人提供了豐富的語義幾何先驗,解決了傳統方法缺乏空間推理能力的問題;通過物體-動作一致性學習的雙重對齊機制,在利用生成目標信號的同時避免了生成噪聲的誤差累積,解決了高精度操作的核心難題。

該框架在仿真和真實世界的家庭服務任務中均表現出色,為家庭服務機器人的高精度操作提供了一種可解釋、可泛化的解決方案。未來,我們將進一步優化想象目標生成的效率和精度,適配更多樣、更復雜的家庭服務場景,讓家庭服務機器人能更精準、更智能地完成各類家務,真正走進普通家庭的日常生活。

團隊介紹

實驗室由北京大學前沿計算研究中心長聘副教授董豪指導,團隊專注于機器人視覺,物體操作,語義導航和具身自主決策等領域的前沿技術,致力于為家用、商用和工業場景創建具有成本效益的人形機器人。

雷峰網

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
周朝國都西岐,商朝的國都朝歌,現如今這兩大名城位于什么位置?

周朝國都西岐,商朝的國都朝歌,現如今這兩大名城位于什么位置?

銘記歷史呀
2026-05-31 00:52:02
反轉!薩拉赫或回心轉意留利物浦

反轉!薩拉赫或回心轉意留利物浦

體壇觀察猿
2026-06-01 00:40:17
馬刺痛擊雷霆衛冕夢:偉大是入場券,不是畢業證

馬刺痛擊雷霆衛冕夢:偉大是入場券,不是畢業證

墜入溫柔晚風
2026-06-01 01:52:01
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
奇瑞神行者這個“大塊頭”三天就拿下了2.6萬臺訂單!

奇瑞神行者這個“大塊頭”三天就拿下了2.6萬臺訂單!

華庭講美食
2026-05-31 22:01:32
全紅嬋做出反常決定:跳出泳池奔赴第二人生賽道,未來值得期待!

全紅嬋做出反常決定:跳出泳池奔赴第二人生賽道,未來值得期待!

喜歡歷史的阿繁
2026-05-30 18:05:49
歐冠失冠后,44歲塔帥向阿森納表態需買人!點名簽維拉8000萬紅星

歐冠失冠后,44歲塔帥向阿森納表態需買人!點名簽維拉8000萬紅星

我愛英超
2026-05-31 23:00:22
日媒:日本赴華旅游暴跌九成,日網友卻稱“我要去中國,別攔我”

日媒:日本赴華旅游暴跌九成,日網友卻稱“我要去中國,別攔我”

小皷拍客在北漂
2026-05-30 17:26:52
菜市場“最臟”的4種菜,菜販子:我們從不吃,顧客卻搶著買

菜市場“最臟”的4種菜,菜販子:我們從不吃,顧客卻搶著買

復轉這些年
2026-05-29 16:27:59
沙灘影后擺架子?白敬亭宋軼復合了?檀健次受傷?劉愷威新戀情?姨太問答

沙灘影后擺架子?白敬亭宋軼復合了?檀健次受傷?劉愷威新戀情?姨太問答

毒舌扒姨太
2026-05-30 22:53:34
20歲鬼才導演處女作橫掃票房,全球3天破8億

20歲鬼才導演處女作橫掃票房,全球3天破8億

自愈小日子
2026-06-01 00:56:56
柬埔寨又出事了,53歲中國商人被綁架撕票,直接拋尸荒地

柬埔寨又出事了,53歲中國商人被綁架撕票,直接拋尸荒地

大廠編外實習生
2026-05-31 21:40:27
鄭麗文將率團外出,蕭旭岑缺席!李德維或撤告,金溥聰難置身事外

鄭麗文將率團外出,蕭旭岑缺席!李德維或撤告,金溥聰難置身事外

塵世閑云
2026-05-31 16:34:40
意甲轉會風云:伊卡爾迪重回尤文,那不勒斯留人

意甲轉會風云:伊卡爾迪重回尤文,那不勒斯留人

賽場速報局
2026-06-01 00:03:50
8000公里外傳來意外之喜,這就是中國國運!美國急瘋也沒任何作用

8000公里外傳來意外之喜,這就是中國國運!美國急瘋也沒任何作用

南宗歷史
2026-05-31 20:49:48
美國人形機器人被曝已投入俄烏戰場,美軍計劃打造5萬人形機器人大軍,每臺可攜帶40kg載荷,包括手槍、霰彈槍和M-16步槍等

美國人形機器人被曝已投入俄烏戰場,美軍計劃打造5萬人形機器人大軍,每臺可攜帶40kg載荷,包括手槍、霰彈槍和M-16步槍等

臺州交通廣播
2026-05-30 20:55:28
一定要大量讀書:一個人修行高不高,就看他有沒有讀過這10本書

一定要大量讀書:一個人修行高不高,就看他有沒有讀過這10本書

欣辰讀書
2026-05-15 22:59:03
王鳳英:在長城年薪500萬沒股份,到小鵬僅2個月,手握股權近億元

王鳳英:在長城年薪500萬沒股份,到小鵬僅2個月,手握股權近億元

大魚簡科
2026-05-31 10:02:57
防守脫胎換骨!三鎮狀態持續回暖,蘇亞雷斯明確休賽期主攻方向

防守脫胎換骨!三鎮狀態持續回暖,蘇亞雷斯明確休賽期主攻方向

許釔很機智
2026-06-01 00:21:13
趙今麥九寨溝直播零妝出鏡,素顏太美,山水冥想松弛感直接拉滿

趙今麥九寨溝直播零妝出鏡,素顏太美,山水冥想松弛感直接拉滿

觀魚聽雨
2026-05-29 23:32:40
2026-06-01 02:08:49
雷峰網 incentive-icons
雷峰網
關注智能與未來!
69529文章數 656138關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

特朗普生日白宮辦格斗賽 近距離觀賽花超100萬美元

頭條要聞

特朗普生日白宮辦格斗賽 近距離觀賽花超100萬美元

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

旅游
親子
本地
時尚
公開課

旅游要聞

大柵欄有六個老茶園

親子要聞

飛鶴聯手中標院定義“鮮活”新標準:奶粉“生日”從原料算起

本地新聞

用剪紙的方式,打開江蘇揚州

梓渝:慢下來,也很好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版