網易首頁 > 網易號 > 正文申請入駐

ICRA 2026｜北京大學董豪團隊Imagine2Act：讓機器人“先想象、再動手”，攻克精細家務難題

2026-05-27 20:17:09　來源: 雷峰網

北京舉報

分享至

來源：公眾號“北京大學前沿計算研究中心”

原文鏈接：https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q

論?地址：https://arxiv.org/abs/2509.17125

前言：本文是對發表于機器人和自動化領域頂級會議 ICRA 2026 的論文Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals forRobotic Manipulation的解讀。該論文由北京大學董豪團隊主導完成。

該研究聚焦家庭服務機器人高精度操作的核心難題，為插花，放盤，疊杯等關系性物體重排任務提供了全新的解決方案。

研究背景

關系性物體重排是家庭服務機器人的核心能力之一，典型任務包括“將花插入花瓶”“將盤子放入碗架”“將筆插入筆筒”等。這類任務不僅需要機器人理解“什么物體應該放在哪里”的語義關系，還必須滿足精確的幾何約束——例如，盤子必須垂直插入碗架的狹窄槽位，存在微小偏差就可能導致任務失敗。

當前機器人操作的主流方法存在兩大明顯瓶頸：

傳統 3D 模仿學習方法，雖然能夠直接從 RGB-D 觀測映射到機器人動作，但它們通常缺乏對物體間復雜幾何關系的顯式推理能力，只能在隱式空間學習約束，高精度對齊任務中表現極不穩定；

一些方法嘗試利用生成模型生成目標狀態觀測，為策略提供語義幾何先驗，然而這些方法往往直接將生成的物體變換作為機器人動作執行，或者僅將其作為策略的輔助輸入而未建立顯式關聯。由于生成過程不可避免地存在噪聲，直接執行會導致誤差累積，而松散關聯則無法有效利用幾何信息。

于是，我們提出了Imagine2Act——一個將物體的語義幾何約束融入策略學習的 3D 模仿學習框架，旨在增強幾何感知能力，并通過想象物體變換信號的引導實現精確的動作預測。

核心方法

如上圖所示，Imagine2Act 的整體架構包含語義幾何約束生成模塊和物體-動作一致性學習模塊兩大核心，整個流程包括在機器人執行前生成想象目標，并在訓練中通過軟監督機制對齊動作與物體變換。

上圖為 Imagine2Act 兩大核心模塊的詳細執行流程圖。

語義幾何約束生成模塊：生成與真實場景對齊的想象目標

這個模塊的核心是基于人類的語言指令，生成一個與實際場景對齊的、包含正確語義幾何關系的目標圖像，再將其轉化為 3D 點云，為機器人提供高質量的幾何先驗，如上圖左下方所示，整個過程分為三步：

第一步是圖像編輯：如上圖左下方所示，我們首先使用圖像編輯模型（如 GPT-Image），輸入初始觀測圖像與語言指令，生成一幅描繪任務完成場景的圖像。生成圖像與初始觀測保持相同的相機視角，為后續 3D 對齊奠定基礎；

第二步是點云重建：為了減少生成噪聲，我們確保只修改與任務相關的物體，而保持場景其余部分不變。具體來說，我們通過分割模型（如 Grounded-SAM）從生成圖像中分割出前景物體（即運動物體和錨定物體），利用 3D 重建模型（如 TripoSR）為前景物體生成點云。這些點云編碼了想象中的幾何約束；

第三步是幾何對齊：從初始觀測中估計錨定物體的 6D 姿態，并將生成的前景點云以該姿態和適當比例變換到世界坐標系中。背景點云則直接從初始觀測中提取，保持不變。最終拼接得到的想象目標點云既包含了任務所需的語義布局，又與實際場景在幾何上對齊。

有了想象目標點云后，我們對它進行投影以獲得相應的想象目標觀測的 RGB 圖和深度圖，進而以對當前觀測數據的處理方式來對想象目標觀測進行特征提取處理，將其作為模型的額外輸入。

物體-動作一致性學習模塊：讓機器人動作匹配物體變換

如上圖右下方所示，通過想象的目標觀測，我們可以計算將可移動物體從初始姿態移動到想象目標姿態所需的剛體變換。由于末端執行器是物體運動的直接執行器，其軌跡本質上與物體的變換相似，使兩者高度相關。然而，直接將生成物體運動作為末端執行器的作用運動，可能導致生成過程中潛在的誤差，導致誤差累積。因此我們設計了雙重對齊機制：編碼變換 token 與軟姿態一致性損失。

編碼變換 token：通過計算運動物體從初始狀態到想象目標狀態的剛性變換（旋轉矩陣與平移向量），將其編碼為一個緊湊的變換 token。該 token 與視覺、語言、歷史狀態 tokens 一同輸入動作生成模塊，為動作預測提供明確的物體運動先驗；

軟姿態一致性損失：設計了一種閾值化的損失函數，僅在預測的末端執行器運動與物體變換之間的偏差超過容忍閾值時才施加懲罰。具體包括計算預測旋轉與物體旋轉之間的測地距離，以及計算平移的歐幾里得距離，使用 Sigmoid 函數實現平滑懲罰，避免硬約束導致的訓練不穩定。這一設計既利用了物體變換的強信號引導策略，又通過軟監督容忍了生成噪聲與小偏差，防止誤差在動作序列中累積。

實驗驗證

為了驗證 Imagine2Act 的效果，我們在仿真環境 RLBench 和真實世界機器人平臺開展了全面實驗，測試任務均圍繞家庭服務機器人的日常家務操作展開，同時設置了 3D Diffuser Actor、Imagine Policy 等主流基線模型進行對比。

仿真實驗：高精度完成家庭物體重排任務

我們在仿真環境 RLBench 與真實世界機器人平臺上進行了全面驗證，并進行了詳細的消融實驗。RLBench 仿真實驗中，我們選取了 7 個具有挑戰性的關系性重排任務，如 Put-Knife、Stack-Wine、Place-Cups 等，每個任務需 100 條演示進行訓練，25 次測試評估。對比基線包括基于 3D 場景表示的擴散策略 3D Diffuser Actor、生成目標點云并直接作為動作執行的 Imagine Policy，以及基于語言條件點云 Transformer 的 3D-LOTUS。實驗所涉及的任務類型與驗證維度如下圖所示。

實驗結果顯示，Imagine2Act 在 7 個任務上的平均成功率達到 0.79，顯著優于所有基線模型：相比 3D Diffuser Actor，通過語義幾何約束大幅提升了空間推理精度；相比 Imagine Policy，通過物體-動作對齊機制徹底避免了生成噪聲的直接傳播。

通過系統的消融實驗，我們驗證了各模塊的貢獻。完整模型在變換 token、軟損失和想象點云都使用的情況下取得了 0.79 的平均成功率。相比之下，當移除想象模塊時，性能下降至 0.67，這證明了語義幾何先驗的有效性。僅使用想象目標生成的配置取得了 0.72 的成功率，與使用真實目標狀態的 0.74 接近，說明我們的生成模塊能高質量逼近真實目標狀態。分別添加變換 token 或軟損失都帶來了性能提升，且二者結合效果最佳，驗證了雙重對齊機制的必要性。這些結果表明，想象目標生成、變換 token 輸入和軟姿態一致性損失共同構成了一個有效的學習框架。

為了進一步測試方法的泛化性，我們還在 RLBench 上額外評估了 5 個鉸鏈物體操作任務，包括關盒子、關抽屜、開微波爐等。Imagine2Act 在這些任務上取得了與 3D Diffuser Actor 相當的性能，證明了其對不同任務類型的適應性。

真實世界實驗：適配真實家庭的噪聲環境

真實世界實驗中，如上圖所示，我們在 Franka Emika 機器人平臺上部署了 Imagine2Act，執行包括疊杯子、關罐子、插花、放盤子等 6 個日常操作任務。

實驗結果顯示，Imagine2Act 在真實世界的平均成功率達到 0.68，遠高于 3D Diffuser Actor 的 0.43，這些結果證明了該框架不僅能解決仿真任務，更能遷移到真實世界的噪聲、不確定性環境中，具備實際部署潛力。

總結與展望

Imagine2Act 的核心創新，是讓家庭服務機器人學會 “先想象、再動手”：通過生成與真實場景對齊的想象目標點云，為機器人提供了豐富的語義幾何先驗，解決了傳統方法缺乏空間推理能力的問題；通過物體-動作一致性學習的雙重對齊機制，在利用生成目標信號的同時避免了生成噪聲的誤差累積，解決了高精度操作的核心難題。

該框架在仿真和真實世界的家庭服務任務中均表現出色，為家庭服務機器人的高精度操作提供了一種可解釋、可泛化的解決方案。未來，我們將進一步優化想象目標生成的效率和精度，適配更多樣、更復雜的家庭服務場景，讓家庭服務機器人能更精準、更智能地完成各類家務，真正走進普通家庭的日常生活。

團隊介紹

實驗室由北京大學前沿計算研究中心長聘副教授董豪指導，團隊專注于機器人視覺，物體操作，語義導航和具身自主決策等領域的前沿技術，致力于為家用、商用和工業場景創建具有成本效益的人形機器人。

雷峰網

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.