網易首頁 > 網易號 > 正文申請入駐

MIT Luca Carlone副教授：地圖不夠用，機器人得「記事」｜ICRA 2026

2026-06-08 19:38:25　來源: AI科技評論

廣東舉報

分享至

空間 AI 正在經歷從傳統地圖向任務驅動型全局記憶的演進。

作者丨陳淑瑜

編輯丨岑峰

2026年6月4日，在ICRA 2026大會的Keynote 3“Robot Perception and Spatial AI”環節中，MIT副教授Luca Carlone發表了題為“Maps, Memory, and Tasks — Toward Spatial Al for the Next Generation of Robots”的主旨演講。

他系統性地論證了一個核心觀點：下一代機器人更需要任務驅動的記憶系統，而非一味追求更精確的地圖。

Carlone指出，經典SLAM雖然成功，但流水線極其復雜。稠密條件模型（如Visual Geometry Grounded Transformer）用統一前饋框架革新了這一領域，卻受限于幀數處理能力。團隊通過子地圖切分擴展VGGT，卻發現射影歧義導致子地圖對齊產生偽影。為此，他們將傳統的位姿圖優化升級為模型圖優化，成功修正了尺度信息。

但僅有地圖遠遠不夠。Carlone論證了從地圖到記憶的必要性：傳統地圖只能回答“自由空間在哪”，而記憶應讓機器人回答“我上周把鑰匙放哪了”、“當時天氣怎樣”這類涉及時空和經驗的復雜查詢。團隊構建了3D場景圖→DAAAM（開放詞匯場景圖）→情景記憶（基于驚喜度的視頻存儲）的遞進路徑，使機器人既能檢索事實，也能回放經歷。

最后，Carlone提出“記憶應該是綠色的、輕量的”。Clio系統引入信息瓶頸工具構建任務驅動的場景圖表征，通過感知具體任務來過濾無關信息，實現更少、更準的存儲。其后續工作Found-IT進一步支持在運行時動態指定任務，擺脫了對預設任務列表的依賴。

以下為Luca Carlone在ICRA 2026大會發表的演講精編稿，AI科技評論基于原英文演講內容進行不改原意的翻譯編輯：

從經典SLAM到語義建圖

今天我演講的主題是“地圖、記憶與任務——以及空間AI的未來”。內容主要聚焦于我們實驗室最近的工作，包括幾周前剛發布的研究。深耕這個領域大約20年，我切身感受到現在是最令人興奮的時刻。硬件的飛速進步以及基礎模型的涌現，讓我們能夠理解和評估以前無法觸及的課題。

當前，從工業界到學術界，各類新型機器人層出不窮。人形機器人有望在復雜的長期任務中與人類無縫協作。但核心問題在于：我們如何讓機器人在真實規模的環境中執行這類長期任務？

我認為，要構建這個未來，下一代機器人需要引入任務驅動的記憶系統，而這種系統的核心在于條件化的信息處理。

首先來看3D建圖，即從經典建圖模型到語義建圖模型的演進。隨后我將論證為什么僅有地圖是不夠的，我們必須開始構建機器人的記憶能力。最后，我將探討如何將記憶設計為支持機器人執行具體任務的工具。

經典SLAM取得了巨大的成功，但其整個流水線極其復雜。過去三年中，稠密條件模型徹底革新了這一領域。它表明你可以利用同一個前饋框架來處理復雜的SLAM問題，將圖像直接映射為3D結構和相機位姿。更關鍵的是，這種新架構能夠處理來自多個相機的實時數據流，這在傳統SLAM中是難以企及的。

然而，像VGGT這類稠密基礎模型同樣存在局限。例如，VGGT在內存耗盡前大約只能處理60幀；即使是最新的VGGT-Ω，處理500幀也需要大約一分鐘。但在實際的SLAM場景中，包含上萬幀、覆蓋長期運行軌跡的情況屢見不鮮。

射影歧義與模型圖優化

為了擴展這些稠密條件模型，我們的基本思路是將軌跡切分為多個子地圖，用VGGT逐個處理后，再利用傳統位姿圖優化進行對齊。

但測試結果卻出乎意料，對齊同一區域的兩個子地圖時，場景中的衣柜竟然被重復放置在了床的兩側。這些偽影源于計算機視覺中經典的“射影歧義”。

本質上，我們是在利用多個透視相機重建場景，且唯一已知的是相機內參。當固定相機內參時，3D重建的尺度是不確定的。如果相機完全未標定，相似結構的場景就極易被混淆。在一個未標定相機的會話中，你很難區分一個完美的立方體結構與一個變形的結構，因為這種變形極易被誤判為相機標定參數的變化。這就解釋了為什么SLAM中會產生此類偽影。

基于這一洞察，我們發現不同子地圖具有不同的尺度信息。對此，我們的貢獻在于證明了通過對子地圖施加適當的相似變換，可以有效修正尺度信息。我們將傳統的位姿圖優化升級為模型圖優化，在模型度量空間中進行同步優化，從而解決了部分子地圖受尺度歧義影響的問題。

從實際效果看，在相同的場景中，衣柜實現了更緊密的匹配與對齊，尺度信息得到了修正。目前該方法已在室內外各種環境中得到驗證，下個月的ICRA上我們還將展示一篇新論文，未來該方法將進一步擴展到更大規模的場景中。

稠密條件模型的應用并不局限于SLAM。我們還嘗試將VGGT作為視聽覺語言模型（VLA）的工具：由VGGT將圖像映射為3D結構和視頻token，再將這些token注入VLA中，從而賦予模型更出色的3D場景理解能力。

在Unitree G1機器人的測試中，我們對比了標準VLA（如Octo 1.5）與經VGGT增強后的VLA的操作性能。結果表明，VGGT增強版本在操作任務中的成功率顯著提升。

從地圖到記憶：3D場景圖與DAAAM

接下來討論超越建圖的必要性，即如何提煉環境中的核心語義要素。

傳統地圖的本質是記錄環境的幾何結構，機器人只能回答“自由空間在哪里”、“障礙物在哪里”這類基礎問題。2015年左右，行業開始向度量語義地圖轉變，將語義標簽附加到標準幾何地圖上。這讓機器人能夠處理稍微復雜的查詢，比如尋找椅子、桌子或詢問桌子的高度。但這些依然停留在基于基礎語義的簡單檢索層面。

我認為，當下的機器人必須實現從地圖到記憶的躍升。記憶是指編碼、存儲和提取環境更泛化信息的能力，同時記錄機器人自身的行為體驗。

擁有記憶后，機器人就能理解更符合人類習慣的自然語言提問，比如：“我上周把鑰匙放哪了？”、“Bob的T恤是什么顏色？”或者“當時天氣怎樣？”機器人的內部表征必須足夠豐富，才能支撐起這類跨越時空與經驗的復雜查詢。

過去幾年，我們一直在倡導使用3D場景圖來存儲環境中物體、智能體、地點等信息，這可以被視為一種初級的、局部的記憶形式。

3D場景圖是一種層次化表征，它遵循環境的多級結構，從底層的幾何、物體、智能體、場所，一直延伸到房間和建筑層級。

我們團隊不僅提出了新的表征方式，還開發了首個能夠直接從傳感器數據增量式構建場景圖的系統——Hydra。過去三到五年中，我們證實了該系統在室內到公里級室外環境中的建圖能力。

盡管這些工具已經能夠捕捉基礎語義、幾何信息以及物體間的關系，但實際的機器人操作往往需要更細膩的知識輸入。例如，機器人不僅需要知道“這里有一輛自行車”，更需要記住“這里有一輛藍色自行車”或“一輛輪胎沒氣的自行車”。

為此，我們開發了DAAAM。作為首個實時開放詞匯3D場景圖系統，它能夠為物體生成極其豐富的描述。我們借助基礎視覺-語言模型（VLM）來標注物體，同時為了確保實時性，引入了幀采集策略來挑選最佳視角，緩解了標注速度慢的瓶頸。隨后，這些描述會從物體層級向上傳播，為區域乃至整個場景圖補充上下文。

生成的場景圖支持自然語言查詢。我們設計了一種基于智能體的聊天交互方式，允許用戶像使用ChatGPT一樣檢索環境記憶。例如，輸入“你看到放在德州儀器入口旁邊的護照了嗎？”，系統會迅速定位關聯位置，推斷出護照的具體位置與時間，并回答“15分鐘前在那里”。

情景記憶：基于驚喜度的視頻存儲

在后續迭代中我們發現，現有工作大多基于一種高度“有損”的表征。如果場景圖缺少推理所需的信息，機器人就會陷入困境。例如，它可能無法回答關于某個動態動作的提問，或者無法分辨什么是“十字路口”，因為這些動態信息在幾何或靜態語義建圖中被過濾了。

這一局限性的解法同樣存在于神經科學中。人類的記憶兼具語義記憶與情景記憶。語義記憶負責檢索事實與關系（3D場景圖即扮演此類角色，盡管目前還相對局限）；而情景記憶則是對事件更生動的片段式記錄，就像一段描繪特定遭遇的短視頻。正如人類遭遇事故時能極其生動地回憶起畫面細節一樣，情景記憶關注的就是這類關鍵事件。

受此啟發，我們開發了一個基于驚喜度的機器人情景記憶框架。系統會實時計算一個度量指標，用區域的“驚喜度”來衡量新輸入環境帶來的沖擊。一旦遭遇高驚喜度事件，系統就會自動攔截并存儲一段短視頻。

這里核心的設計在于驚喜度指標的選取。我們引入了世界模型工具V-JEPA2，用它來捕捉場景的相關動態。因為它能捕捉場景的相關動態，它本質上是一個世界模型。我們將這個框架集成到了3D場景圖系統中。通過這個方式，場景圖捕捉信息的能力得到了質的提升。通過引入短視頻存儲，機器人得以應對更高級的條件查詢。

在測試視頻中，面對用戶提問“頭盔上是什么顏色？”，由于頭盔顏色在移動過程中發生了變化，系統能夠調取記憶中的視頻片段進行比對推理，準確給出了結合時間軸的正確答案。

任務驅動的記憶：Clio與Found-IT

最后，我想探討為什么記憶表征必須由任務來驅動。

上述所有探索似乎都在引導我們去存儲更多、更豐富的信息（如長文本描述、視頻片段等）。然而，面對海量數據，核心問題隨之而來：到底什么才是必須記住的？

我們主張，機器人的記憶應該是綠色且輕量的，并非所有信息都具有同等價值。如果機器人只是在廚房里導航到儲藏室，它可能只需要記住空間幾何；但如果任務是做飯，它就必須精確記住旋鈕和灶臺的位置。

為了應對這一根本挑戰，我們推出了首個構建任務驅動型3D場景圖的方法，稱之為Clio。不同于傳統建圖，Clio在輸入傳感器數據的同時，還會接收一份用自然語言指定的任務列表。系統利用Segment Anything等模型鎖定目標物體，并借助信息論中的“信息瓶頸”工具進行聚類與表征設計，確保每一個聚類既具備足夠的信息量，又與當前的具體任務高度對齊。

該系統在移動操作任務中表現優異。數據顯示，通過感知任務需求，系統能更高效地過濾無關干擾。如表格所示，Clio存儲的物體數量遠少于其他方法，但由于注意力集中在核心要素上，其任務成功率和召回精度反而實現了顯著提升。這一結論在隨后的拾取與放置任務中也得到了驗證。

上周我們剛發布了一項名為Found-IT的后續工作。簡單來說，它是DAAAM的升級版。我們改用基礎模型來直接構建場景圖，使其能夠直接在標準的機器人操作視頻上運行。

更重要的是，它不再需要預先指定任務列表，而是支持在運行時動態調整任務。你可以把它想象成一種自適應建圖機制，隨著機器人的運行，在正確的時間以正確的方式按需繪制地圖。

總結而言，空間AI正在經歷從傳統地圖向任務驅動型全局記憶的演進。當然，諸如長短期記憶的銜接、遺忘機制以及神經科學中的其他記憶形態，還有諸多課題值得深入。除了空間理解，我們實驗室目前在自動駕駛感知、人體與物體條件預測，以及視覺語言模型（VLM）的不確定性量化方面也取得了不錯的進展。最后，如果大家想了解該研究領域的全景，推薦閱讀我們近期與多位頂尖學者合作編寫的《SLAM手冊》，其中涵蓋了認證感知、空間理解等諸多核心主題。

Q&A 問答環節

Q：我想請教一個關于語義不確定性的問題。你如何構建能夠對語義不確定性進行魯棒推理的系統？而且同一種事物可以用語言以許多不同方式描述，機器人是否會被不一致的語言反饋所迷惑？

Luca Carlone：這確實是大家都非常關注的核心痛點。在不確定性量化方面，我們的研究表明，系統必須同時捕獲兩個不確定性來源：一個是認知不確定性，另一個是源于模型自身內在局限的系統性概念不確定性。雖然我們在數據集上證實了這種量化方法的可行性，但你提到的挑戰其實更為深遠。

很多人可能關注到了近期關于Mirage（海市蜃樓幻覺）現象的研究，這是一項針對50個VLM基準測試展開的非常出色的工作。他們發現，即使不提供任何圖像，只向模型提問，VLM依然能夠煞有介事地給出“答案”。這表明我們對這些基礎模型的底層機理依然知之甚少。因此，在安全至上的機器人應用中，語義不確定性量化絕對是一個至關重要的課題。

Q：我對情景記憶以及CLIP嵌入的應用很感興趣。存儲視頻是一個非常直觀且有趣的方案，但它的成本不會太高嗎？為什么我們必須存儲實際的視頻，而不是某種更扁平化、更低維的表征？

Luca Carlone：非常深刻的問題。對此我可以從兩方面來解答。

首先，沿著機器人的行進軌跡存儲圖像或視頻并不是一個新概念。在實際應用中，為了實現視覺定位等功能，機器人本來就需要保留大量的沿途軌跡信息。我們的框架并不是額外增加了存儲負擔，而是提供了一種更聰明、更有選擇性的機制，來決定到底該保留哪些幀。

其次，在我提到的“短視頻”機制中，系統實際上每次只精簡存儲大約5個關鍵幀，因此整體存儲量與常規方法相比并沒有顯著增加。在我們的實驗框架下，情景記憶在2到3分鐘的運行周期內通常只會觸發2到3次。所以從存儲開銷來看，它并沒有想象中那么夸張。

當然，在面對極長序列的實驗時，確實需要非常小心。我們的終極目標并不是去存儲完整的“夢境”，而是希望提取出更具壓縮性的表征來“分析夢境”，從而實現更高的效率。

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨，雷峰網已全面上線【ICRA 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.