![]()
空間 AI 正在經歷從傳統地圖向任務驅動型全局記憶的演進。
作者丨陳淑瑜
編輯丨岑 峰
2026年6月4日,在ICRA 2026大會的Keynote 3“Robot Perception and Spatial AI”環節中,MIT副教授Luca Carlone發表了題為“Maps, Memory, and Tasks — Toward Spatial Al for the Next Generation of Robots”的主旨演講。
![]()
他系統性地論證了一個核心觀點:下一代機器人更需要任務驅動的記憶系統,而非一味追求更精確的地圖。
Carlone指出,經典SLAM雖然成功,但流水線極其復雜。稠密條件模型(如Visual Geometry Grounded Transformer)用統一前饋框架革新了這一領域,卻受限于幀數處理能力。團隊通過子地圖切分擴展VGGT,卻發現射影歧義導致子地圖對齊產生偽影。為此,他們將傳統的位姿圖優化升級為模型圖優化,成功修正了尺度信息。
但僅有地圖遠遠不夠。Carlone論證了從地圖到記憶的必要性:傳統地圖只能回答“自由空間在哪”,而記憶應讓機器人回答“我上周把鑰匙放哪了”、“當時天氣怎樣”這類涉及時空和經驗的復雜查詢。團隊構建了3D場景圖→DAAAM(開放詞匯場景圖)→情景記憶(基于驚喜度的視頻存儲)的遞進路徑,使機器人既能檢索事實,也能回放經歷。
最后,Carlone提出“記憶應該是綠色的、輕量的”。Clio系統引入信息瓶頸工具構建任務驅動的場景圖表征,通過感知具體任務來過濾無關信息,實現更少、更準的存儲。其后續工作Found-IT進一步支持在運行時動態指定任務,擺脫了對預設任務列表的依賴。
以下為Luca Carlone在ICRA 2026大會發表的演講精編稿,AI科技評論基于原英文演講內容進行不改原意的翻譯編輯:
01
從經典SLAM到語義建圖
今天我演講的主題是“地圖、記憶與任務——以及空間AI的未來”。內容主要聚焦于我們實驗室最近的工作,包括幾周前剛發布的研究。深耕這個領域大約20年,我切身感受到現在是最令人興奮的時刻。硬件的飛速進步以及基礎模型的涌現,讓我們能夠理解和評估以前無法觸及的課題。
當前,從工業界到學術界,各類新型機器人層出不窮。人形機器人有望在復雜的長期任務中與人類無縫協作。但核心問題在于:我們如何讓機器人在真實規模的環境中執行這類長期任務?
我認為,要構建這個未來,下一代機器人需要引入任務驅動的記憶系統,而這種系統的核心在于條件化的信息處理。
![]()
首先來看3D建圖,即從經典建圖模型到語義建圖模型的演進。隨后我將論證為什么僅有地圖是不夠的,我們必須開始構建機器人的記憶能力。最后,我將探討如何將記憶設計為支持機器人執行具體任務的工具。
![]()
經典SLAM取得了巨大的成功,但其整個流水線極其復雜。過去三年中,稠密條件模型徹底革新了這一領域。它表明你可以利用同一個前饋框架來處理復雜的SLAM問題,將圖像直接映射為3D結構和相機位姿。更關鍵的是,這種新架構能夠處理來自多個相機的實時數據流,這在傳統SLAM中是難以企及的。
然而,像VGGT這類稠密基礎模型同樣存在局限。例如,VGGT在內存耗盡前大約只能處理60幀;即使是最新的VGGT-Ω,處理500幀也需要大約一分鐘。但在實際的SLAM場景中,包含上萬幀、覆蓋長期運行軌跡的情況屢見不鮮。
![]()
02
射影歧義與模型圖優化
為了擴展這些稠密條件模型,我們的基本思路是將軌跡切分為多個子地圖,用VGGT逐個處理后,再利用傳統位姿圖優化進行對齊。
但測試結果卻出乎意料,對齊同一區域的兩個子地圖時,場景中的衣柜竟然被重復放置在了床的兩側。這些偽影源于計算機視覺中經典的“射影歧義”。
本質上,我們是在利用多個透視相機重建場景,且唯一已知的是相機內參。當固定相機內參時,3D重建的尺度是不確定的。如果相機完全未標定,相似結構的場景就極易被混淆。在一個未標定相機的會話中,你很難區分一個完美的立方體結構與一個變形的結構,因為這種變形極易被誤判為相機標定參數的變化。這就解釋了為什么SLAM中會產生此類偽影。
基于這一洞察,我們發現不同子地圖具有不同的尺度信息。對此,我們的貢獻在于證明了通過對子地圖施加適當的相似變換,可以有效修正尺度信息。我們將傳統的位姿圖優化升級為模型圖優化,在模型度量空間中進行同步優化,從而解決了部分子地圖受尺度歧義影響的問題。
從實際效果看,在相同的場景中,衣柜實現了更緊密的匹配與對齊,尺度信息得到了修正。目前該方法已在室內外各種環境中得到驗證,下個月的ICRA上我們還將展示一篇新論文,未來該方法將進一步擴展到更大規模的場景中。
稠密條件模型的應用并不局限于SLAM。我們還嘗試將VGGT作為視聽覺語言模型(VLA)的工具:由VGGT將圖像映射為3D結構和視頻token,再將這些token注入VLA中,從而賦予模型更出色的3D場景理解能力。
![]()
在Unitree G1機器人的測試中,我們對比了標準VLA(如Octo 1.5)與經VGGT增強后的VLA的操作性能。結果表明,VGGT增強版本在操作任務中的成功率顯著提升。
03
從地圖到記憶:3D場景圖與DAAAM
接下來討論超越建圖的必要性,即如何提煉環境中的核心語義要素。
傳統地圖的本質是記錄環境的幾何結構,機器人只能回答“自由空間在哪里”、“障礙物在哪里”這類基礎問題。2015年左右,行業開始向度量語義地圖轉變,將語義標簽附加到標準幾何地圖上。這讓機器人能夠處理稍微復雜的查詢,比如尋找椅子、桌子或詢問桌子的高度。但這些依然停留在基于基礎語義的簡單檢索層面。
我認為,當下的機器人必須實現從地圖到記憶的躍升。記憶是指編碼、存儲和提取環境更泛化信息的能力,同時記錄機器人自身的行為體驗。
擁有記憶后,機器人就能理解更符合人類習慣的自然語言提問,比如:“我上周把鑰匙放哪了?”、“Bob的T恤是什么顏色?”或者“當時天氣怎樣?”機器人的內部表征必須足夠豐富,才能支撐起這類跨越時空與經驗的復雜查詢。
過去幾年,我們一直在倡導使用3D場景圖來存儲環境中物體、智能體、地點等信息,這可以被視為一種初級的、局部的記憶形式。
3D場景圖是一種層次化表征,它遵循環境的多級結構,從底層的幾何、物體、智能體、場所,一直延伸到房間和建筑層級。
我們團隊不僅提出了新的表征方式,還開發了首個能夠直接從傳感器數據增量式構建場景圖的系統——Hydra。過去三到五年中,我們證實了該系統在室內到公里級室外環境中的建圖能力。
![]()
盡管這些工具已經能夠捕捉基礎語義、幾何信息以及物體間的關系,但實際的機器人操作往往需要更細膩的知識輸入。例如,機器人不僅需要知道“這里有一輛自行車”,更需要記住“這里有一輛藍色自行車”或“一輛輪胎沒氣的自行車”。
為此,我們開發了DAAAM。作為首個實時開放詞匯3D場景圖系統,它能夠為物體生成極其豐富的描述。我們借助基礎視覺-語言模型(VLM)來標注物體,同時為了確保實時性,引入了幀采集策略來挑選最佳視角,緩解了標注速度慢的瓶頸。隨后,這些描述會從物體層級向上傳播,為區域乃至整個場景圖補充上下文。
![]()
生成的場景圖支持自然語言查詢。我們設計了一種基于智能體的聊天交互方式,允許用戶像使用ChatGPT一樣檢索環境記憶。例如,輸入“你看到放在德州儀器入口旁邊的護照了嗎?”,系統會迅速定位關聯位置,推斷出護照的具體位置與時間,并回答“15分鐘前在那里”。
04
情景記憶:基于驚喜度的視頻存儲
在后續迭代中我們發現,現有工作大多基于一種高度“有損”的表征。如果場景圖缺少推理所需的信息,機器人就會陷入困境。例如,它可能無法回答關于某個動態動作的提問,或者無法分辨什么是“十字路口”,因為這些動態信息在幾何或靜態語義建圖中被過濾了。
這一局限性的解法同樣存在于神經科學中。人類的記憶兼具語義記憶與情景記憶。語義記憶負責檢索事實與關系(3D場景圖即扮演此類角色,盡管目前還相對局限);而情景記憶則是對事件更生動的片段式記錄,就像一段描繪特定遭遇的短視頻。正如人類遭遇事故時能極其生動地回憶起畫面細節一樣,情景記憶關注的就是這類關鍵事件。
受此啟發,我們開發了一個基于驚喜度的機器人情景記憶框架。系統會實時計算一個度量指標,用區域的“驚喜度”來衡量新輸入環境帶來的沖擊。一旦遭遇高驚喜度事件,系統就會自動攔截并存儲一段短視頻。
![]()
這里核心的設計在于驚喜度指標的選取。我們引入了世界模型工具V-JEPA2,用它來捕捉場景的相關動態。因為它能捕捉場景的相關動態,它本質上是一個世界模型。我們將這個框架集成到了3D場景圖系統中。通過這個方式,場景圖捕捉信息的能力得到了質的提升。通過引入短視頻存儲,機器人得以應對更高級的條件查詢。
在測試視頻中,面對用戶提問“頭盔上是什么顏色?”,由于頭盔顏色在移動過程中發生了變化,系統能夠調取記憶中的視頻片段進行比對推理,準確給出了結合時間軸的正確答案。
05
任務驅動的記憶:Clio與Found-IT
最后,我想探討為什么記憶表征必須由任務來驅動。
上述所有探索似乎都在引導我們去存儲更多、更豐富的信息(如長文本描述、視頻片段等)。然而,面對海量數據,核心問題隨之而來:到底什么才是必須記住的?
我們主張,機器人的記憶應該是綠色且輕量的,并非所有信息都具有同等價值。如果機器人只是在廚房里導航到儲藏室,它可能只需要記住空間幾何;但如果任務是做飯,它就必須精確記住旋鈕和灶臺的位置。
為了應對這一根本挑戰,我們推出了首個構建任務驅動型3D場景圖的方法,稱之為Clio。不同于傳統建圖,Clio在輸入傳感器數據的同時,還會接收一份用自然語言指定的任務列表。系統利用Segment Anything等模型鎖定目標物體,并借助信息論中的“信息瓶頸”工具進行聚類與表征設計,確保每一個聚類既具備足夠的信息量,又與當前的具體任務高度對齊。
![]()
該系統在移動操作任務中表現優異。數據顯示,通過感知任務需求,系統能更高效地過濾無關干擾。如表格所示,Clio存儲的物體數量遠少于其他方法,但由于注意力集中在核心要素上,其任務成功率和召回精度反而實現了顯著提升。這一結論在隨后的拾取與放置任務中也得到了驗證。
上周我們剛發布了一項名為Found-IT的后續工作。簡單來說,它是DAAAM的升級版。我們改用基礎模型來直接構建場景圖,使其能夠直接在標準的機器人操作視頻上運行。
![]()
更重要的是,它不再需要預先指定任務列表,而是支持在運行時動態調整任務。你可以把它想象成一種自適應建圖機制,隨著機器人的運行,在正確的時間以正確的方式按需繪制地圖。
總結而言,空間AI正在經歷從傳統地圖向任務驅動型全局記憶的演進。當然,諸如長短期記憶的銜接、遺忘機制以及神經科學中的其他記憶形態,還有諸多課題值得深入。除了空間理解,我們實驗室目前在自動駕駛感知、人體與物體條件預測,以及視覺語言模型(VLM)的不確定性量化方面也取得了不錯的進展。最后,如果大家想了解該研究領域的全景,推薦閱讀我們近期與多位頂尖學者合作編寫的《SLAM手冊》,其中涵蓋了認證感知、空間理解等諸多核心主題。
06
Q&A 問答環節
Q:我想請教一個關于語義不確定性的問題。你如何構建能夠對語義不確定性進行魯棒推理的系統?而且同一種事物可以用語言以許多不同方式描述,機器人是否會被不一致的語言反饋所迷惑?
Luca Carlone:這確實是大家都非常關注的核心痛點。在不確定性量化方面,我們的研究表明,系統必須同時捕獲兩個不確定性來源:一個是認知不確定性,另一個是源于模型自身內在局限的系統性概念不確定性。雖然我們在數據集上證實了這種量化方法的可行性,但你提到的挑戰其實更為深遠。
很多人可能關注到了近期關于Mirage(海市蜃樓幻覺)現象的研究,這是一項針對50個VLM基準測試展開的非常出色的工作。他們發現,即使不提供任何圖像,只向模型提問,VLM依然能夠煞有介事地給出“答案”。這表明我們對這些基礎模型的底層機理依然知之甚少。因此,在安全至上的機器人應用中,語義不確定性量化絕對是一個至關重要的課題。
Q:我對情景記憶以及CLIP嵌入的應用很感興趣。存儲視頻是一個非常直觀且有趣的方案,但它的成本不會太高嗎?為什么我們必須存儲實際的視頻,而不是某種更扁平化、更低維的表征?
Luca Carlone:非常深刻的問題。對此我可以從兩方面來解答。
首先,沿著機器人的行進軌跡存儲圖像或視頻并不是一個新概念。在實際應用中,為了實現視覺定位等功能,機器人本來就需要保留大量的沿途軌跡信息。我們的框架并不是額外增加了存儲負擔,而是提供了一種更聰明、更有選擇性的機制,來決定到底該保留哪些幀。
其次,在我提到的“短視頻”機制中,系統實際上每次只精簡存儲大約5個關鍵幀,因此整體存儲量與常規方法相比并沒有顯著增加。在我們的實驗框架下,情景記憶在2到3分鐘的運行周期內通常只會觸發2到3次。所以從存儲開銷來看,它并沒有想象中那么夸張。
當然,在面對極長序列的實驗時,確實需要非常小心。我們的終極目標并不是去存儲完整的“夢境”,而是希望提取出更具壓縮性的表征來“分析夢境”,從而實現更高的效率。
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】。
專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.