无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

0
分享至


空間 AI 正在經歷從傳統地圖向任務驅動型全局記憶的演進。

作者丨陳淑瑜

編輯丨岑 峰

2026年6月4日,在ICRA 2026大會的Keynote 3“Robot Perception and Spatial AI”環節中,MIT副教授Luca Carlone發表了題為“Maps, Memory, and Tasks — Toward Spatial Al for the Next Generation of Robots”的主旨演講。


他系統性地論證了一個核心觀點:下一代機器人更需要任務驅動的記憶系統,而非一味追求更精確的地圖。

Carlone指出,經典SLAM雖然成功,但流水線極其復雜。稠密條件模型(如Visual Geometry Grounded Transformer)用統一前饋框架革新了這一領域,卻受限于幀數處理能力。團隊通過子地圖切分擴展VGGT,卻發現射影歧義導致子地圖對齊產生偽影。為此,他們將傳統的位姿圖優化升級為模型圖優化,成功修正了尺度信息。

但僅有地圖遠遠不夠。Carlone論證了從地圖到記憶的必要性:傳統地圖只能回答“自由空間在哪”,而記憶應讓機器人回答“我上周把鑰匙放哪了”、“當時天氣怎樣”這類涉及時空和經驗的復雜查詢。團隊構建了3D場景圖→DAAAM(開放詞匯場景圖)→情景記憶(基于驚喜度的視頻存儲)的遞進路徑,使機器人既能檢索事實,也能回放經歷。

最后,Carlone提出“記憶應該是綠色的、輕量的”。Clio系統引入信息瓶頸工具構建任務驅動的場景圖表征,通過感知具體任務來過濾無關信息,實現更少、更準的存儲。其后續工作Found-IT進一步支持在運行時動態指定任務,擺脫了對預設任務列表的依賴。

以下為Luca Carlone在ICRA 2026大會發表的演講精編稿,AI科技評論基于原英文演講內容進行不改原意的翻譯編輯:

01


從經典SLAM到語義建圖

今天我演講的主題是“地圖、記憶與任務——以及空間AI的未來”。內容主要聚焦于我們實驗室最近的工作,包括幾周前剛發布的研究。深耕這個領域大約20年,我切身感受到現在是最令人興奮的時刻。硬件的飛速進步以及基礎模型的涌現,讓我們能夠理解和評估以前無法觸及的課題。

當前,從工業界到學術界,各類新型機器人層出不窮。人形機器人有望在復雜的長期任務中與人類無縫協作。但核心問題在于:我們如何讓機器人在真實規模的環境中執行這類長期任務?

我認為,要構建這個未來,下一代機器人需要引入任務驅動的記憶系統,而這種系統的核心在于條件化的信息處理。


首先來看3D建圖,即從經典建圖模型到語義建圖模型的演進。隨后我將論證為什么僅有地圖是不夠的,我們必須開始構建機器人的記憶能力。最后,我將探討如何將記憶設計為支持機器人執行具體任務的工具。


經典SLAM取得了巨大的成功,但其整個流水線極其復雜。過去三年中,稠密條件模型徹底革新了這一領域。它表明你可以利用同一個前饋框架來處理復雜的SLAM問題,將圖像直接映射為3D結構和相機位姿。更關鍵的是,這種新架構能夠處理來自多個相機的實時數據流,這在傳統SLAM中是難以企及的。

然而,像VGGT這類稠密基礎模型同樣存在局限。例如,VGGT在內存耗盡前大約只能處理60幀;即使是最新的VGGT-Ω,處理500幀也需要大約一分鐘。但在實際的SLAM場景中,包含上萬幀、覆蓋長期運行軌跡的情況屢見不鮮。


02


射影歧義與模型圖優化

為了擴展這些稠密條件模型,我們的基本思路是將軌跡切分為多個子地圖,用VGGT逐個處理后,再利用傳統位姿圖優化進行對齊。

但測試結果卻出乎意料,對齊同一區域的兩個子地圖時,場景中的衣柜竟然被重復放置在了床的兩側。這些偽影源于計算機視覺中經典的“射影歧義”。

本質上,我們是在利用多個透視相機重建場景,且唯一已知的是相機內參。當固定相機內參時,3D重建的尺度是不確定的。如果相機完全未標定,相似結構的場景就極易被混淆。在一個未標定相機的會話中,你很難區分一個完美的立方體結構與一個變形的結構,因為這種變形極易被誤判為相機標定參數的變化。這就解釋了為什么SLAM中會產生此類偽影。

基于這一洞察,我們發現不同子地圖具有不同的尺度信息。對此,我們的貢獻在于證明了通過對子地圖施加適當的相似變換,可以有效修正尺度信息。我們將傳統的位姿圖優化升級為模型圖優化,在模型度量空間中進行同步優化,從而解決了部分子地圖受尺度歧義影響的問題。

從實際效果看,在相同的場景中,衣柜實現了更緊密的匹配與對齊,尺度信息得到了修正。目前該方法已在室內外各種環境中得到驗證,下個月的ICRA上我們還將展示一篇新論文,未來該方法將進一步擴展到更大規模的場景中。

稠密條件模型的應用并不局限于SLAM。我們還嘗試將VGGT作為視聽覺語言模型(VLA)的工具:由VGGT將圖像映射為3D結構和視頻token,再將這些token注入VLA中,從而賦予模型更出色的3D場景理解能力。


在Unitree G1機器人的測試中,我們對比了標準VLA(如Octo 1.5)與經VGGT增強后的VLA的操作性能。結果表明,VGGT增強版本在操作任務中的成功率顯著提升。

03


從地圖到記憶:3D場景圖與DAAAM

接下來討論超越建圖的必要性,即如何提煉環境中的核心語義要素。

傳統地圖的本質是記錄環境的幾何結構,機器人只能回答“自由空間在哪里”、“障礙物在哪里”這類基礎問題。2015年左右,行業開始向度量語義地圖轉變,將語義標簽附加到標準幾何地圖上。這讓機器人能夠處理稍微復雜的查詢,比如尋找椅子、桌子或詢問桌子的高度。但這些依然停留在基于基礎語義的簡單檢索層面。

我認為,當下的機器人必須實現從地圖到記憶的躍升。記憶是指編碼、存儲和提取環境更泛化信息的能力,同時記錄機器人自身的行為體驗。

擁有記憶后,機器人就能理解更符合人類習慣的自然語言提問,比如:“我上周把鑰匙放哪了?”、“Bob的T恤是什么顏色?”或者“當時天氣怎樣?”機器人的內部表征必須足夠豐富,才能支撐起這類跨越時空與經驗的復雜查詢。

過去幾年,我們一直在倡導使用3D場景圖來存儲環境中物體、智能體、地點等信息,這可以被視為一種初級的、局部的記憶形式。

3D場景圖是一種層次化表征,它遵循環境的多級結構,從底層的幾何、物體、智能體、場所,一直延伸到房間和建筑層級。

我們團隊不僅提出了新的表征方式,還開發了首個能夠直接從傳感器數據增量式構建場景圖的系統——Hydra。過去三到五年中,我們證實了該系統在室內到公里級室外環境中的建圖能力。


盡管這些工具已經能夠捕捉基礎語義、幾何信息以及物體間的關系,但實際的機器人操作往往需要更細膩的知識輸入。例如,機器人不僅需要知道“這里有一輛自行車”,更需要記住“這里有一輛藍色自行車”或“一輛輪胎沒氣的自行車”。

為此,我們開發了DAAAM。作為首個實時開放詞匯3D場景圖系統,它能夠為物體生成極其豐富的描述。我們借助基礎視覺-語言模型(VLM)來標注物體,同時為了確保實時性,引入了幀采集策略來挑選最佳視角,緩解了標注速度慢的瓶頸。隨后,這些描述會從物體層級向上傳播,為區域乃至整個場景圖補充上下文。


生成的場景圖支持自然語言查詢。我們設計了一種基于智能體的聊天交互方式,允許用戶像使用ChatGPT一樣檢索環境記憶。例如,輸入“你看到放在德州儀器入口旁邊的護照了嗎?”,系統會迅速定位關聯位置,推斷出護照的具體位置與時間,并回答“15分鐘前在那里”。

04


情景記憶:基于驚喜度的視頻存儲

在后續迭代中我們發現,現有工作大多基于一種高度“有損”的表征。如果場景圖缺少推理所需的信息,機器人就會陷入困境。例如,它可能無法回答關于某個動態動作的提問,或者無法分辨什么是“十字路口”,因為這些動態信息在幾何或靜態語義建圖中被過濾了。

這一局限性的解法同樣存在于神經科學中。人類的記憶兼具語義記憶與情景記憶。語義記憶負責檢索事實與關系(3D場景圖即扮演此類角色,盡管目前還相對局限);而情景記憶則是對事件更生動的片段式記錄,就像一段描繪特定遭遇的短視頻。正如人類遭遇事故時能極其生動地回憶起畫面細節一樣,情景記憶關注的就是這類關鍵事件。

受此啟發,我們開發了一個基于驚喜度的機器人情景記憶框架。系統會實時計算一個度量指標,用區域的“驚喜度”來衡量新輸入環境帶來的沖擊。一旦遭遇高驚喜度事件,系統就會自動攔截并存儲一段短視頻。


這里核心的設計在于驚喜度指標的選取。我們引入了世界模型工具V-JEPA2,用它來捕捉場景的相關動態。因為它能捕捉場景的相關動態,它本質上是一個世界模型。我們將這個框架集成到了3D場景圖系統中。通過這個方式,場景圖捕捉信息的能力得到了質的提升。通過引入短視頻存儲,機器人得以應對更高級的條件查詢。

在測試視頻中,面對用戶提問“頭盔上是什么顏色?”,由于頭盔顏色在移動過程中發生了變化,系統能夠調取記憶中的視頻片段進行比對推理,準確給出了結合時間軸的正確答案。

05


任務驅動的記憶:Clio與Found-IT

最后,我想探討為什么記憶表征必須由任務來驅動。

上述所有探索似乎都在引導我們去存儲更多、更豐富的信息(如長文本描述、視頻片段等)。然而,面對海量數據,核心問題隨之而來:到底什么才是必須記住的?

我們主張,機器人的記憶應該是綠色且輕量的,并非所有信息都具有同等價值。如果機器人只是在廚房里導航到儲藏室,它可能只需要記住空間幾何;但如果任務是做飯,它就必須精確記住旋鈕和灶臺的位置。

為了應對這一根本挑戰,我們推出了首個構建任務驅動型3D場景圖的方法,稱之為Clio。不同于傳統建圖,Clio在輸入傳感器數據的同時,還會接收一份用自然語言指定的任務列表。系統利用Segment Anything等模型鎖定目標物體,并借助信息論中的“信息瓶頸”工具進行聚類與表征設計,確保每一個聚類既具備足夠的信息量,又與當前的具體任務高度對齊。


該系統在移動操作任務中表現優異。數據顯示,通過感知任務需求,系統能更高效地過濾無關干擾。如表格所示,Clio存儲的物體數量遠少于其他方法,但由于注意力集中在核心要素上,其任務成功率和召回精度反而實現了顯著提升。這一結論在隨后的拾取與放置任務中也得到了驗證。

上周我們剛發布了一項名為Found-IT的后續工作。簡單來說,它是DAAAM的升級版。我們改用基礎模型來直接構建場景圖,使其能夠直接在標準的機器人操作視頻上運行。


更重要的是,它不再需要預先指定任務列表,而是支持在運行時動態調整任務。你可以把它想象成一種自適應建圖機制,隨著機器人的運行,在正確的時間以正確的方式按需繪制地圖。

總結而言,空間AI正在經歷從傳統地圖向任務驅動型全局記憶的演進。當然,諸如長短期記憶的銜接、遺忘機制以及神經科學中的其他記憶形態,還有諸多課題值得深入。除了空間理解,我們實驗室目前在自動駕駛感知、人體與物體條件預測,以及視覺語言模型(VLM)的不確定性量化方面也取得了不錯的進展。最后,如果大家想了解該研究領域的全景,推薦閱讀我們近期與多位頂尖學者合作編寫的《SLAM手冊》,其中涵蓋了認證感知、空間理解等諸多核心主題。

06


Q&A 問答環節

Q:我想請教一個關于語義不確定性的問題。你如何構建能夠對語義不確定性進行魯棒推理的系統?而且同一種事物可以用語言以許多不同方式描述,機器人是否會被不一致的語言反饋所迷惑?

Luca Carlone:這確實是大家都非常關注的核心痛點。在不確定性量化方面,我們的研究表明,系統必須同時捕獲兩個不確定性來源:一個是認知不確定性,另一個是源于模型自身內在局限的系統性概念不確定性。雖然我們在數據集上證實了這種量化方法的可行性,但你提到的挑戰其實更為深遠。

很多人可能關注到了近期關于Mirage(海市蜃樓幻覺)現象的研究,這是一項針對50個VLM基準測試展開的非常出色的工作。他們發現,即使不提供任何圖像,只向模型提問,VLM依然能夠煞有介事地給出“答案”。這表明我們對這些基礎模型的底層機理依然知之甚少。因此,在安全至上的機器人應用中,語義不確定性量化絕對是一個至關重要的課題。

Q:我對情景記憶以及CLIP嵌入的應用很感興趣。存儲視頻是一個非常直觀且有趣的方案,但它的成本不會太高嗎?為什么我們必須存儲實際的視頻,而不是某種更扁平化、更低維的表征?

Luca Carlone:非常深刻的問題。對此我可以從兩方面來解答。

首先,沿著機器人的行進軌跡存儲圖像或視頻并不是一個新概念。在實際應用中,為了實現視覺定位等功能,機器人本來就需要保留大量的沿途軌跡信息。我們的框架并不是額外增加了存儲負擔,而是提供了一種更聰明、更有選擇性的機制,來決定到底該保留哪些幀。

其次,在我提到的“短視頻”機制中,系統實際上每次只精簡存儲大約5個關鍵幀,因此整體存儲量與常規方法相比并沒有顯著增加。在我們的實驗框架下,情景記憶在2到3分鐘的運行周期內通常只會觸發2到3次。所以從存儲開銷來看,它并沒有想象中那么夸張。

當然,在面對極長序列的實驗時,確實需要非常小心。我們的終極目標并不是去存儲完整的“夢境”,而是希望提取出更具壓縮性的表征來“分析夢境”,從而實現更高的效率。

去哪看 ICRA 核心【演講/論文】詳解?

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李中華任鄭州市委副書記

李中華任鄭州市委副書記

汲古知新
2026-06-13 00:08:56
60歲男子與女子在車內發生親密行為猝死,家屬起訴女方索賠32萬余元被駁回

60歲男子與女子在車內發生親密行為猝死,家屬起訴女方索賠32萬余元被駁回

紅星新聞
2026-06-13 11:34:09
巴基斯坦總理:伊朗和美國已就協議文本達成一致

巴基斯坦總理:伊朗和美國已就協議文本達成一致

財聯社
2026-06-13 00:32:03
具俊曄首曝與大S20年前舊居,蹭熱度令人不恥

具俊曄首曝與大S20年前舊居,蹭熱度令人不恥

仙味少女心
2026-06-13 23:14:06
美國隊追平隊史世界杯最大比分勝利!阿湯哥、小李子、貝克漢姆……一眾名流現場觀賽

美國隊追平隊史世界杯最大比分勝利!阿湯哥、小李子、貝克漢姆……一眾名流現場觀賽

紅星新聞
2026-06-13 12:05:58
成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關法律責任

成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關法律責任

映射生活的身影
2026-06-13 19:55:10
癌癥的源頭被查出,燒烤沒上榜,第1名大家可能每天都在吃!

癌癥的源頭被查出,燒烤沒上榜,第1名大家可能每天都在吃!

路醫生健康科普
2026-06-12 16:23:10
水果姐為美國男足揭幕戰表演,與提烏斯-盧卡一同獻唱

水果姐為美國男足揭幕戰表演,與提烏斯-盧卡一同獻唱

懂球帝
2026-06-13 09:17:14
“去上海住哥哥家被警告”引群嘲,揭開了當下社會最殘酷的真相

“去上海住哥哥家被警告”引群嘲,揭開了當下社會最殘酷的真相

卷史
2026-06-13 06:29:19
釘釘員工自曝作息大改,內部爭議曝光

釘釘員工自曝作息大改,內部爭議曝光

影視情報室
2026-06-14 00:39:31
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

細說職場
2026-06-13 12:51:02
震撼,波黑球迷開始在多倫多街頭集結,并高喊口號支持巴勒斯坦

震撼,波黑球迷開始在多倫多街頭集結,并高喊口號支持巴勒斯坦

懂球帝
2026-06-13 01:18:15
先定罪,再調查,保證沒有冤假錯案

先定罪,再調查,保證沒有冤假錯案

我是歷史其實挺有趣
2026-06-13 12:14:28
口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

黯泉
2026-06-02 11:54:54
她29歲中央委員、37歲省委書記,41歲主動到縣里任職

她29歲中央委員、37歲省委書記,41歲主動到縣里任職

數字化看世界
2026-05-31 17:37:58
中日要開戰?日專家曾預測:與中國發生沖突,最長只能堅持兩周

中日要開戰?日專家曾預測:與中國發生沖突,最長只能堅持兩周

別吵吵
2026-06-09 08:56:42
王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

共工之錨
2026-06-13 00:25:29
斯坦福顛覆認知!對腸道好的不是粗糧,發酵食物反而護腸、強免疫

斯坦福顛覆認知!對腸道好的不是粗糧,發酵食物反而護腸、強免疫

思思夜話
2026-06-12 13:24:03
什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

另子維愛讀史
2026-06-13 23:39:37
蘋果首款折疊屏“iPhone Ultra”細節全曝光 無折痕、取消Face ID

蘋果首款折疊屏“iPhone Ultra”細節全曝光 無折痕、取消Face ID

CNMO科技
2026-06-11 09:30:19
2026-06-14 06:16:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20757關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

教育
藝術
時尚
手機
健康

教育要聞

干脆把爹媽也換了!女兒高考完讓家長崩潰,不讓人喘口氣嗎嘛

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

夏天穿衣要杜絕土氣感!試試精致的小香風,優雅與俏皮并存

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

老人、小孩、孕婦,吃粽子有啥風險

無障礙瀏覽 進入關懷版