具身智能邁入下半場，RoboMemArena全面評測機(jī)器人記憶系統(tǒng)

2026-05-27 16:11:26　來源: 機(jī)器之心Pro

天津舉報

分享至

具身基座模型（VLA、世界模型）這兩年進(jìn)步很快。但只要任務(wù)一長、場景一復(fù)雜，一個很現(xiàn)實(shí)的問題就會立刻出現(xiàn)：機(jī)器人很多時候不是「不會做」，而是「記不住」。比如：

柜子之前有沒有打開過？
物體被遮擋之前放到了哪里？
某個重復(fù)動作已經(jīng)執(zhí)行了幾次？
人類剛才示范過的順序到底是什么？

這些都不是只看當(dāng)前一幀圖像就能解決的問題。也正因為如此，我們越來越覺得：現(xiàn)有很多機(jī)器人 benchmark 雖然在操作上已經(jīng)很豐富，但對 memory-dependent long-horizon manipulation 的刻畫還遠(yuǎn)遠(yuǎn)不夠。

于是，香港科技大學(xué)（廣州）聯(lián)合清華大學(xué)、浙江大學(xué)、西湖大學(xué)、上海交通大學(xué)等多所頂尖高校與科研機(jī)構(gòu)共同打造了具身智能領(lǐng)域首個聚焦「機(jī)器人記憶能力」的系統(tǒng)性評測基準(zhǔn)RoboMemArena，旨在填補(bǔ)長期以來機(jī)器人在長時程任務(wù)與歷史狀態(tài)記憶評估上的空白。

該基準(zhǔn)突破傳統(tǒng)機(jī)器人 Benchmark 僅關(guān)注短期感知與即時控制的局限，構(gòu)建了涵蓋物體轉(zhuǎn)移、目標(biāo)遮擋、動作計數(shù)與順序執(zhí)行四大核心記憶場景的綜合評測體系，共包含 26 項長時程任務(wù)、151 個細(xì)粒度子任務(wù)以及 2600 條專家演示軌跡。同時配套復(fù)雜的真機(jī)測評和 leaderboard，支持外部單位手動上傳模型進(jìn)行真機(jī)評測，為具身智能系統(tǒng)在長期規(guī)劃、世界狀態(tài)理解與動態(tài)決策方面提供了更接近真實(shí)世界的統(tǒng)一評測標(biāo)準(zhǔn)。

論文標(biāo)題：RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
論文地址：https://arxiv.org/abs/2605.10921
項目地址：https://robomemarena.github.io/
代碼地址：https://github.com/OpenHelix-Team/RoboMemArena
Leaderboard地址：https://robomemarena.github.io/leaderboard.html
數(shù)據(jù)集地址：https://huggingface.co/datasets/RoboMemArenaBenchmark/RoboMemArena

如果一個 benchmark 本身沒有把 memory 需求設(shè)計清楚，那么后面的模型比較其實(shí)很難公平：

有些任務(wù)看起來很長，但其實(shí)當(dāng)前觀察就足夠決策；
有些 benchmark 有長程執(zhí)行，卻沒有為 memory formation 提供直接監(jiān)督；
還有一些工作只停留在 simulation，沒有配套的真實(shí)機(jī)器人驗證。

RoboMemArena 想補(bǔ)上的，正是這塊空缺。它不是簡單做更多任務(wù)，而是試圖把「機(jī)器人到底什么時候必須依賴歷史信息」這件事，系統(tǒng)化地組織起來。

RoboMemArena 的三個核心特點(diǎn)

1. 它提供了構(gòu)建 robot memory 所必需的多模態(tài)標(biāo)注

這是我們最看重的一點(diǎn)。很多 memory benchmark 只能告訴你最終成功還是失敗，但如果模型真的要學(xué)會「記住過去」，它需要的往往不只是最終標(biāo)簽。

RoboMemArena 提供了更貼近 memory formation 的多模態(tài)監(jiān)督，包括：

subtask-level annotations：把長程軌跡拆成可執(zhí)行、可理解的子任務(wù)；
native keyframe annotations：顯式標(biāo)記那些真正重要的物理狀態(tài)轉(zhuǎn)折；
與軌跡對應(yīng)的視覺觀測、動作和機(jī)器人狀態(tài)。

也就是說，我們不僅告訴模型「這個任務(wù)要完成」，還盡量告訴它「歷史里哪些瞬間值得記住」。這也是 RoboMemArena 和很多已有 benchmark 非常不同的地方。

2. 它在 memory benchmark 里足夠長程，也足夠 diverse

RoboMemArena 一共包含26 個任務(wù)，覆蓋四類典型的 memory-demand setting：

Transferring（物體轉(zhuǎn)移）
Occlusion（目標(biāo)遮擋）
Counting（動作計數(shù)）
Sequence（順序執(zhí)行）

這些任務(wù)并不是為了「湊數(shù)量」，而是圍繞 reactive policy 的典型失敗模式來設(shè)計的。從統(tǒng)計上看，RoboMemArena 有幾個非常關(guān)鍵的數(shù)字：

平均每個任務(wù)超過 1000 steps
一共收集2600 條長程視覺軌跡
進(jìn)一步切分得到15100 個 keyframe-aligned 短段
全部 151 個子任務(wù)里，68.9% 是 memory-dependent

換句話說，這不是一個「順帶考一下記憶」的 benchmark，而是一個把歷史依賴明確放到臺面上的 benchmark。

3. 它不只停留在 simulation，還配套了復(fù)雜真機(jī)測評

這也是我們特別想補(bǔ)上的地方。

如果一個 memory 方法只能在 simulation 里有效，那它距離真正的 embodied system 還是有一段距離。所以在 RoboMemArena 里，我們不僅做了仿真 benchmark，還配套設(shè)計了5 個真實(shí)機(jī)器人 memory 任務(wù)：

Pour Bottle ×2（動作計數(shù)任務(wù)）
Brush Plates with Swap（狀態(tài)不可見任務(wù)）
Transfer Objects（順序執(zhí)行任務(wù)）
Shell Game（隱藏狀態(tài)追蹤任務(wù)）
IHMBImitate Human to Make Breakfast (IHMB)（長程模仿任務(wù)）

其中最長的真實(shí)任務(wù)超過 3 分鐘，而且在最復(fù)雜的IHMB（模仿人類做早餐）任務(wù)上，只有我們的PrediMem能夠成功完成。

這意味著 memory 機(jī)制帶來的提升，不只是 simulation 里的表面收益，而是在真實(shí)執(zhí)行噪聲下依然有價值。

為什么我們說它 easy to use？

我們不希望 RoboMemArena 只是一個「寫論文用的 benchmark」，也希望它能被后來者真正拿來訓(xùn)練、復(fù)現(xiàn)和比較。所以在開放資源上，我們盡量把入口做完整：

開源26 個任務(wù)的高質(zhì)量訓(xùn)練數(shù)據(jù)，并帶有子任務(wù)、關(guān)鍵幀、HDF5 軌跡結(jié)構(gòu)等豐富標(biāo)注；
提供26 個 BDDL 任務(wù)定義、LIBERO-compatible evaluation environment，以及與mujoco + robosuite + OpenGL/EGL兼容的評測路徑；
開放PrediMem相關(guān)訓(xùn)練與評測實(shí)現(xiàn)入口，并已經(jīng)系統(tǒng)跑出π0.5、MemoryVLA、MemER、HiF-VLA等代表性 baseline。

換句話說，如果你想直接在統(tǒng)一 benchmark 上做 robot memory 研究，RoboMemArena 已經(jīng)盡量把最費(fèi)時間的那部分前置工作替大家做掉了。

PrediMem 到底強(qiáng)在哪里？

如果說 RoboMemArena 回答的是：memory benchmark 應(yīng)該怎么做。那么 PrediMem 回答的就是：在這樣一個 benchmark 上，一個真正有效的 memory-aware baseline 應(yīng)該長什么樣

PrediMem 是一個dual-system VLA：

高層 VLM 負(fù)責(zé)規(guī)劃和 memory 管理
低層 VLA 負(fù)責(zé)執(zhí)行動作 chunk

它的關(guān)鍵不在于盲目加大模型，而在于讓高層 planner 顯式維護(hù)：

recent-frame buffer
keyframe buffer

并且通過predictive coding head，讓高層表征對物理狀態(tài)轉(zhuǎn)折更敏感。這種設(shè)計看起來不算復(fù)雜，但在 long-horizon、partially observable 的場景里非常關(guān)鍵。

實(shí)驗上，它把 memory 這件事真正拉開了差距

在仿真實(shí)驗里，PrediMem 的整體結(jié)果優(yōu)于所有 baseline：

PrediMem：38.5% TSR / 55.2% CSR
MemER：27.3% TSR / 49.1% CSR
π0.5：21.5% TSR / 38.7% CSR

如果再細(xì)看四類任務(wù)，PrediMem 在Transferring、Occlusion、Counting、Sequence上都拿到了最好的平均結(jié)果，其中在最依賴歷史狀態(tài)保持的Sequence上達(dá)到72.5% TSR / 89.5% CSR，在Occlusion和Counting這兩類 memory-demand 最強(qiáng)的設(shè)置里也明顯拉開了和 baseline 的差距。

而在真實(shí)機(jī)器人任務(wù)上，結(jié)果同樣清楚：

PrediMem：52% average success
MemER：40%
π0.5

更重要的是，在最長、最復(fù)雜、最依賴歷史信息的IHMB上，只有 PrediMem 成功。而且從消融實(shí)驗也能看到，無論去掉predictive coding head還是拿掉keyframe bank，整體表現(xiàn)都會明顯下降。

這說明 PrediMem 的優(yōu)勢并不來自單純「模型更大」，而是確實(shí)來自對歷史信息組織方式的改進(jìn)。這也說明 memory 不是一個「錦上添花」的小模塊，而是長程機(jī)器人執(zhí)行里決定任務(wù)能不能貫通的核心能力。

我們真正希望 RoboMemArena 帶來什么？

我們希望它不只是又一個 benchmark 名字，更希望它把一個長期被低估的問題真正抬出來：對于 long-horizon robotic execution，memory 不是可選項，而是基礎(chǔ)能力。

如果一個系統(tǒng)不能記住：

之前發(fā)生了什么
哪些狀態(tài)變化值得保留
人類剛剛示范過怎樣的順序

那么它在真實(shí)復(fù)雜任務(wù)里就很難真正穩(wěn)定。

RoboMemArena 想做的，就是把這件事用一個更完整、更可訓(xùn)練、更可比較、也更能落到真機(jī)上的方式組織起來。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.