![]()
具身基座模型(VLA、世界模型)這兩年進(jìn)步很快。但只要任務(wù)一長、場景一復(fù)雜,一個很現(xiàn)實(shí)的問題就會立刻出現(xiàn):機(jī)器人很多時候不是「不會做」,而是「記不住」。比如:
- 柜子之前有沒有打開過?
- 物體被遮擋之前放到了哪里?
- 某個重復(fù)動作已經(jīng)執(zhí)行了幾次?
- 人類剛才示范過的順序到底是什么?
這些都不是只看當(dāng)前一幀圖像就能解決的問題。也正因為如此,我們越來越覺得:現(xiàn)有很多機(jī)器人 benchmark 雖然在操作上已經(jīng)很豐富,但對 memory-dependent long-horizon manipulation 的刻畫還遠(yuǎn)遠(yuǎn)不夠。
于是,香港科技大學(xué)(廣州)聯(lián)合清華大學(xué)、浙江大學(xué)、西湖大學(xué)、上海交通大學(xué)等多所頂尖高校與科研機(jī)構(gòu)共同打造了具身智能領(lǐng)域首個聚焦「機(jī)器人記憶能力」的系統(tǒng)性評測基準(zhǔn)RoboMemArena,旨在填補(bǔ)長期以來機(jī)器人在長時程任務(wù)與歷史狀態(tài)記憶評估上的空白。
該基準(zhǔn)突破傳統(tǒng)機(jī)器人 Benchmark 僅關(guān)注短期感知與即時控制的局限,構(gòu)建了涵蓋物體轉(zhuǎn)移、目標(biāo)遮擋、動作計數(shù)與順序執(zhí)行四大核心記憶場景的綜合評測體系,共包含 26 項長時程任務(wù)、151 個細(xì)粒度子任務(wù)以及 2600 條專家演示軌跡。同時配套復(fù)雜的真機(jī)測評和 leaderboard,支持外部單位手動上傳模型進(jìn)行真機(jī)評測,為具身智能系統(tǒng)在長期規(guī)劃、世界狀態(tài)理解與動態(tài)決策方面提供了更接近真實(shí)世界的統(tǒng)一評測標(biāo)準(zhǔn)。
![]()
- 論文標(biāo)題:RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
- 論文地址:https://arxiv.org/abs/2605.10921
- 項目地址:https://robomemarena.github.io/
- 代碼地址:https://github.com/OpenHelix-Team/RoboMemArena
- Leaderboard地址:https://robomemarena.github.io/leaderboard.html
- 數(shù)據(jù)集地址:https://huggingface.co/datasets/RoboMemArenaBenchmark/RoboMemArena
如果一個 benchmark 本身沒有把 memory 需求設(shè)計清楚,那么后面的模型比較其實(shí)很難公平:
- 有些任務(wù)看起來很長,但其實(shí)當(dāng)前觀察就足夠決策;
- 有些 benchmark 有長程執(zhí)行,卻沒有為 memory formation 提供直接監(jiān)督;
- 還有一些工作只停留在 simulation,沒有配套的真實(shí)機(jī)器人驗證。
RoboMemArena 想補(bǔ)上的,正是這塊空缺。它不是簡單做更多任務(wù),而是試圖把「機(jī)器人到底什么時候必須依賴歷史信息」這件事,系統(tǒng)化地組織起來。
![]()
RoboMemArena 的三個核心特點(diǎn)
1. 它提供了構(gòu)建 robot memory 所必需的多模態(tài)標(biāo)注
這是我們最看重的一點(diǎn)。很多 memory benchmark 只能告訴你最終成功還是失敗,但如果模型真的要學(xué)會「記住過去」,它需要的往往不只是最終標(biāo)簽。
RoboMemArena 提供了更貼近 memory formation 的多模態(tài)監(jiān)督,包括:
- subtask-level annotations:把長程軌跡拆成可執(zhí)行、可理解的子任務(wù);
- native keyframe annotations:顯式標(biāo)記那些真正重要的物理狀態(tài)轉(zhuǎn)折;
- 與軌跡對應(yīng)的視覺觀測、動作和機(jī)器人狀態(tài)。
也就是說,我們不僅告訴模型「這個任務(wù)要完成」,還盡量告訴它「歷史里哪些瞬間值得記住」。這也是 RoboMemArena 和很多已有 benchmark 非常不同的地方。
![]()
2. 它在 memory benchmark 里足夠長程,也足夠 diverse
RoboMemArena 一共包含26 個任務(wù),覆蓋四類典型的 memory-demand setting:
- Transferring(物體轉(zhuǎn)移)
- Occlusion(目標(biāo)遮擋)
- Counting(動作計數(shù))
- Sequence(順序執(zhí)行)
這些任務(wù)并不是為了「湊數(shù)量」,而是圍繞 reactive policy 的典型失敗模式來設(shè)計的。從統(tǒng)計上看,RoboMemArena 有幾個非常關(guān)鍵的數(shù)字:
- 平均每個任務(wù)超過 1000 steps
- 一共收集2600 條長程視覺軌跡
- 進(jìn)一步切分得到15100 個 keyframe-aligned 短段
- 全部 151 個子任務(wù)里,68.9% 是 memory-dependent
![]()
換句話說,這不是一個「順帶考一下記憶」的 benchmark,而是一個把歷史依賴明確放到臺面上的 benchmark。
3. 它不只停留在 simulation,還配套了復(fù)雜真機(jī)測評
這也是我們特別想補(bǔ)上的地方。
如果一個 memory 方法只能在 simulation 里有效,那它距離真正的 embodied system 還是有一段距離。所以在 RoboMemArena 里,我們不僅做了仿真 benchmark,還配套設(shè)計了5 個真實(shí)機(jī)器人 memory 任務(wù):
- Pour Bottle ×2(動作計數(shù)任務(wù))
- Brush Plates with Swap(狀態(tài)不可見任務(wù))
- Transfer Objects(順序執(zhí)行任務(wù))
- Shell Game(隱藏狀態(tài)追蹤任務(wù))
- IHMBImitate Human to Make Breakfast (IHMB)(長程模仿任務(wù))
其中最長的真實(shí)任務(wù)超過 3 分鐘,而且在最復(fù)雜的IHMB(模仿人類做早餐) 任務(wù)上,只有我們的PrediMem能夠成功完成。
這意味著 memory 機(jī)制帶來的提升,不只是 simulation 里的表面收益,而是在真實(shí)執(zhí)行噪聲下依然有價值。
為什么我們說它 easy to use?
我們不希望 RoboMemArena 只是一個「寫論文用的 benchmark」,也希望它能被后來者真正拿來訓(xùn)練、復(fù)現(xiàn)和比較。所以在開放資源上,我們盡量把入口做完整:
- 開源26 個任務(wù)的高質(zhì)量訓(xùn)練數(shù)據(jù),并帶有子任務(wù)、關(guān)鍵幀、HDF5 軌跡結(jié)構(gòu)等豐富標(biāo)注;
- 提供26 個 BDDL 任務(wù)定義、LIBERO-compatible evaluation environment,以及與mujoco + robosuite + OpenGL/EGL兼容的評測路徑;
- 開放PrediMem相關(guān)訓(xùn)練與評測實(shí)現(xiàn)入口,并已經(jīng)系統(tǒng)跑出π0.5、MemoryVLA、MemER、HiF-VLA等代表性 baseline。
換句話說,如果你想直接在統(tǒng)一 benchmark 上做 robot memory 研究,RoboMemArena 已經(jīng)盡量把最費(fèi)時間的那部分前置工作替大家做掉了。
PrediMem 到底強(qiáng)在哪里?
![]()
如果說 RoboMemArena 回答的是:memory benchmark 應(yīng)該怎么做。那么 PrediMem 回答的就是:在這樣一個 benchmark 上,一個真正有效的 memory-aware baseline 應(yīng)該長什么樣
PrediMem 是一個dual-system VLA:
- 高層 VLM 負(fù)責(zé)規(guī)劃和 memory 管理
- 低層 VLA 負(fù)責(zé)執(zhí)行動作 chunk
它的關(guān)鍵不在于盲目加大模型,而在于讓高層 planner 顯式維護(hù):
- recent-frame buffer
- keyframe buffer
并且通過predictive coding head,讓高層表征對物理狀態(tài)轉(zhuǎn)折更敏感。這種設(shè)計看起來不算復(fù)雜,但在 long-horizon、partially observable 的場景里非常關(guān)鍵。
實(shí)驗上,它把 memory 這件事真正拉開了差距
![]()
在仿真實(shí)驗里,PrediMem 的整體結(jié)果優(yōu)于所有 baseline:
- PrediMem:38.5% TSR / 55.2% CSR
- MemER:27.3% TSR / 49.1% CSR
- π0.5:21.5% TSR / 38.7% CSR
如果再細(xì)看四類任務(wù),PrediMem 在Transferring、Occlusion、Counting、Sequence上都拿到了最好的平均結(jié)果,其中在最依賴歷史狀態(tài)保持的Sequence上達(dá)到72.5% TSR / 89.5% CSR,在Occlusion和Counting這兩類 memory-demand 最強(qiáng)的設(shè)置里也明顯拉開了和 baseline 的差距。
而在真實(shí)機(jī)器人任務(wù)上,結(jié)果同樣清楚:
- PrediMem:52% average success
- MemER:40%
- π0.5
更重要的是,在最長、最復(fù)雜、最依賴歷史信息的IHMB上,只有 PrediMem 成功。而且從消融實(shí)驗也能看到,無論去掉predictive coding head還是拿掉keyframe bank,整體表現(xiàn)都會明顯下降。
這說明 PrediMem 的優(yōu)勢并不來自單純「模型更大」,而是確實(shí)來自對歷史信息組織方式的改進(jìn)。這也說明 memory 不是一個「錦上添花」的小模塊,而是長程機(jī)器人執(zhí)行里決定任務(wù)能不能貫通的核心能力。
我們真正希望 RoboMemArena 帶來什么?
我們希望它不只是又一個 benchmark 名字,更希望它把一個長期被低估的問題真正抬出來:對于 long-horizon robotic execution,memory 不是可選項,而是基礎(chǔ)能力。
如果一個系統(tǒng)不能記住:
- 之前發(fā)生了什么
- 哪些狀態(tài)變化值得保留
- 人類剛剛示范過怎樣的順序
那么它在真實(shí)復(fù)雜任務(wù)里就很難真正穩(wěn)定。
RoboMemArena 想做的,就是把這件事用一個更完整、更可訓(xùn)練、更可比較、也更能落到真機(jī)上的方式組織起來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.