无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身智能邁入下半場,RoboMemArena全面評測機(jī)器人記憶系統(tǒng)

0
分享至



具身基座模型(VLA、世界模型)這兩年進(jìn)步很快。但只要任務(wù)一長、場景一復(fù)雜,一個很現(xiàn)實(shí)的問題就會立刻出現(xiàn):機(jī)器人很多時候不是「不會做」,而是「記不住」。比如:

  • 柜子之前有沒有打開過?
  • 物體被遮擋之前放到了哪里?
  • 某個重復(fù)動作已經(jīng)執(zhí)行了幾次?
  • 人類剛才示范過的順序到底是什么?

這些都不是只看當(dāng)前一幀圖像就能解決的問題。也正因為如此,我們越來越覺得:現(xiàn)有很多機(jī)器人 benchmark 雖然在操作上已經(jīng)很豐富,但對 memory-dependent long-horizon manipulation 的刻畫還遠(yuǎn)遠(yuǎn)不夠

于是,香港科技大學(xué)(廣州)聯(lián)合清華大學(xué)、浙江大學(xué)、西湖大學(xué)、上海交通大學(xué)等多所頂尖高校與科研機(jī)構(gòu)共同打造了具身智能領(lǐng)域首個聚焦「機(jī)器人記憶能力」的系統(tǒng)性評測基準(zhǔn)RoboMemArena,旨在填補(bǔ)長期以來機(jī)器人在長時程任務(wù)與歷史狀態(tài)記憶評估上的空白。

該基準(zhǔn)突破傳統(tǒng)機(jī)器人 Benchmark 僅關(guān)注短期感知與即時控制的局限,構(gòu)建了涵蓋物體轉(zhuǎn)移、目標(biāo)遮擋、動作計數(shù)與順序執(zhí)行四大核心記憶場景的綜合評測體系,共包含 26 項長時程任務(wù)、151 個細(xì)粒度子任務(wù)以及 2600 條專家演示軌跡。同時配套復(fù)雜的真機(jī)測評和 leaderboard,支持外部單位手動上傳模型進(jìn)行真機(jī)評測,為具身智能系統(tǒng)在長期規(guī)劃、世界狀態(tài)理解與動態(tài)決策方面提供了更接近真實(shí)世界的統(tǒng)一評測標(biāo)準(zhǔn)。



  • 論文標(biāo)題:RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
  • 論文地址:https://arxiv.org/abs/2605.10921
  • 項目地址:https://robomemarena.github.io/
  • 代碼地址:https://github.com/OpenHelix-Team/RoboMemArena
  • Leaderboard地址:https://robomemarena.github.io/leaderboard.html
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/RoboMemArenaBenchmark/RoboMemArena

如果一個 benchmark 本身沒有把 memory 需求設(shè)計清楚,那么后面的模型比較其實(shí)很難公平:

  • 有些任務(wù)看起來很長,但其實(shí)當(dāng)前觀察就足夠決策;
  • 有些 benchmark 有長程執(zhí)行,卻沒有為 memory formation 提供直接監(jiān)督;
  • 還有一些工作只停留在 simulation,沒有配套的真實(shí)機(jī)器人驗證。

RoboMemArena 想補(bǔ)上的,正是這塊空缺。它不是簡單做更多任務(wù),而是試圖把「機(jī)器人到底什么時候必須依賴歷史信息」這件事,系統(tǒng)化地組織起來。



RoboMemArena 的三個核心特點(diǎn)

1. 它提供了構(gòu)建 robot memory 所必需的多模態(tài)標(biāo)注

這是我們最看重的一點(diǎn)。很多 memory benchmark 只能告訴你最終成功還是失敗,但如果模型真的要學(xué)會「記住過去」,它需要的往往不只是最終標(biāo)簽。

RoboMemArena 提供了更貼近 memory formation 的多模態(tài)監(jiān)督,包括:

  • subtask-level annotations:把長程軌跡拆成可執(zhí)行、可理解的子任務(wù);
  • native keyframe annotations:顯式標(biāo)記那些真正重要的物理狀態(tài)轉(zhuǎn)折;
  • 與軌跡對應(yīng)的視覺觀測、動作和機(jī)器人狀態(tài)。

也就是說,我們不僅告訴模型「這個任務(wù)要完成」,還盡量告訴它「歷史里哪些瞬間值得記住」。這也是 RoboMemArena 和很多已有 benchmark 非常不同的地方。



2. 它在 memory benchmark 里足夠長程,也足夠 diverse

RoboMemArena 一共包含26 個任務(wù),覆蓋四類典型的 memory-demand setting:

  • Transferring(物體轉(zhuǎn)移)
  • Occlusion(目標(biāo)遮擋)
  • Counting(動作計數(shù))
  • Sequence(順序執(zhí)行)

這些任務(wù)并不是為了「湊數(shù)量」,而是圍繞 reactive policy 的典型失敗模式來設(shè)計的。從統(tǒng)計上看,RoboMemArena 有幾個非常關(guān)鍵的數(shù)字:

  • 平均每個任務(wù)超過 1000 steps
  • 一共收集2600 條長程視覺軌跡
  • 進(jìn)一步切分得到15100 個 keyframe-aligned 短段
  • 全部 151 個子任務(wù)里,68.9% 是 memory-dependent



換句話說,這不是一個「順帶考一下記憶」的 benchmark,而是一個把歷史依賴明確放到臺面上的 benchmark。

3. 它不只停留在 simulation,還配套了復(fù)雜真機(jī)測評

這也是我們特別想補(bǔ)上的地方。

如果一個 memory 方法只能在 simulation 里有效,那它距離真正的 embodied system 還是有一段距離。所以在 RoboMemArena 里,我們不僅做了仿真 benchmark,還配套設(shè)計了5 個真實(shí)機(jī)器人 memory 任務(wù)

  • Pour Bottle ×2(動作計數(shù)任務(wù))
  • Brush Plates with Swap(狀態(tài)不可見任務(wù))
  • Transfer Objects(順序執(zhí)行任務(wù))
  • Shell Game(隱藏狀態(tài)追蹤任務(wù))
  • IHMBImitate Human to Make Breakfast (IHMB)(長程模仿任務(wù))

其中最長的真實(shí)任務(wù)超過 3 分鐘,而且在最復(fù)雜的IHMB(模仿人類做早餐) 任務(wù)上,只有我們的PrediMem能夠成功完成。

這意味著 memory 機(jī)制帶來的提升,不只是 simulation 里的表面收益,而是在真實(shí)執(zhí)行噪聲下依然有價值。

為什么我們說它 easy to use?

我們不希望 RoboMemArena 只是一個「寫論文用的 benchmark」,也希望它能被后來者真正拿來訓(xùn)練、復(fù)現(xiàn)和比較。所以在開放資源上,我們盡量把入口做完整:

  • 開源26 個任務(wù)的高質(zhì)量訓(xùn)練數(shù)據(jù),并帶有子任務(wù)、關(guān)鍵幀、HDF5 軌跡結(jié)構(gòu)等豐富標(biāo)注;
  • 提供26 個 BDDL 任務(wù)定義、LIBERO-compatible evaluation environment,以及與mujoco + robosuite + OpenGL/EGL兼容的評測路徑;
  • 開放PrediMem相關(guān)訓(xùn)練與評測實(shí)現(xiàn)入口,并已經(jīng)系統(tǒng)跑出π0.5、MemoryVLA、MemER、HiF-VLA等代表性 baseline。

換句話說,如果你想直接在統(tǒng)一 benchmark 上做 robot memory 研究,RoboMemArena 已經(jīng)盡量把最費(fèi)時間的那部分前置工作替大家做掉了。

PrediMem 到底強(qiáng)在哪里?



如果說 RoboMemArena 回答的是:memory benchmark 應(yīng)該怎么做。那么 PrediMem 回答的就是:在這樣一個 benchmark 上,一個真正有效的 memory-aware baseline 應(yīng)該長什么樣

PrediMem 是一個dual-system VLA

  • 高層 VLM 負(fù)責(zé)規(guī)劃和 memory 管理
  • 低層 VLA 負(fù)責(zé)執(zhí)行動作 chunk

它的關(guān)鍵不在于盲目加大模型,而在于讓高層 planner 顯式維護(hù):

  • recent-frame buffer
  • keyframe buffer

并且通過predictive coding head,讓高層表征對物理狀態(tài)轉(zhuǎn)折更敏感。這種設(shè)計看起來不算復(fù)雜,但在 long-horizon、partially observable 的場景里非常關(guān)鍵。

實(shí)驗上,它把 memory 這件事真正拉開了差距



在仿真實(shí)驗里,PrediMem 的整體結(jié)果優(yōu)于所有 baseline:

  • PrediMem:38.5% TSR / 55.2% CSR
  • MemER:27.3% TSR / 49.1% CSR
  • π0.5:21.5% TSR / 38.7% CSR

如果再細(xì)看四類任務(wù),PrediMem 在Transferring、Occlusion、Counting、Sequence上都拿到了最好的平均結(jié)果,其中在最依賴歷史狀態(tài)保持的Sequence上達(dá)到72.5% TSR / 89.5% CSR,在OcclusionCounting這兩類 memory-demand 最強(qiáng)的設(shè)置里也明顯拉開了和 baseline 的差距。

而在真實(shí)機(jī)器人任務(wù)上,結(jié)果同樣清楚:

  • PrediMem:52% average success
  • MemER:40%
  • π0.5

更重要的是,在最長、最復(fù)雜、最依賴歷史信息的IHMB上,只有 PrediMem 成功。而且從消融實(shí)驗也能看到,無論去掉predictive coding head還是拿掉keyframe bank,整體表現(xiàn)都會明顯下降。

這說明 PrediMem 的優(yōu)勢并不來自單純「模型更大」,而是確實(shí)來自對歷史信息組織方式的改進(jìn)。這也說明 memory 不是一個「錦上添花」的小模塊,而是長程機(jī)器人執(zhí)行里決定任務(wù)能不能貫通的核心能力。

我們真正希望 RoboMemArena 帶來什么?

我們希望它不只是又一個 benchmark 名字,更希望它把一個長期被低估的問題真正抬出來:對于 long-horizon robotic execution,memory 不是可選項,而是基礎(chǔ)能力。

如果一個系統(tǒng)不能記住:

  • 之前發(fā)生了什么
  • 哪些狀態(tài)變化值得保留
  • 人類剛剛示范過怎樣的順序

那么它在真實(shí)復(fù)雜任務(wù)里就很難真正穩(wěn)定。

RoboMemArena 想做的,就是把這件事用一個更完整、更可訓(xùn)練、更可比較、也更能落到真機(jī)上的方式組織起來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴8個鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復(fù)措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟(jì)新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

項鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個數(shù)

醫(yī)學(xué)原創(chuàng)故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運(yùn)

D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運(yùn)

臺州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機(jī)復(fù)活

中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機(jī)復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬億!

最新!債務(wù)突破100萬億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價格戰(zhàn)遠(yuǎn)去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

數(shù)碼
親子
教育
房產(chǎn)
公開課

數(shù)碼要聞

消息稱微軟下周發(fā)布英偉達(dá)處理器Windows PC,戴爾也會跟進(jìn)

親子要聞

今天我們吃公主糖果玩公主裝扮游戲

教育要聞

別再丟分了!中考物理焦耳定律實(shí)驗,一道題搞定4 個高頻易錯點(diǎn)

房產(chǎn)要聞

紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版