无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

浙江理工大學馬嘯講師和南京大學李武軍教授課題組聯合提出EMCES

0
分享至



近年來,強化學習在游戲智能體、具身智能、大語言模型等領域取得了顯著進展。然而,在真實世界中,強化學習仍面臨一個核心難題:高質量樣本的獲取不僅成本高昂,還可能帶來多種風險。因此,樣本增強成為緩解強化學習中樣本獲取成本高、風險大等問題的重要途徑之一。

近年來,受擴散模型其強大分布建模能力的啟發,研究者們提出了基于擴散模型的樣本增強方法(代表方法是 SynthER [1]),通過合成高保真樣本實現訓練數據的擴充。

然而,合成樣本雖然符合真實環境動態,但未必最助于智能體的策略學習。為了更清楚地展示這一局限性,論文采用經典離線強化學習算法 TD3+BC [2],在合成樣本集上訓練智能體并評估其表現。實驗在 Hopper 環境中的 medium-expert 樣本集上進行。該樣本集由 D4RL 基準 [3] 提供,包含約 200 萬條直接從環境中預先采集的樣本。合成樣本集由 SynthER 合成所得,其規模設置為從 10 萬條到 500 萬條不等。

實驗結果如下(原論文圖 1b)。



從圖中可以看出,只有當合成樣本集的規模遠大于原始樣本集時,合成樣本才有可能充分覆蓋高質量樣本區域,并進一步獲得相應的策略性能提升。這一觀察揭示了當前基于擴散模型的樣本增強方法所面臨的局限性:其樣本合成過程缺乏有效的可控機制,因而難以優先合成對策略學習更有價值的高質量樣本。

針對這一局限性,浙江理工大學馬嘯講師與南京大學李武軍教授課題組聯合提出了一種高效樣本合成方法 EMCES。EMCES 將情景記憶機制引入可控擴散模型,并利用情景記憶機制引導高質量樣本的合成,從而進一步提升下游強化學習算法的表現。

EMCES 是首個將情景記憶引入可控擴散模型,并利用情景記憶指導強化學習樣本合成的工作。此外,論文提出了基于哈希的狀態表示方法,以提升情景記憶機制的存儲效率和檢索效率。實驗結果表明,在不損失下游強化學習算法表現的情況下,在存儲開銷上比已有的狀態表示方法降低約 8000 倍,在時間開銷上比已有的狀態表示方法降低 25.5 倍。

該論文已被 ICML2026 錄用。南京大學李武軍教授為通訊作者,浙江理工大學馬嘯講師為第一作者,南京大學碩士生李天為參與作者。



  • 論文標題:Episodic Memory-Guided Controllable Experience Synthesis for Reinforcement Learning
  • 論文地址:https://openreview.net/forum?id=mjYcL7esQO

1. 方法簡介

情景記憶在人類大腦中發揮著重要作用,是人類快速學習與高效經驗利用的重要基礎。受此啟發,在強化學習中,情景記憶能夠存儲、整合并檢索有價值的歷史經驗,使智能體可以直接訪問高質量的過往經驗信息,從而提升強化學習算法的樣本效率。

基于這一思想,EMCES 利用情景記憶存儲歷史經驗中的高價值信息,為可控擴散模型設計控制條件,并引導可控擴散模型合成更高質量的樣本。具體而言,EMCES 包含三個關鍵組件:基于情景記憶的可控擴散模型、基于情景記憶時序差分誤差的優先條件采樣策略,以及基于哈希表示的情景記憶機制。

EMCES 的架構圖為:



1.1 基于情景記憶的可控擴散模型



















1.2 基于情景記憶時序差分誤差的優先條件采樣策略

盡管基于情景記憶的可控擴散模型可以直接用于合成樣本,但其核心優勢在于能夠以可控方式合成高質量樣本。直觀而言,樣本合成過程不僅應當符合底層樣本分布,還應進一步優先合成對智能體策略學習更有價值的樣本。











1.3 基于哈希狀態表示的情景記憶



對于情景記憶機制,論文沿用團隊前期工作 [5] 中的實現方式,即 KD-樹。其對應的存儲復雜度、檢索時間復雜度和構建時間復雜度分別為:







2. 實驗結果

為驗證 EMCES 的有效性,論文分別在離線強化學習和在線強化學習設置下進行實驗。首先是在離線強化學習設置下,論文從 D4RL 基準中選取 HalfCheetah、Walker2d、Hopper 和 Maze2D 作為實驗環境,選取 TD3+BC、IQL 和 EDAC 三種代表性離線強化學習算法對合成樣本集的質量進行評估。下表中的結果表明,EMCES 在多數任務中提升了下游算法表現,并且合成樣本訓練效果經常達到甚至超過原始樣本集訓練效果(原論文表 1)。



在在線強化學習設置下,論文選擇了 quadruped-walk、reacher-hard、cheetah-run、Walker2d、HalfCheetah 和 Hopper 等 6 個環境來評估 EMCES。論文使用 SAC 作為在線強化學習算法。除了 SynthER 之外,論文還與一種專注于在線強化學習的樣本增強方法 PGR [6] 進行對比。更多實驗細節見原論文。下圖結果表明(原論文圖 4),SAC (EMCES) 能夠持續提升樣本效率,并優于 SAC (SynthER) 和 SAC (PGR),這表明 EMCES 合成的數據質量更高。



論文還對情景記憶中的狀態表示方法進行了討論。論文在表(原論文表 4)中總結了 EMCES 在不同狀態表示下的歸一化分數,括號中的數字表示 EMCES 在不同狀態表示下相較于 SynthER 所取得的歸一化分數提升。為了公平比較,所有實驗在一臺配備 36 核 72 線程 Intel Xeon Gold 6240 CPU @ 2.60GHz、377 GB 內存和 8 塊 NVIDIA GeForce RTX2080Ti GPU 的工作站上進行。如下表所示,EMCES 在不同狀態表示下均取得了優于 SynthER 的表現。

這一結果驗證了 EMCES 整體框架的有效性。同時,下表匯報了在不同狀態表示下,建立情景記憶機制所需的存儲成本和時間成本,其中時間成本同時包括檢索時間成本和構建時間成本。可以發現,基于哈希的狀態表示和基于網格的狀態表示均能顯著降低存儲和時間成本。與基于隨機投影的狀態表示相比,在不損失歸一化分數的情況下,基于哈希的狀態表示將存儲成本降低了約 8000 倍,將時間成本降低了約 25.5 倍。此外,論文還對可控擴散模型的條件設計、采樣策略的設計進行了消融實驗,更多討論可見原文。



3. 全文小結

EMCES 具有如下優點:

  • 合成過程強可控:EMCES 將情景記憶機制引入可控擴散模型中,通過情景記憶機制構造條件,引導擴散模型合成與目標任務更相關的樣本,從而提升了樣本增強的可控性;
  • 合成樣本質量高:EMCES 利用情景記憶時序差分誤差評估樣本對于策略學習的潛在價值,并在采樣過程中優先關注更具潛在價值的樣本區域,從而合成高質量樣本;
  • 情景記憶高效性:采用基于哈希的狀態表示后,情景記憶機制能夠在不損失下游強化學習算法表現的情況下,在存儲開銷上比已有的狀態表示方法降低約 8000 倍,在時間開銷上比已有的狀態表示方法降低 25.5 倍。

參考文獻:

[1] Lu, C., Ball, P. J., Teh, Y. W., and Parker-Holder, J. Synthetic experience replay. In NeurIPS, 2023b.

[2] Fujimoto, S. and Gu, S. S. A minimalist approach to offline reinforcement learning. In NeurIPS, 2021.

[3] Fu, J., Kumar, A., Nachum, O., Tucker, G., and Levine, S. D4RL: datasets for deep data-driven reinforcement learning. CoRR, abs/2004.07219, 2020.

[4] Kong, W. and Li, W.-J. Isotropic hashing. In NeurIPS, 2012.

[5] Ma, X. and Li, W.-J. State-based episodic memory for multi-agentreinforcement learning. Machine Learning, 112(12):5163–5190, 2023.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鬧劇升級!周茂強吃住都賴在朱樓村,大衣哥徹底被纏上甩不掉

鬧劇升級!周茂強吃住都賴在朱樓村,大衣哥徹底被纏上甩不掉

小椰的奶奶
2026-07-01 17:41:00
醫生:希望你的血脂報告里,永遠不要出現這3項異常

醫生:希望你的血脂報告里,永遠不要出現這3項異常

華庭講美食
2026-06-23 16:28:06
2026年養老金調整工作即將啟動,工齡40年以上人員,調整更多嗎?

2026年養老金調整工作即將啟動,工齡40年以上人員,調整更多嗎?

青梅侃史啊
2026-07-02 14:26:41
教師大勢已定?不出意外的話,今明年教師行業將迎來3大轉變

教師大勢已定?不出意外的話,今明年教師行業將迎來3大轉變

侃故事的阿慶
2026-07-01 19:49:39
專家:一旦臺島發生大地震,解放軍必刻不容緩在美日前采取行動!

專家:一旦臺島發生大地震,解放軍必刻不容緩在美日前采取行動!

阿龍聊軍事
2026-07-02 11:39:13
為了不讓中國人用 Claude,A社塞了個“間諜軟件”。。。

為了不讓中國人用 Claude,A社塞了個“間諜軟件”。。。

差評XPIN
2026-07-01 23:54:51
昔日奧斯卡女神徹底“蛻變”!39歲艾利奧特·佩吉大秀腹肌

昔日奧斯卡女神徹底“蛻變”!39歲艾利奧特·佩吉大秀腹肌

情感大頭說說
2026-07-01 18:57:59
最牛“漢奸”夏文運:吃日本飯睡日本女人,僅用8個字消滅2萬日寇

最牛“漢奸”夏文運:吃日本飯睡日本女人,僅用8個字消滅2萬日寇

大運河時空
2026-07-01 14:25:03
西安賽格商戶墜亡:四年罰單上千萬,貨款被扣,一封遺書揭開真相

西安賽格商戶墜亡:四年罰單上千萬,貨款被扣,一封遺書揭開真相

奇思妙想草葉君
2026-07-02 17:11:17
A股:今天跌破4030了,明天,周五行情提前分析!

A股:今天跌破4030了,明天,周五行情提前分析!

明心
2026-07-02 15:06:45
父親去世7個月,羅晉近況曝光!身形微微發福、頭頂變禿盡顯滄桑

父親去世7個月,羅晉近況曝光!身形微微發福、頭頂變禿盡顯滄桑

小椰的奶奶
2026-07-02 17:47:44
一夜刷屏!霸王茶姬突然能0元下單,網友瘋狂涌入擠爆后臺

一夜刷屏!霸王茶姬突然能0元下單,網友瘋狂涌入擠爆后臺

極目新聞
2026-07-02 11:19:48
從“孩童C位”到“全員沉默”,清華畢業照事件還會有后續嗎?

從“孩童C位”到“全員沉默”,清華畢業照事件還會有后續嗎?

阿陸
2026-07-02 17:45:36
騎士開始清人!要迎回詹姆斯了嗎?!!

騎士開始清人!要迎回詹姆斯了嗎?!!

柚子說球
2026-07-01 23:41:30
你將不得不把奧利塞賣給我:老佛爺警告拜仁慕尼黑主席

你將不得不把奧利塞賣給我:老佛爺警告拜仁慕尼黑主席

本澤體育
2026-07-02 16:01:38
我國的老朋友葉利欽:歸還大片領土,卻被俄羅斯人視為罪人!

我國的老朋友葉利欽:歸還大片領土,卻被俄羅斯人視為罪人!

抽象派大師
2026-06-30 01:16:43
兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

五元講堂
2025-06-12 15:16:01
聯合早報突然改口,主動收回之前的“攻心戰”言論,還夸《給阿嫲的情書》很不錯

聯合早報突然改口,主動收回之前的“攻心戰”言論,還夸《給阿嫲的情書》很不錯

老吳教育課堂
2026-07-02 12:06:13
我真蠢,我竟然去看了《抓特務》

我真蠢,我竟然去看了《抓特務》

呦呦鹿鳴
2026-06-28 22:42:42
午后,全線暴跌!美伊談判,最新消息

午后,全線暴跌!美伊談判,最新消息

金融界
2026-07-02 16:23:57
2026-07-02 18:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13419文章數 142685關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

西安賽格某商戶負責人墜亡 疑曾發文稱被商場罰款千萬

頭條要聞

西安賽格某商戶負責人墜亡 疑曾發文稱被商場罰款千萬

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態度原創

健康
游戲
數碼
旅游
公開課

這4類消化病患者 吃粘食管住嘴

前PS總裁評測Steaam主機:仿佛回到PS4時代

數碼要聞

RTX 5090D液氮超頻首破4GHz

旅游要聞

安徽淮南:博物館迎來暑期參觀熱潮

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版