網易首頁 > 網易號 > 正文申請入駐

浙江理工大學馬嘯講師和南京大學李武軍教授課題組聯合提出EMCES

2026-07-02 13:12:28　來源: 機器之心Pro

天津舉報

分享至

近年來，強化學習在游戲智能體、具身智能、大語言模型等領域取得了顯著進展。然而，在真實世界中，強化學習仍面臨一個核心難題：高質量樣本的獲取不僅成本高昂，還可能帶來多種風險。因此，樣本增強成為緩解強化學習中樣本獲取成本高、風險大等問題的重要途徑之一。

近年來，受擴散模型其強大分布建模能力的啟發，研究者們提出了基于擴散模型的樣本增強方法（代表方法是 SynthER [1]），通過合成高保真樣本實現訓練數據的擴充。

然而，合成樣本雖然符合真實環境動態，但未必最助于智能體的策略學習。為了更清楚地展示這一局限性，論文采用經典離線強化學習算法 TD3+BC [2]，在合成樣本集上訓練智能體并評估其表現。實驗在 Hopper 環境中的 medium-expert 樣本集上進行。該樣本集由 D4RL 基準 [3] 提供，包含約 200 萬條直接從環境中預先采集的樣本。合成樣本集由 SynthER 合成所得，其規模設置為從 10 萬條到 500 萬條不等。

實驗結果如下（原論文圖 1b）。

從圖中可以看出，只有當合成樣本集的規模遠大于原始樣本集時，合成樣本才有可能充分覆蓋高質量樣本區域，并進一步獲得相應的策略性能提升。這一觀察揭示了當前基于擴散模型的樣本增強方法所面臨的局限性：其樣本合成過程缺乏有效的可控機制，因而難以優先合成對策略學習更有價值的高質量樣本。

針對這一局限性，浙江理工大學馬嘯講師與南京大學李武軍教授課題組聯合提出了一種高效樣本合成方法 EMCES。EMCES 將情景記憶機制引入可控擴散模型，并利用情景記憶機制引導高質量樣本的合成，從而進一步提升下游強化學習算法的表現。

EMCES 是首個將情景記憶引入可控擴散模型，并利用情景記憶指導強化學習樣本合成的工作。此外，論文提出了基于哈希的狀態表示方法，以提升情景記憶機制的存儲效率和檢索效率。實驗結果表明，在不損失下游強化學習算法表現的情況下，在存儲開銷上比已有的狀態表示方法降低約 8000 倍，在時間開銷上比已有的狀態表示方法降低 25.5 倍。

該論文已被 ICML2026 錄用。南京大學李武軍教授為通訊作者，浙江理工大學馬嘯講師為第一作者，南京大學碩士生李天為參與作者。

論文標題：Episodic Memory-Guided Controllable Experience Synthesis for Reinforcement Learning
論文地址：https://openreview.net/forum?id=mjYcL7esQO

1. 方法簡介

情景記憶在人類大腦中發揮著重要作用，是人類快速學習與高效經驗利用的重要基礎。受此啟發，在強化學習中，情景記憶能夠存儲、整合并檢索有價值的歷史經驗，使智能體可以直接訪問高質量的過往經驗信息，從而提升強化學習算法的樣本效率。

基于這一思想，EMCES 利用情景記憶存儲歷史經驗中的高價值信息，為可控擴散模型設計控制條件，并引導可控擴散模型合成更高質量的樣本。具體而言，EMCES 包含三個關鍵組件：基于情景記憶的可控擴散模型、基于情景記憶時序差分誤差的優先條件采樣策略，以及基于哈希表示的情景記憶機制。

EMCES 的架構圖為：

1.1 基于情景記憶的可控擴散模型

1.2 基于情景記憶時序差分誤差的優先條件采樣策略

盡管基于情景記憶的可控擴散模型可以直接用于合成樣本，但其核心優勢在于能夠以可控方式合成高質量樣本。直觀而言，樣本合成過程不僅應當符合底層樣本分布，還應進一步優先合成對智能體策略學習更有價值的樣本。

1.3 基于哈希狀態表示的情景記憶

對于情景記憶機制，論文沿用團隊前期工作 [5] 中的實現方式，即 KD-樹。其對應的存儲復雜度、檢索時間復雜度和構建時間復雜度分別為：

2. 實驗結果

為驗證 EMCES 的有效性，論文分別在離線強化學習和在線強化學習設置下進行實驗。首先是在離線強化學習設置下，論文從 D4RL 基準中選取 HalfCheetah、Walker2d、Hopper 和 Maze2D 作為實驗環境，選取 TD3+BC、IQL 和 EDAC 三種代表性離線強化學習算法對合成樣本集的質量進行評估。下表中的結果表明，EMCES 在多數任務中提升了下游算法表現，并且合成樣本訓練效果經常達到甚至超過原始樣本集訓練效果（原論文表 1）。

在在線強化學習設置下，論文選擇了 quadruped-walk、reacher-hard、cheetah-run、Walker2d、HalfCheetah 和 Hopper 等 6 個環境來評估 EMCES。論文使用 SAC 作為在線強化學習算法。除了 SynthER 之外，論文還與一種專注于在線強化學習的樣本增強方法 PGR [6] 進行對比。更多實驗細節見原論文。下圖結果表明（原論文圖 4），SAC (EMCES) 能夠持續提升樣本效率，并優于 SAC (SynthER) 和 SAC (PGR)，這表明 EMCES 合成的數據質量更高。

論文還對情景記憶中的狀態表示方法進行了討論。論文在表（原論文表 4）中總結了 EMCES 在不同狀態表示下的歸一化分數，括號中的數字表示 EMCES 在不同狀態表示下相較于 SynthER 所取得的歸一化分數提升。為了公平比較，所有實驗在一臺配備 36 核 72 線程 Intel Xeon Gold 6240 CPU @ 2.60GHz、377 GB 內存和 8 塊 NVIDIA GeForce RTX2080Ti GPU 的工作站上進行。如下表所示，EMCES 在不同狀態表示下均取得了優于 SynthER 的表現。

這一結果驗證了 EMCES 整體框架的有效性。同時，下表匯報了在不同狀態表示下，建立情景記憶機制所需的存儲成本和時間成本，其中時間成本同時包括檢索時間成本和構建時間成本。可以發現，基于哈希的狀態表示和基于網格的狀態表示均能顯著降低存儲和時間成本。與基于隨機投影的狀態表示相比，在不損失歸一化分數的情況下，基于哈希的狀態表示將存儲成本降低了約 8000 倍，將時間成本降低了約 25.5 倍。此外，論文還對可控擴散模型的條件設計、采樣策略的設計進行了消融實驗，更多討論可見原文。

3. 全文小結

EMCES 具有如下優點：

合成過程強可控：EMCES 將情景記憶機制引入可控擴散模型中，通過情景記憶機制構造條件，引導擴散模型合成與目標任務更相關的樣本，從而提升了樣本增強的可控性；
合成樣本質量高：EMCES 利用情景記憶時序差分誤差評估樣本對于策略學習的潛在價值，并在采樣過程中優先關注更具潛在價值的樣本區域，從而合成高質量樣本；
情景記憶高效性：采用基于哈希的狀態表示后，情景記憶機制能夠在不損失下游強化學習算法表現的情況下，在存儲開銷上比已有的狀態表示方法降低約 8000 倍，在時間開銷上比已有的狀態表示方法降低 25.5 倍。

參考文獻：

[1] Lu, C., Ball, P. J., Teh, Y. W., and Parker-Holder, J. Synthetic experience replay. In NeurIPS, 2023b.

[2] Fujimoto, S. and Gu, S. S. A minimalist approach to offline reinforcement learning. In NeurIPS, 2021.

[3] Fu, J., Kumar, A., Nachum, O., Tucker, G., and Levine, S. D4RL: datasets for deep data-driven reinforcement learning. CoRR, abs/2004.07219, 2020.

[4] Kong, W. and Li, W.-J. Isotropic hashing. In NeurIPS, 2012.

[5] Ma, X. and Li, W.-J. State-based episodic memory for multi-agentreinforcement learning. Machine Learning, 112(12):5163–5190, 2023.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.