網易首頁 > 網易號 > 正文申請入駐

強化學習課程的熱力學

2026-04-21 14:21:16　來源: CreateAMind

上海舉報

分享至

Thermodynamics of Reinforcement Learning Curricula

強化學習課程的熱力學

https://arxiv.org/pdf/2603.12324

摘要

統計力學與機器學習之間的聯系已被反復證明是富有成效的，為優化、泛化與表示學習提供了深刻見解。在本研究中，我們延續這一傳統，利用非平衡熱力學的成果來形式化強化學習（RL）中的課程學習。具體而言，我們提出了一種用于RL的幾何框架，將獎勵參數解釋為任務流形上的坐標。我們表明，通過最小化超額熱力學功，最優課程對應于該任務空間中的測地線。作為該框架的一個應用，我們提供了一種算法“MEW”（最小超額功），用于推導最大熵RL中溫度退火的有理論依據的調度方案。

1 引言

現代強化學習（RL）系統很少在單一、靜態的任務上進行訓練。相反，通過課程學習、溫度退火、獎勵塑形以及其他非平穩目標，智能體通常會接觸一系列相關任務。然而，關于任務應如何變化的指導原則仍然缺乏深入理解。一種簡單實用的方法是隨時間對任務（即獎勵函數）參數進行線性插值。這種選擇隱含地假設了任務空間是平坦且各向同性的。在本研究中，我們假設這一假設是錯誤的，并旨在證明由智能體及其學習動力學所誘導出的非平凡幾何結構的存在。具體而言，我們采用一種基于統計力學的方法來研究參數化獎勵函數空間，揭示出一種自然度量，該度量量化了適應新任務所涉及的難度或“摩擦”。更具體地說，我們引入了一個摩擦張量，該張量在非平衡統計力學（NESM）中量化了控制系統所需的代價，使得最優參數協議對應于由該摩擦張量所誘導的幾何空間中的測地線。通過將RL映射到該框架上，我們獲得了一個關于課程最優性的有理論依據的假設，且該假設在實驗上易于處理：最優獎勵參數調度方案最小化了來自摩擦張量的路徑依賴超額成本，并遵循誘導任務空間中的測地線。這一幾何圖景有望統一RL中的幾種現象，例如基于勢函數的獎勵塑形、模擬退火以及特征坍塌。在本研究中，我們專注于線性獎勵函數參數化，并推導出一維任務調度的閉式表達式，從而提出了一種可直接應用于深度RL的熵溫度退火新方法。

2 背景

2.1 統計力學

在非平衡物理系統的控制中，出現了與強化學習（RL）中“課程”類似的概念。在統計力學框架下，系統動力學依賴于隨時間變化的外部控制參數（例如溫度、耦合強度、場強、勢阱位置等）。當這些參數的變化無限緩慢時（即在課程步驟之間允許策略完全收斂），系統保持在近平衡狀態，且此變化所需的外部功僅取決于端點。然而，當參數以有限速率變化時，系統保持在非平衡狀態，并產生額外的、路徑依賴的耗散，該耗散被量化為“超額功”（Jarzynski, 2008）。線性響應理論的一個核心結果表明，該超額功可關于參數變化速率進行二次近似（Sivak & Crooks, 2012）。該框架已在一系列經典與量子控制問題的建模中得到成功應用。

在本研究中，我們證明RL中的任務插值具有類似的幾何結構：獎勵參數的變化會引發瞬態次優性與學習低效性，而這種適應過程的主導階（leading-order）成本可由任務空間上的一個度量來刻畫，該度量由長期的、策略誘導的相關性所定義。歷史上，統計力學與機器學習之間的此類聯系已被證明極具價值，為優化、泛化與表示學習提供了深刻見解（Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024）。本研究的貢獻延續了這一傳統，即利用非平衡熱力學來形式化強化學習中的課程學習與任務插值。

2.2 最大熵強化學習

重要的是，該目標在軌跡上誘導了一個玻爾茲曼分布：最優策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此，來自統計力學的許多高級概念，如自由能、溫度和漲落，在MaxEnt RL中允許存在直接的類比。該表述構成了現代算法（如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a)）以及理論框架（如線性可解MDP (Todorov, 2006) 及其擴展 (Arriojas et al., 2023)）的基礎。

在本研究中，MaxEnt RL在與非平衡熱力學的物理圖像連接中扮演兩個角色：首先，它提供了軌跡上清晰的概率結構，使得閉式分析成為可能。其次，它允許將獎勵參數的動態變化解釋為底層分布的受控形變，使得將課程解釋為"非平衡驅動協議"變得精確。

3 課程學習的熱力學框架

對于這種參數化，我們將任務調度，或課程（curricula）， λ ( t ) ，定義為任務空間中連接兩個獎勵函數的（二階可微）路徑。于是核心問題變為：應當如何選擇 λ ( t ) 以最小化適應的總成本？

我們現在簡要概述用于解決此問題的框架，更多細節見附錄 A。在此框架中，為了形式化適應成本，我們追蹤隨著任務參數的變化，智能體可實現的期望累積獎勵是如何變化的。沿著一個課程 λ ( t ) ，總變化可以進行精確分解：一部分貢獻來自對外部獎勵函數的修改，另一部分貢獻源于策略本身的適應。沿著課程對這一分解進行積分，會產生一個路徑依賴的“超額功”（excess work），它僅在準靜態極限（quasistatic limit）下消失。將這一超額功解釋為適應的累積成本，我們將其最小化作為最優課程設計的目標。重要的是，如果我們在準靜態機制（quasistatic regime）下工作，使得任務參數相對于策略誘導的馬爾可夫鏈的混合時間（mixing time）變化緩慢，那么線性響應理論適用。因此，我們可以如下近似超額功（Sivak & Crooks, 2012）：

關鍵在于，通過上述摩擦張量來近似超額功，我們能夠將“學習難度”這一抽象概念轉化為可測量的幾何量。這使我們能夠超越啟發式的獎勵參數調整，轉而預測智能體將在何處遇到困難，從而使學習過程更加透明。

通常情況下，這些方程無法解析求解，因此我們訴諸數值方法和簡化設置以進一步洞察所得解。方程 3 的解產生的最優課程會在度量較大（對應于代價高昂的適應）的方向上減速，而在度量較小的地方加速（視覺示例見圖 1）。

3.1 案例研究：線性獎勵參數化

4 溫度退火

我們在圖2中通過實驗檢驗了這一策略。具體而言，我們將MEW應用于高維的Humanoid-v5 MuJoCo任務（Todorov et al., 2012）。根據圖2，我們可以看到MEW在該任務中優于Haarnoja等人（2018b）的標準方法。通過檢查兩種方法的溫度調度，我們可以看到標準協議（來自Haarnoja等人（2018b））最初會快速降低溫度，導致產生一個近乎確定性的策略，而隨著溫度隨后升高，該策略必須進行調整。另一方面，我們的調度是單調的，并且在每一步都根據適應的相對成本進行調整，從而允許策略系統地適應摩擦的固定增量。我們的方法產生的協議在多次運行間也具有顯著更高的一致性，如圖2中的陰影區域所示（實驗細節和更多結果見附錄B）。

5 討論

在本研究中，我們引入了一種基于超額功最小化的課程學習幾何框架，為任務空間賦予了一種偽黎曼結構，從而定義并指導最優課程。在此過程中，我們驗證了我們的假設：最優獎勵參數調度方案最小化了源于摩擦張量的路徑依賴超額成本，并遵循誘導任務空間中的測地線。所得框架可直接適用于深度強化學習設置，如圖2所示的一維溫度退火實驗所證實（另見附錄B）。在此，我們發現標準的降溫方法通過我們框架推導出的冷卻調度得到了顯著改善。更廣泛地說，這些結果表明，強化學習中的某些經驗不穩定性可能不僅應被理解為算法失敗，而是作為在彎曲且動態演變的參數流形上過于激進地驅動高維非平衡系統所導致的后果。

5.1 未來工作

本研究引出了幾個研究方向。在理論方面，闡明與標準遺憾（regret）定義的聯系，并進一步利用誘導的幾何結構（例如用于學習自適應特征或理解度量退化的作用），將擴展此處開發的工具。在算法方面，開發深度強化學習中摩擦張量的可擴展估計器仍是一項重要挑戰。最后，在大規模持續學習與終身學習基準上進行實證驗證，對于評估所提框架的預測能力至關重要。

原文鏈接： https://arxiv.org/pdf/2603.12324

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.