无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

強化學習課程的熱力學

0
分享至

Thermodynamics of Reinforcement Learning Curricula

強化學習課程的熱力學

https://arxiv.org/pdf/2603.12324



摘要

統計力學與機器學習之間的聯系已被反復證明是富有成效的,為優化、泛化與表示學習提供了深刻見解。在本研究中,我們延續這一傳統,利用非平衡熱力學的成果來形式化強化學習(RL)中的課程學習。具體而言,我們提出了一種用于RL的幾何框架,將獎勵參數解釋為任務流形上的坐標。我們表明,通過最小化超額熱力學功,最優課程對應于該任務空間中的測地線。作為該框架的一個應用,我們提供了一種算法“MEW”(最小超額功),用于推導最大熵RL中溫度退火的有理論依據的調度方案。

1 引言

現代強化學習(RL)系統很少在單一、靜態的任務上進行訓練。相反,通過課程學習、溫度退火、獎勵塑形以及其他非平穩目標,智能體通常會接觸一系列相關任務。然而,關于任務應如何變化的指導原則仍然缺乏深入理解。一種簡單實用的方法是隨時間對任務(即獎勵函數)參數進行線性插值。這種選擇隱含地假設了任務空間是平坦且各向同性的。在本研究中,我們假設這一假設是錯誤的,并旨在證明由智能體及其學習動力學所誘導出的非平凡幾何結構的存在。具體而言,我們采用一種基于統計力學的方法來研究參數化獎勵函數空間,揭示出一種自然度量,該度量量化了適應新任務所涉及的難度或“摩擦”。更具體地說,我們引入了一個摩擦張量,該張量在非平衡統計力學(NESM)中量化了控制系統所需的代價,使得最優參數協議對應于由該摩擦張量所誘導的幾何空間中的測地線。通過將RL映射到該框架上,我們獲得了一個關于課程最優性的有理論依據的假設,且該假設在實驗上易于處理:最優獎勵參數調度方案最小化了來自摩擦張量的路徑依賴超額成本,并遵循誘導任務空間中的測地線。這一幾何圖景有望統一RL中的幾種現象,例如基于勢函數的獎勵塑形、模擬退火以及特征坍塌。在本研究中,我們專注于線性獎勵函數參數化,并推導出一維任務調度的閉式表達式,從而提出了一種可直接應用于深度RL的熵溫度退火新方法。

2 背景

2.1 統計力學

在非平衡物理系統的控制中,出現了與強化學習(RL)中“課程”類似的概念。在統計力學框架下,系統動力學依賴于隨時間變化的外部控制參數(例如溫度、耦合強度、場強、勢阱位置等)。當這些參數的變化無限緩慢時(即在課程步驟之間允許策略完全收斂),系統保持在近平衡狀態,且此變化所需的外部功僅取決于端點。然而,當參數以有限速率變化時,系統保持在非平衡狀態,并產生額外的、路徑依賴的耗散,該耗散被量化為“超額功”(Jarzynski, 2008)。線性響應理論的一個核心結果表明,該超額功可關于參數變化速率進行二次近似(Sivak & Crooks, 2012)。該框架已在一系列經典與量子控制問題的建模中得到成功應用。

在本研究中,我們證明RL中的任務插值具有類似的幾何結構:獎勵參數的變化會引發瞬態次優性與學習低效性,而這種適應過程的主導階(leading-order)成本可由任務空間上的一個度量來刻畫,該度量由長期的、策略誘導的相關性所定義。歷史上,統計力學與機器學習之間的此類聯系已被證明極具價值,為優化、泛化與表示學習提供了深刻見解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的貢獻延續了這一傳統,即利用非平衡熱力學來形式化強化學習中的課程學習與任務插值。

2.2 最大熵強化學習


重要的是,該目標在軌跡上誘導了一個玻爾茲曼分布:最優策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此,來自統計力學的許多高級概念,如自由能、溫度和漲落,在MaxEnt RL中允許存在直接的類比。該表述構成了現代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理論框架(如線性可解MDP (Todorov, 2006) 及其擴展 (Arriojas et al., 2023))的基礎。

在本研究中,MaxEnt RL在與非平衡熱力學的物理圖像連接中扮演兩個角色:首先,它提供了軌跡上清晰的概率結構,使得閉式分析成為可能。其次,它允許將獎勵參數的動態變化解釋為底層分布的受控形變,使得將課程解釋為"非平衡驅動協議"變得精確。

3 課程學習的熱力學框架


對于這種參數化,我們將任務調度,或課程(curricula), λ ( t ) ,定義為任務空間中連接兩個獎勵函數的(二階可微)路徑。于是核心問題變為:應當如何選擇 λ ( t ) 以最小化適應的總成本?

我們現在簡要概述用于解決此問題的框架,更多細節見附錄 A。在此框架中,為了形式化適應成本,我們追蹤隨著任務參數的變化,智能體可實現的期望累積獎勵是如何變化的。沿著一個課程 λ ( t ) ,總變化可以進行精確分解:一部分貢獻來自對外部獎勵函數的修改,另一部分貢獻源于策略本身的適應。沿著課程對這一分解進行積分,會產生一個路徑依賴的“超額功”(excess work),它僅在準靜態極限(quasistatic limit)下消失。將這一超額功解釋為適應的累積成本,我們將其最小化作為最優課程設計的目標。重要的是,如果我們在準靜態機制(quasistatic regime)下工作,使得任務參數相對于策略誘導的馬爾可夫鏈的混合時間(mixing time)變化緩慢,那么線性響應理論適用。因此,我們可以如下近似超額功(Sivak & Crooks, 2012):

關鍵在于,通過上述摩擦張量來近似超額功,我們能夠將“學習難度”這一抽象概念轉化為可測量的幾何量。這使我們能夠超越啟發式的獎勵參數調整,轉而預測智能體將在何處遇到困難,從而使學習過程更加透明。


通常情況下,這些方程無法解析求解,因此我們訴諸數值方法和簡化設置以進一步洞察所得解。方程 3 的解產生的最優課程會在度量較大(對應于代價高昂的適應)的方向上減速,而在度量較小的地方加速(視覺示例見圖 1)。



3.1 案例研究:線性獎勵參數化


4 溫度退火



我們在圖2中通過實驗檢驗了這一策略。具體而言,我們將MEW應用于高維的Humanoid-v5 MuJoCo任務(Todorov et al., 2012)。根據圖2,我們可以看到MEW在該任務中優于Haarnoja等人(2018b)的標準方法。通過檢查兩種方法的溫度調度,我們可以看到標準協議(來自Haarnoja等人(2018b))最初會快速降低溫度,導致產生一個近乎確定性的策略,而隨著溫度隨后升高,該策略必須進行調整。另一方面,我們的調度是單調的,并且在每一步都根據適應的相對成本進行調整,從而允許策略系統地適應摩擦的固定增量。我們的方法產生的協議在多次運行間也具有顯著更高的一致性,如圖2中的陰影區域所示(實驗細節和更多結果見附錄B)。


5 討論

在本研究中,我們引入了一種基于超額功最小化的課程學習幾何框架,為任務空間賦予了一種偽黎曼結構,從而定義并指導最優課程。在此過程中,我們驗證了我們的假設:最優獎勵參數調度方案最小化了源于摩擦張量的路徑依賴超額成本,并遵循誘導任務空間中的測地線。所得框架可直接適用于深度強化學習設置,如圖2所示的一維溫度退火實驗所證實(另見附錄B)。在此,我們發現標準的降溫方法通過我們框架推導出的冷卻調度得到了顯著改善。更廣泛地說,這些結果表明,強化學習中的某些經驗不穩定性可能不僅應被理解為算法失敗,而是作為在彎曲且動態演變的參數流形上過于激進地驅動高維非平衡系統所導致的后果。

5.1 未來工作

本研究引出了幾個研究方向。在理論方面,闡明與標準遺憾(regret)定義的聯系,并進一步利用誘導的幾何結構(例如用于學習自適應特征或理解度量退化的作用),將擴展此處開發的工具。在算法方面,開發深度強化學習中摩擦張量的可擴展估計器仍是一項重要挑戰。最后,在大規模持續學習與終身學習基準上進行實證驗證,對于評估所提框架的預測能力至關重要。

原文鏈接: https://arxiv.org/pdf/2603.12324

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本爆發大規模抗議,高市終于低頭,中國外交部冷言:不糾錯免談

日本爆發大規模抗議,高市終于低頭,中國外交部冷言:不糾錯免談

貴州霖霖
2026-05-17 09:30:17
英國250萬穆斯林中,1/3年輕人正放棄約會:Halal Marriage為何成新選擇

英國250萬穆斯林中,1/3年輕人正放棄約會:Halal Marriage為何成新選擇

時光慢郵啊
2026-05-17 01:29:56
美退役軍官曾宣稱:中國殲16D電子戰機,簡直是美國海軍的噩夢!

美退役軍官曾宣稱:中國殲16D電子戰機,簡直是美國海軍的噩夢!

華史談
2026-05-17 08:57:13
在泰華人目擊“火車撞公交致8死32傷”:看著火車駛來懷疑它能否剎住,公交被拖行數十米起火,殃及多輛摩托車和私家車

在泰華人目擊“火車撞公交致8死32傷”:看著火車駛來懷疑它能否剎住,公交被拖行數十米起火,殃及多輛摩托車和私家車

極目新聞
2026-05-17 13:09:18
海風:聽到特朗普這句話,臺灣當局該醒了

海風:聽到特朗普這句話,臺灣當局該醒了

環球網資訊
2026-05-16 17:37:05
三位美女你喜歡哪位我看中右邊,頗為賢惠、穩重大方,氣質美滿

三位美女你喜歡哪位我看中右邊,頗為賢惠、穩重大方,氣質美滿

科學發掘
2026-05-17 15:56:57
活塞G7傷情報告出爐,哈登迎來尷尬里程碑,阿特金森該變陣了

活塞G7傷情報告出爐,哈登迎來尷尬里程碑,阿特金森該變陣了

世界體育圈
2026-05-17 13:16:49
馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

譯言
2026-05-16 10:38:32
空軍一號飛機即將起飛返航時,現場工作人員有人直接倒地!

空軍一號飛機即將起飛返航時,現場工作人員有人直接倒地!

阿龍聊軍事
2026-05-17 06:43:05
老板娘問我她屁股大不大?我該怎么回答?

老板娘問我她屁股大不大?我該怎么回答?

太急張三瘋
2026-03-28 12:35:10
44%進度,慢就是快

44%進度,慢就是快

閃存獵手
2026-05-16 04:52:09
特斯拉國內新品上架,全球最低價來了!

特斯拉國內新品上架,全球最低價來了!

XCiOS俱樂部
2026-05-17 16:32:44
斯維托麗娜奪得羅馬冠軍后,孟菲爾斯為妻子寫下溫情告白

斯維托麗娜奪得羅馬冠軍后,孟菲爾斯為妻子寫下溫情告白

網球之家
2026-05-17 13:29:52
霍爾木茲海峽,突傳大消息

霍爾木茲海峽,突傳大消息

第一財經資訊
2026-05-17 10:43:53
特朗普剛訪華,美媒察覺不對:最強殲20已部署,解放軍劍指臺海

特朗普剛訪華,美媒察覺不對:最強殲20已部署,解放軍劍指臺海

時光流轉追夢人
2026-05-17 02:41:07
訪華已經結束,特朗普回到白宮,用6句話談中國之行,措辭不尋常

訪華已經結束,特朗普回到白宮,用6句話談中國之行,措辭不尋常

阿校談史
2026-05-17 15:12:43
蘋果防線全線血崩!Mythos5天攻破最強硬件,全球20億臺設備危了

蘋果防線全線血崩!Mythos5天攻破最強硬件,全球20億臺設備危了

新智元
2026-05-15 12:33:48
這場頂級晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

這場頂級晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

魔都姐姐雜談
2026-05-15 00:53:47
固態電池一旦上車,最先被淘汰的不是燃油車,而是現在的新能源車

固態電池一旦上車,最先被淘汰的不是燃油車,而是現在的新能源車

老特有話說
2026-05-17 13:11:49
國宴待了32年的老國貨礦泉水!喝一次,娃哈哈農夫山泉都不香了

國宴待了32年的老國貨礦泉水!喝一次,娃哈哈農夫山泉都不香了

老特有話說
2026-05-17 13:15:19
2026-05-17 17:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1406文章數 19關注度
往期回顧 全部

科技要聞

三大運營商即將免月租?多方回應

頭條要聞

女子的奔馳4S店不愿回收 丈夫:賭100萬 找專業機構查

頭條要聞

女子的奔馳4S店不愿回收 丈夫:賭100萬 找專業機構查

體育要聞

生死戰只拿3分的核心,還有留的必要嗎?

娛樂要聞

《主角》劉浩存上線,死別猝不及防

財經要聞

OpenAI和蘋果的“聯盟”即將破裂

汽車要聞

大五座SUV卷王!樂道L80上市 租電15.68萬元起

態度原創

家居
藝術
教育
公開課
軍事航空

家居要聞

110㎡淡而有致的生活表達

藝術要聞

新地標!中國牙雕藝術館,意向東方建筑設計新作

教育要聞

第14課-如何寫好倒裝句和強調句

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

黎以停火再延長 空襲卻未停止

無障礙瀏覽 進入關懷版