无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

傳統UED瓶頸被打破,強化學習也能精準定位「最近發展區」

0
分享至



本文第一作者來自國防科技大學數智建模與仿真國家級重點實驗室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 級博士生原方,通訊作者為國防科技大學曾俊杰助理研究員、李慶倫博士,并由尹全軍研究員、秦龍副教授、沈思淇長聘副教授(廈門大學)、謝毓湘教授、楊俊強副研究員共同合作完成。研究團隊長期聚焦建模仿真、強化學習等相關方向研究。

訓練強化學習智能體時,一個常見問題是:有些 level 太簡單,智能體跑幾遍就會;有些 level 又太難,智能體幾乎得不到有效反饋。前者只是在重復已有能力,后者則會把訓練預算消耗在無效探索上。真正有價值的訓練環境,往往位于二者之間。它剛好超過智能體當前能力邊界,但又沒有難到完全學不會。換句話說,強化學習訓練也存在某種「最近發展區」:高效訓練的關鍵,不只是生成更多 level,而是找到當前階段最值得學的 level。

Unsupervised Environment Design(UED)正是圍繞這一問題展開。UED 不再把訓練環境看作固定數據集,而是通過自動生成、選擇或重放 level,動態塑造訓練分布,讓智能體在持續學習中獲得更好的泛化能力。但 UED 面臨一個核心難題:系統需要知道,哪些 level 真正推動了智能體學習。

近日,來自國防科技大學、廈門大學等機構的研究者提出了PACE(Parameter Change Environment Design)。PACE 使用 level 誘導的策略參數變化作為訓練價值信號,直接衡量該 level 是否帶來實際學習進展。該工作已被 ICML 2026 接收。



  • 論文題目:PACE: Parameter Change for Unsupervised Environment Design
  • 論文鏈接:https://doi.org/10.48550/arXiv.2605.01358

UED:讓訓練環境自己形成課程

UED 的出發點并不復雜。傳統強化學習通常先給定一批訓練環境,再讓智能體在其中反復學習。但訓練環境并非越多越好,也不是越難越好。如果 level 太簡單,智能體很快進入「舒適區」,只能鞏固已經掌握的行為;如果 level 太難,智能體又會進入「恐慌區」,長期得不到有效獎勵。兩種情況都會削弱學習效率和最終泛化能力。

在 UED 之前,Domain Randomization 已經表明,環境多樣性有助于提升泛化能力;但這類方法通常只是靜態地隨機采樣環境參數,難以根據智能體當前的學習狀態動態調整訓練內容。

UED 進一步將「訓練什么」納入學習過程:系統不再把訓練環境視為固定背景,而是動態生成、選擇或重放 level,并根據某種評價信號決定哪些 level 更值得保留、重放或進一步編輯。理想情況下,這些 level 應該持續貼近智能體當前能力邊界:既不輕易被解決,也不完全超出可學習范圍。

現有 UED 方法通常需要一個 score 來評價 level。常見做法包括 regret、GAE、MaxMC 等。這些信號在實踐中有效,但它們更多從可解性差距、價值估計誤差或回報估計出發,沒有評估「這次訓練到底帶來了多少策略改進」。另一類方法更直接,例如 Marginal Benefit 會比較策略更新前后的表現變化,因此更接近真實學習進步。但它需要額外 rollout 來估計更新前后的回報,計算開銷更高,估計方差也更大。

因此,UED 的核心問題就變成了:如何簡單而準確地判斷一個 level 是否真正推動了智能體的學習?

PACE:用參數變化衡量學習進步

PACE 的核心判斷很直接:如果一個 level 真正促成了學習,那么智能體在這個 level 上訓練后,策略參數應該發生有意義的變化。也就是說,PACE 不再把 level 的價值建立在 regret、GAE 或 Monte Carlo return 等間接信號上,而是直接觀察該 level 誘導的策略更新。









進一步假設這一步更新沿著局部梯度方向進行,即





將其代入一階展開,可得目標提升的近似形式:



這個近似關系說明:在局部梯度更新假設下,一個 level 帶來的目標提升與其誘導的策略參數變化平方范數成正比。因此,PACE 將 level score 定義為:







圖 1:PACE 工作流程圖。

基于這一 score,PACE 的運行過程可以分為兩個部分:level scoringpolicy training(圖 1)。







整個過程不斷交替進行:新 level 被生成并打分,高價值 level 被寫入 buffer,buffer 中的 level 又被優先重放來訓練策略。由此,PACE 用策略參數變化構造出一種內生的學習進步信號,并用它驅動訓練課程隨智能體能力動態演化。

實驗結果:從迷宮泛化到開放式任務









圖 2:MiniGrid 上的零樣本遷移性能。



表 1:MiniGrid 上的整體泛化指標。

為了進一步檢驗 PACE 在更復雜任務中的適用性,論文還在Craftax上進行實驗。Craftax 是一個面向開放式強化學習的 JAX benchmark。隨著探索推進,智能體會遇到新的區域、機制和目標,任務分布也會持續變化,因此更能檢驗 UED 方法是否能在長訓練過程中持續提供有效課程。





表 2:Craftax 上 20 個未見過 levels 上的平均回報和標準差。

結語與展望

在強化學習智能體需要持續適應未見環境的背景下,如何準確識別真正推動學習的 levels 是 UED 的關鍵問題;PACE 通過參數變化這一簡單、低方差、計算友好的內生信號,將環境評價直接建立在 realized learning progress 之上,從而減少代理指標偏差、高方差估計和額外 rollout 開銷的影響,并為構建更穩定、更可擴展的自適應訓練課程提供了新的思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
貪污5.8億,建行宮養百人私軍公然挑釁部隊,北京村官堪比土皇帝

貪污5.8億,建行宮養百人私軍公然挑釁部隊,北京村官堪比土皇帝

易玄
2024-06-25 06:51:24
剛剛,集體跳水!美伊,重大變數!伊朗突然下令!

剛剛,集體跳水!美伊,重大變數!伊朗突然下令!

新浪財經
2026-05-21 19:46:29
我國越來越多的人患糖尿病?醫生:停止食用“4物”,保護胰島

我國越來越多的人患糖尿???醫生:停止食用“4物”,保護胰島

荷蘭豆愛健康
2026-05-21 14:42:10
人到老年才知道,增加骨密度最好的運動,竟然不是跑步和走路

人到老年才知道,增加骨密度最好的運動,竟然不是跑步和走路

周哥一影視
2026-05-20 20:48:12
Shams:理論上可能看到詹姆斯和字母哥同時為湖人效力

Shams:理論上可能看到詹姆斯和字母哥同時為湖人效力

懂球帝
2026-05-21 09:18:37
越秀地產,后悔了

越秀地產,后悔了

見地
2026-05-21 17:50:30
1979年,越軍狙擊手,將副師長一槍打死,我軍找不出人,立馬撤離

1979年,越軍狙擊手,將副師長一槍打死,我軍找不出人,立馬撤離

興趣知識
2026-05-18 00:46:47
日本女星“露內褲邊”近照被全網瘋傳!網友一扒價格驚呆了:“我連內褲都穿不起了”

日本女星“露內褲邊”近照被全網瘋傳!網友一扒價格驚呆了:“我連內褲都穿不起了”

今日日本
2026-05-21 15:23:19
A股:大家坐穩扶好了,今天周四,大牛市或將再次歷史重演了!

A股:大家坐穩扶好了,今天周四,大牛市或將再次歷史重演了!

趨勢清風俠
2026-05-21 07:45:18
青島海牛1-2負大連陷兩連敗,米蘭光環褪去,逆襲神話遇現實拷問

青島海牛1-2負大連陷兩連敗,米蘭光環褪去,逆襲神話遇現實拷問

老周觀體育
2026-05-21 19:45:22
在海寧打工的29歲小伙失聯13天,監控顯示他最后消失在下沙一片樹林,最后一條短信發給了媽媽:在老板那里還有1萬多元,轉給爸爸

在海寧打工的29歲小伙失聯13天,監控顯示他最后消失在下沙一片樹林,最后一條短信發給了媽媽:在老板那里還有1萬多元,轉給爸爸

極目新聞
2026-05-21 01:02:08
一覺醒來,這五個城市全是好消息!

一覺醒來,這五個城市全是好消息!

新浪財經
2026-05-21 17:22:38
陳婉珍送別何超蕸需攙扶,何猷啟與第二任妻子現身,何超云帶男友

陳婉珍送別何超蕸需攙扶,何猷啟與第二任妻子現身,何超云帶男友

樹娃
2026-05-21 07:58:46
56票:50票,賴清德彈劾案結果公布,中國大陸對賴清德的稱呼變了

56票:50票,賴清德彈劾案結果公布,中國大陸對賴清德的稱呼變了

墨蘭史書
2026-05-21 01:35:03
爭議扳平戰!西決變味了?傷病+高薪!雷霆動刀?

爭議扳平戰!西決變味了?傷病+高薪!雷霆動刀?

籃球盛世
2026-05-21 17:01:00
《英雄》女主自曝18歲遭下藥:被"閨蜜"送進陌生男星床上

《英雄》女主自曝18歲遭下藥:被"閨蜜"送進陌生男星床上

娛圈觀察員
2026-05-20 00:34:56
高1228米!上海這棟大樓差一點就成了世界第一!

高1228米!上海這棟大樓差一點就成了世界第一!

小影的娛樂
2026-05-20 17:21:47
阿斯:穆里尼奧執教皇馬的首要任務是修復與維尼修斯的關系

阿斯:穆里尼奧執教皇馬的首要任務是修復與維尼修斯的關系

懂球帝
2026-05-21 19:46:17
《主角》流出片酬單太諷刺!張嘉益500萬秦海璐400萬相聲名角15萬

《主角》流出片酬單太諷刺!張嘉益500萬秦海璐400萬相聲名角15萬

樂悠悠娛樂
2026-05-21 10:06:56
江蘇滅門案回顧:替朋友頂罪反被奪妻,出獄后將朋友一家盡數滅門

江蘇滅門案回顧:替朋友頂罪反被奪妻,出獄后將朋友一家盡數滅門

莫地方
2026-05-21 02:00:03
2026-05-21 20:24:50
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13054文章數 142651關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

韓媒稱中國領導人可能訪問朝鮮 外交部回應

頭條要聞

韓媒稱中國領導人可能訪問朝鮮 外交部回應

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

旅游
本地
時尚
公開課
軍事航空

旅游要聞

瓣瓣一線|京津冀紅色文旅場館打造沉浸式新場景,讓歷史“活”起來

本地新聞

用云錦的方式,打開江蘇南京

全網首檔挑戰Al設備拍攝短劇現場直播!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗警告:任何新襲擊將促使戰場擴大到中東以外

無障礙瀏覽 進入關懷版