无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

傳統UED瓶頸被打破,強化學習也能精準定位「最近發展區」

0
分享至



本文第一作者來自國防科技大學數智建模與仿真國家級重點實驗室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 級博士生原方,通訊作者為國防科技大學曾俊杰助理研究員、李慶倫博士,并由尹全軍研究員、秦龍副教授、沈思淇長聘副教授(廈門大學)、謝毓湘教授、楊俊強副研究員共同合作完成。研究團隊長期聚焦建模仿真、強化學習等相關方向研究。

訓練強化學習智能體時,一個常見問題是:有些 level 太簡單,智能體跑幾遍就會;有些 level 又太難,智能體幾乎得不到有效反饋。前者只是在重復已有能力,后者則會把訓練預算消耗在無效探索上。真正有價值的訓練環境,往往位于二者之間。它剛好超過智能體當前能力邊界,但又沒有難到完全學不會。換句話說,強化學習訓練也存在某種「最近發展區」:高效訓練的關鍵,不只是生成更多 level,而是找到當前階段最值得學的 level。

Unsupervised Environment Design(UED)正是圍繞這一問題展開。UED 不再把訓練環境看作固定數據集,而是通過自動生成、選擇或重放 level,動態塑造訓練分布,讓智能體在持續學習中獲得更好的泛化能力。但 UED 面臨一個核心難題:系統需要知道,哪些 level 真正推動了智能體學習。

近日,來自國防科技大學、廈門大學等機構的研究者提出了PACE(Parameter Change Environment Design)。PACE 使用 level 誘導的策略參數變化作為訓練價值信號,直接衡量該 level 是否帶來實際學習進展。該工作已被 ICML 2026 接收。



  • 論文題目:PACE: Parameter Change for Unsupervised Environment Design
  • 論文鏈接:https://doi.org/10.48550/arXiv.2605.01358

UED:讓訓練環境自己形成課程

UED 的出發點并不復雜。傳統強化學習通常先給定一批訓練環境,再讓智能體在其中反復學習。但訓練環境并非越多越好,也不是越難越好。如果 level 太簡單,智能體很快進入「舒適區」,只能鞏固已經掌握的行為;如果 level 太難,智能體又會進入「恐慌區」,長期得不到有效獎勵。兩種情況都會削弱學習效率和最終泛化能力。

在 UED 之前,Domain Randomization 已經表明,環境多樣性有助于提升泛化能力;但這類方法通常只是靜態地隨機采樣環境參數,難以根據智能體當前的學習狀態動態調整訓練內容。

UED 進一步將「訓練什么」納入學習過程:系統不再把訓練環境視為固定背景,而是動態生成、選擇或重放 level,并根據某種評價信號決定哪些 level 更值得保留、重放或進一步編輯。理想情況下,這些 level 應該持續貼近智能體當前能力邊界:既不輕易被解決,也不完全超出可學習范圍。

現有 UED 方法通常需要一個 score 來評價 level。常見做法包括 regret、GAE、MaxMC 等。這些信號在實踐中有效,但它們更多從可解性差距、價值估計誤差或回報估計出發,沒有評估「這次訓練到底帶來了多少策略改進」。另一類方法更直接,例如 Marginal Benefit 會比較策略更新前后的表現變化,因此更接近真實學習進步。但它需要額外 rollout 來估計更新前后的回報,計算開銷更高,估計方差也更大。

因此,UED 的核心問題就變成了:如何簡單而準確地判斷一個 level 是否真正推動了智能體的學習

PACE:用參數變化衡量學習進步

PACE 的核心判斷很直接:如果一個 level 真正促成了學習,那么智能體在這個 level 上訓練后,策略參數應該發生有意義的變化。也就是說,PACE 不再把 level 的價值建立在 regret、GAE 或 Monte Carlo return 等間接信號上,而是直接觀察該 level 誘導的策略更新。









進一步假設這一步更新沿著局部梯度方向進行,即





將其代入一階展開,可得目標提升的近似形式:



這個近似關系說明:在局部梯度更新假設下,一個 level 帶來的目標提升與其誘導的策略參數變化平方范數成正比。因此,PACE 將 level score 定義為:







圖 1:PACE 工作流程圖。

基于這一 score,PACE 的運行過程可以分為兩個部分:level scoringpolicy training(圖 1)。







整個過程不斷交替進行:新 level 被生成并打分,高價值 level 被寫入 buffer,buffer 中的 level 又被優先重放來訓練策略。由此,PACE 用策略參數變化構造出一種內生的學習進步信號,并用它驅動訓練課程隨智能體能力動態演化。

實驗結果:從迷宮泛化到開放式任務









圖 2:MiniGrid 上的零樣本遷移性能。



表 1:MiniGrid 上的整體泛化指標。

為了進一步檢驗 PACE 在更復雜任務中的適用性,論文還在Craftax上進行實驗。Craftax 是一個面向開放式強化學習的 JAX benchmark。隨著探索推進,智能體會遇到新的區域、機制和目標,任務分布也會持續變化,因此更能檢驗 UED 方法是否能在長訓練過程中持續提供有效課程。





表 2:Craftax 上 20 個未見過 levels 上的平均回報和標準差。

結語與展望

在強化學習智能體需要持續適應未見環境的背景下,如何準確識別真正推動學習的 levels 是 UED 的關鍵問題;PACE 通過參數變化這一簡單、低方差、計算友好的內生信號,將環境評價直接建立在 realized learning progress 之上,從而減少代理指標偏差、高方差估計和額外 rollout 開銷的影響,并為構建更穩定、更可擴展的自適應訓練課程提供了新的思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭州有地鐵站公益廣告“黑著燈”,商業廣告卻通明,市民質疑“區別對待”;地鐵方:將核查

鄭州有地鐵站公益廣告“黑著燈”,商業廣告卻通明,市民質疑“區別對待”;地鐵方:將核查

大風新聞
2026-05-29 20:56:19
王楚然搞“劇組夫妻”被實錘!?

王楚然搞“劇組夫妻”被實錘!?

八卦瘋叔
2026-05-28 11:28:04
河南一景區山頂礦泉水一元一瓶,被網友贊“良心景區”,工作人員:無人售賣,有人多給錢,有人不給錢,哪怕成本倒掛,也會長期堅持

河南一景區山頂礦泉水一元一瓶,被網友贊“良心景區”,工作人員:無人售賣,有人多給錢,有人不給錢,哪怕成本倒掛,也會長期堅持

極目新聞
2026-05-28 18:07:33
廣西農業科學院原院長鄧國富接受審查調查

廣西農業科學院原院長鄧國富接受審查調查

界面新聞
2026-05-30 17:03:13
1990年,作家三毛到新疆和76歲的王洛賓同居,王洛賓說:“可以同居,不可以發生關系!

1990年,作家三毛到新疆和76歲的王洛賓同居,王洛賓說:“可以同居,不可以發生關系!

犀利辣椒
2026-05-20 06:23:07
《給阿嬤的情書》最大的成功,撕開了京圈對中國電影的壟斷

《給阿嬤的情書》最大的成功,撕開了京圈對中國電影的壟斷

擔撲
2026-05-19 21:50:02
被“風油精”的邪修用法驚到了!兩三塊錢一瓶,竟有如此妙用

被“風油精”的邪修用法驚到了!兩三塊錢一瓶,竟有如此妙用

甜茶極簡記
2026-05-28 19:02:43
新加坡香會取消中國專場!李顯龍萬萬沒想到,中方不陪他們玩了

新加坡香會取消中國專場!李顯龍萬萬沒想到,中方不陪他們玩了

就像當初啊
2026-05-30 10:34:13
網紅博主被蟲咬后感染,不幸去世,年僅39歲!家屬:她離世前多日吃不下飯;醫生緊急提醒

網紅博主被蟲咬后感染,不幸去世,年僅39歲!家屬:她離世前多日吃不下飯;醫生緊急提醒

大象新聞
2026-05-29 23:51:03
一夜間,3家A股公司終止上市,2家被立案調查

一夜間,3家A股公司終止上市,2家被立案調查

錢眼
2026-05-30 19:27:53
《狂飆》高啟強原型:從長沙菜場魚販到百億黑老大,結局如何?

《狂飆》高啟強原型:從長沙菜場魚販到百億黑老大,結局如何?

南冥那只貓
2026-05-18 09:59:21
“日本沒有資格”

“日本沒有資格”

揚子晚報
2026-05-30 20:35:49
2026國家教學成果獎評審啟動:沒有領導掛名就報不了獎?教育部:那就讓獎項空著

2026國家教學成果獎評審啟動:沒有領導掛名就報不了獎?教育部:那就讓獎項空著

教育放大鏡
2026-05-29 22:41:16
耿同學再爆料中南大學兩名帽子人才論文涉嫌學術不端,校方工作人員回應

耿同學再爆料中南大學兩名帽子人才論文涉嫌學術不端,校方工作人員回應

文憶天下
2026-05-28 20:22:13
深圳新鵬城3-2青島海牛,賽前評分:深圳新鵬城7號排第一

深圳新鵬城3-2青島海牛,賽前評分:深圳新鵬城7號排第一

側身凌空斬
2026-05-30 22:06:34
【2026.5.30】爆姐的飯后爆料:生命不止,爆料不息!

【2026.5.30】爆姐的飯后爆料:生命不止,爆料不息!

娛樂真爆姐
2026-05-30 23:41:13
科幻神作被砍20年后殺回前十,續集還有更大招

科幻神作被砍20年后殺回前十,續集還有更大招

熱搜摘要官
2026-05-29 00:35:34
18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

磊子講史
2026-05-26 11:55:22
馮小剛:不和鄧超王志文合作,今生不和徐帆生孩子,永遠愧對馮鞏

馮小剛:不和鄧超王志文合作,今生不和徐帆生孩子,永遠愧對馮鞏

飄飄然的娛樂匯
2026-05-23 19:05:06
搞大了!農機手受邀到湖北搶收夏糧,3000元爬梯被偷,不配合調查

搞大了!農機手受邀到湖北搶收夏糧,3000元爬梯被偷,不配合調查

漢史趣聞
2026-05-30 09:21:17
2026-05-31 00:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

教育
本地
旅游
藝術
房產

教育要聞

別再丟分了!中考物理焦耳定律實驗,一道題搞定4 個高頻易錯點

本地新聞

用剪紙的方式,打開江蘇揚州

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

無障礙瀏覽 進入關懷版