網易首頁 > 網易號 > 正文 申請入駐

不更新參數就能強化學習!翁家翌新范式:決策只需AI寫個.py文件

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

沒有訓練梯度的AI,打破了Atari游戲滿分紀錄。

OpenAI核心研究員翁家翌提出了一個強化學習新范式——

啟發式學習(Heuristic Learning, HL)



全程無神經網絡訓練、無梯度更新,全程靠GPT-5.4驅動的Codex自主迭代,硬是在經典游戲Breakout上打到了864分理論滿分。



與傳統深度強化學習優化神經網絡參數不同,HL不依賴可微權重存儲策略,而是將決策邏輯遷移到離散程序空間,以代碼編輯替代梯度下降,通過顯式的符號規則實現狀態-動作映射。

在游戲、機器人仿真多項任務里,該方法性能甚至超過老牌強化學習算法PPO。

以程序代碼為載體

傳統深度強化學習(DRL)長期默認智能體的決策核心必須依托神經網絡實現。

比如在游戲里,當觀測到游戲小球位于左側時,神經網絡通過復雜映射直接輸出「向左移動」的動作;

但整個決策過程是隱式黑箱的,沒人能清晰拆解內部邏輯,只能依賴梯度下降算法盲目迭代擬合。

也正因這種底層架構,深度強化學習始終難以逾越三大核心瓶頸。

一是災難性遺忘。神經網絡以參數存儲習得技能,新任務的梯度迭代會直接覆蓋舊有權重,無法實現多任務持續學習。

二是決策黑箱、不可解釋。智能體每一次動作選擇都隱藏在海量網絡權重與矩陣運算中,無法追溯決策依據,也不能人工干預、拆解邏輯。

三是樣本效率低下。依賴海量環境交互數據完成訓練迭代,收斂周期長、算力消耗巨大,整體研發與落地成本高。

HL的思路很直接,既然參數更新是問題的根源,那干脆不要參數。

它把智能體的決策策略從神經網絡的權重轉化為可讀的程序代碼,把學習從梯度優化變成代碼編輯。

在HL的框架里,AI維護的不再是單一策略文件,而是一套完整的智能化軟件系統:

顯式的狀態檢測器(“球在左上方,速度向右”)、顯式的規則邏輯(“如果球將落在左側,則向左移動”)、還有測試用例、回歸檢查、失敗記錄、版本歷史。

每次迭代,Codex會審視系統表現,閱讀失敗錄像,分析日志,然后做出結構性調整。



這種范式的關鍵的優勢是:知識是顯式的。

舊能力不會被覆蓋,而是封裝成模塊和測試,隨時可調用、可驗證、可傳承。

就像翁家翌說的:

HL把持續學習從“如何更新參數”變成了”如何維護一個持續吸收反饋的軟件系統”。

當然,HL并不是完全排斥梯度技術,它內部某些組件(如模型預測控制MPC)仍然會用梯度做局部搜索。

但關鍵在于這類梯度運算不用于神經網絡訓練與參數更新,僅服務于實時動作決策。



而且這種架構設計讓HL原生自帶可解釋、抗遺忘、高效率的特性。

Atari滿分,機器人控制SOTA

不只是拿到Breakout的864分,翁家翌完成了完整的Atari 57大規模測試(Atari 57是行業公認的強化學習基準測試集,包含57款不同類型的經典游戲,覆蓋離散動作空間的各類決策場景)。

每款游戲設置兩種觀測模式,各自重復三輪實驗,最終生成342條獨立的智能編碼迭代軌跡。

結果顯示,在統一環境交互步數的前提下,啟發式學習HL的整體中位表現,已經和PPO等主流深度強化學習算法持平。

在Breakout、Asterix、Jamesbond等多款經典游戲中,成績甚至超越人類玩家基準水平。

相比游戲離散決策,MuJoCo機器人連續控制任務難度更高。

以四足機器人Ant為例,需要協同調控8個關節,在高維連續動作空間中維持動態平衡。

啟發式學習HL從基礎節律步態規則起步,逐步迭代加入姿態反饋、觸地信號感知、短程模型預測等邏輯,最終綜合評分突破6000 分,性能完全對標專業深度強化學習模型。



在HalfCheetah獵豹仿真任務中,HL更是跑出了11836的平均高分,展現出在復雜連續控制場景的極強適配能力。



不過翁家翌也沒有回避HL的邊界。

他直言:

在我目前認知范圍內,我想不出有個agent能搓出一個純Python code、不用神經網絡去解決 ImageNet。

從原始像素中完成目標識別、特征抽象,依舊是深度神經網絡不可替代的強項。

而啟發式學習HL的核心價值,集中體現在策略持續迭代層面,當環境動態變化、需要長期自適應調整行為邏輯時,顯性化的代碼規則系統更適配持續學習需求。

所以,當下關鍵的命題在于如何把神經網絡與HL有機融合,一并攻克在線學習與持續學習兩大難題。

翁家翌指出最具落地前景的思路是,依托HL實時處理在線環境數據流,快速沉淀可復用的在線行為經驗;

再將這些顯性經驗整理、內化,轉化為可訓練、可回歸、可篩選的高質量數據集,反過來對神經網絡做周期性迭代更新。


[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

小娛樂悠悠
2026-05-09 08:40:45
襄陽百畝地疑遭奶牛場污染 調查組:已送檢11處水體翻耕300畝地,將依法依規處置

襄陽百畝地疑遭奶牛場污染 調查組:已送檢11處水體翻耕300畝地,將依法依規處置

封面新聞
2026-05-09 11:24:05
終身告別胰島素?央視點贊糖尿病新療法,干細胞開啟“根治”時代

終身告別胰島素?央視點贊糖尿病新療法,干細胞開啟“根治”時代

科學認識論
2026-05-08 16:00:31
美國果然小看了鄭麗文:臺灣省傳出大消息,特朗普要氣炸!

美國果然小看了鄭麗文:臺灣省傳出大消息,特朗普要氣炸!

荊楚寰宇文樞
2026-05-08 23:06:00
尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

火山詩話
2026-05-09 06:34:45
內蒙古自治區黨委組織部公告

內蒙古自治區黨委組織部公告

新浪財經
2026-05-09 16:43:34
延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

時光派長壽觀察
2026-05-08 17:08:02
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

周哥一影視
2026-04-17 06:45:59
巴拿馬高興太早!因錯誤選擇換來20億索賠,關系緩和只會是暫時

巴拿馬高興太早!因錯誤選擇換來20億索賠,關系緩和只會是暫時

牛鍋巴小釩
2026-05-09 16:13:59
瀏陽煙花廠爆炸37人死亡,湖南省委書記召開調度會,現場全體默哀;芒果TV宣布《親愛的·客棧2026》《乘風2026》《你好,星期六》推遲播出

瀏陽煙花廠爆炸37人死亡,湖南省委書記召開調度會,現場全體默哀;芒果TV宣布《親愛的·客棧2026》《乘風2026》《你好,星期六》推遲播出

大風新聞
2026-05-08 14:15:10
欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

小莜讀史
2026-05-07 19:10:59
騎士vs活塞G3前瞻:低迷哈登再遇考驗,騎士欲捍衛季后賽主場不敗

騎士vs活塞G3前瞻:低迷哈登再遇考驗,騎士欲捍衛季后賽主場不敗

新殺豬的秀才
2026-05-09 17:05:03
跟隊:皇馬更衣室支持穆帥擔任主帥,包括赫伊森和維尼修斯

跟隊:皇馬更衣室支持穆帥擔任主帥,包括赫伊森和維尼修斯

懂球帝
2026-05-09 11:26:41
央視三胎宣傳片惹爭議,脫離現實強行把孕婦塑造成超人式幸福?

央視三胎宣傳片惹爭議,脫離現實強行把孕婦塑造成超人式幸福?

今朝牛馬
2026-05-07 20:36:33
全新大眾帕薩特 ePro到店,長超5米,搭EA211發動機,續航1468km

全新大眾帕薩特 ePro到店,長超5米,搭EA211發動機,續航1468km

聞車品百魅
2026-05-09 17:05:26
一周多達7次,31歲男子不幸猝死,妻子:多次勸說,他就是不聽

一周多達7次,31歲男子不幸猝死,妻子:多次勸說,他就是不聽

垚垚分享健康
2026-04-27 09:07:38
“最佳血壓”是多少?醫生建議:過60歲以后,血壓最好保持這標準

“最佳血壓”是多少?醫生建議:過60歲以后,血壓最好保持這標準

荷蘭豆愛健康
2026-05-09 12:10:17
上海樓市驚現“靜默大撤退”:3月爆賣3萬套背后,67%房東為何突然不賣了?

上海樓市驚現“靜默大撤退”:3月爆賣3萬套背后,67%房東為何突然不賣了?

墜入二次元的海洋
2026-05-09 01:34:16
司法部:“掃碼入企”全面推行!無“執法碼”不得檢查

司法部:“掃碼入企”全面推行!無“執法碼”不得檢查

每日經濟新聞
2026-05-08 12:01:51
14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

社會日日鮮
2026-05-08 04:18:01
2026-05-09 17:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12597文章數 176461關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

游戲
藝術
健康
家居
公開課

NS2漲價爭議洶洶!老任難堪:會用游戲質量證明自己

藝術要聞

齊白石 紫藤蜜蜂

干細胞能讓人“返老還童”嗎

家居要聞

菁英人居 全能豪宅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版