无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

最新Science正刊報道強化學習領域新發現:獎賞大小決定強化學習效率!

0
分享至


認知神經科學前沿文獻分享

基本信息

Title:Reward magnitude determines reinforcement learning efficiency

發表時間:2026-05-21

發表期刊:Science

影響因子:45.8

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本


研究背景

無論是在人工智能的算法訓練中,還是在實驗心理學的動物行為訓練里,領域內長期存在一個默認假設:學習率(決定學習效率的參數)相對獨立于獎勵的大小。基于這一假設,現代系統神經科學在訓練小鼠時,通常采用“少量多次”的策略:每次只給極小體積的水或食物(通常不到小鼠日常需求的 1%),以此來最大化動物在單次訓練中的嘗試次數。


然而,這種標準的實驗室操作真的是最優解嗎?近年來,關于多巴胺(DA)功能的理論研究提出,中腦多巴胺的活動可能直接映射了學習過程中的“學習率”。既然經典實驗早已證明多巴胺的活動強度與獎勵大小高度相關,這就引出了一個反直覺的科學問題:獎勵的絕對大小,是否直接決定了強化學習的效率?

這篇最新發表在 Science 上的研究正是為了回答這一問題。研究者不僅挑戰了傳統訓練范式,還試圖弄清楚:如果我們把獎勵放大十倍甚至幾十倍,動物的學習能力究竟會被激發到什么程度?其背后的神經生物學機制又是什么?

研究核心總結

這項研究通過多種行為學范式結合多巴胺熒光探針(dLight/GRAB-DA)和光遺傳學技術,系統拆解了獎勵大小、多巴胺釋放與學習效率之間的因果關系。

一、超大獎勵成倍提升操作性任務的學習效率

研究者首先在一個隱藏目標導航任務中測試了小鼠。對照組采用領域標準的 5 μl 獎勵(每小節約 180 次),而實驗組則采用極少的超大獎勵(100 μl,每小節僅 9 次)。結果令人震驚:盡管兩組獲得的總獎勵量相同,但大獎勵組小鼠達到熟練水平所需的試次(trials)減少了一個數量級。它們在極少的強化經歷后,就能迅速提高奔跑速度并精準鎖定目標。這表明,在標準小獎勵范式下,動物真實的學習潛力被嚴重低估了。


Fig 1. 隱藏位置導航任務表明,相較于標準的 5 μl 小獎勵,100 μl 的超大獎勵能讓小鼠在經歷極少次數的強化后,迅速達到漸進線水平的優異表現。
二、大獎勵通過消除“脫接狀態”并促進跨期鞏固來加速學習

為了弄清大獎勵為何能加速學習,研究者深入剖析了單次訓練(within-session)和跨期訓練(across-session)的行為動態。他們發現,學習效率實際上由三個關鍵要素決定:初始學習率、對前次訓練成果的跨期保留能力,以及持續參與任務的專注度。

在標準小獎勵下,小鼠的表現呈現“U型”曲線:剛開始有進步,但到了訓練中后期,小鼠會出現狀態依賴的“脫接(disengagement)”,表現急劇下降,且第二天往往無法完全保留前一天的最佳狀態。相反,大獎勵不僅提高了初始學習率,讓小鼠在第二天能完美繼承前一天的最佳表現,更關鍵的是,它幾乎徹底消除了小鼠在訓練后期的“脫接”現象。


Fig 2. 行為動態分析揭示,標準獎勵下小鼠極易在訓練中后期陷入“脫接”狀態(表現斷崖式下跌),而大獎勵有效維持了任務專注度并提升了跨天記憶保留率。
三、延長多巴胺釋放可模擬大獎勵的促學習與專注效應

大獎勵在伏隔核(NAc)引發了幅度更大、持續時間更長的多巴胺釋放。這是否就是加速學習的直接原因?研究者在小鼠獲得標準小獎勵時,同步給予腹側被蓋區(VTA)多巴胺神經元光遺傳刺激。

結果顯示,短暫的光刺激(模擬小獎勵的多巴胺反應)只能提升初始學習率;而延長的光刺激(模擬超大獎勵的多巴胺反應)不僅提升了學習率,還成功阻止了小鼠的“脫接”狀態。不過,任何形式的光刺激都未能重現大獎勵帶來的“跨期保留”增益,暗示記憶的跨天鞏固可能還需要多巴胺以外的神經調節系統(如乙酰膽堿或去甲腎上腺素)參與。


Fig 3. 光遺傳學實驗證明,只有模擬大獎勵的“延長型”多巴胺刺激,才能在提升學習率的同時有效減少動物的任務脫接。
四、大獎勵的增益效應可泛化至高難度運動與復雜決策任務

這種大獎勵帶來的奇效并非只存在于簡單的導航任務中。研究者進一步引入了需要付出高體力的“拉操縱桿任務”以及國際大腦實驗室(IBL)標準化的“復雜感知決策任務”。在這些任務中,即使只是在常規訓練中隨機穿插 5% 到 15% 的大獎勵,也能顯著提高小鼠克服困難任務的成功率,并大幅縮短達到專家級表現所需的訓練周期。


Fig 4. 在基于努力的操縱桿任務中,穿插提供大獎勵顯著提升了小鼠在面對高阻力(高難度)試次時的成功率和學習速度。


Fig 5. 在 IBL 視覺感知決策任務中,大獎勵組小鼠不僅學得更快,而且在最終的專家階段表現出更低的錯誤率和更小的行為方差。
五、邊界條件:大獎勵在經典條件反射中會損害線索辨別

好的科學研究必須明確現象的邊界。研究者發現,大獎勵的“魔法”在巴甫洛夫經典條件反射(如聽到聲音等待獎勵)中失效了。當引入超大獎勵作為預期結果時,小鼠不僅沒有學得更快,反而喪失了區分“有獎勵線索”和“無獎勵線索”的能力。超大獎勵擾亂了小鼠的預期性舔水行為,也讓多巴胺系統失去了對“獎勵遺漏”的負向預測誤差反應。這說明,大獎勵主要促進需要主動控制的操作性技能學習,而在被動聯結學習中可能是一把雙刃劍。


Fig 6. 在巴甫洛夫線索辨別任務中,超大獎勵反而損害了小鼠對不同聲音線索的辨別能力,并改變了多巴胺對預期價值的編碼保真度。

研究意義

這項工作在理論和方法學上都具有重要的啟發意義。

在理論層面,它直接挑戰了經典強化學習模型中“學習率獨立于獎勵大小”的假設。研究證明,中腦邊緣多巴胺系統的活動不僅傳遞獎勵預測誤差,其釋放的規模和持續時間還深刻調控著動物的認知投入(engagement)和學習速率。這為整合多巴胺在“學習”與“動機”兩大領域的分歧提供了新的統一視角。

在方法學與應用層面,這項研究給所有從事動物行為學和神經科學的同行敲響了警鐘:我們長期依賴的“極小獎勵、海量試次”的標準訓練范式,可能嚴重壓抑了動物真實的認知潛能。此外,大獎勵通過延長多巴胺釋放來消除“脫接狀態”的機制,與人類注意力缺陷障礙(ADHD)患者使用多巴胺再攝取抑制劑(如哌甲酯)來恢復任務專注度的臨床現象高度吻合,為未來探究注意力缺陷的神經環路機制提供了極具價值的動物模型。

分享人:飯鴿兒

審核:PsyBrain 腦心前沿編輯部

你好,這里是「PsyBrain 腦心前沿

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊

科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

點擊卡片進群,歡迎你的到來

一鍵關注,點亮星標 ? 前沿不走丟!


一鍵分享,讓更多人了解前沿

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本徹底懵了!五大產業集體崩盤,日元成廢紙,中國這招厲害

日本徹底懵了!五大產業集體崩盤,日元成廢紙,中國這招厲害

相思賦予誰a
2026-06-14 07:49:10
《教父》柯里昂告訴兒子:和周圍人搞好關系的最高級方式,不是請客吃飯,也不是阿諛奉承,而是做到這兩點

《教父》柯里昂告訴兒子:和周圍人搞好關系的最高級方式,不是請客吃飯,也不是阿諛奉承,而是做到這兩點

心理觀察局
2026-06-14 10:38:25
海關發布:一名外籍出境旅客攜帶少數民族服裝、繡片等文物被查獲

海關發布:一名外籍出境旅客攜帶少數民族服裝、繡片等文物被查獲

環球網資訊
2026-06-13 14:55:34
1947年,劉鄧大軍在大別山抓了2000多俘虜,為何最后全部槍斃了?

1947年,劉鄧大軍在大別山抓了2000多俘虜,為何最后全部槍斃了?

每日一段歷史
2026-06-13 18:49:36
93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

寰球經緯所
2026-06-13 21:01:31
2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

芳姐侃社會
2026-06-12 23:43:24
就在今天!庫里保持了9年的NBA紀錄被打破了

就在今天!庫里保持了9年的NBA紀錄被打破了

籃球大視野
2026-06-14 15:14:01
剛剛!中際旭創,緊急回應!A股重大調整,明天實施!11部門送利好!影響一周市場的十大消息

剛剛!中際旭創,緊急回應!A股重大調整,明天實施!11部門送利好!影響一周市場的十大消息

證券時報
2026-06-14 18:18:27
李嘉誠又放話了?未來5年,把房子存款換成這3種資產,生活會越好

李嘉誠又放話了?未來5年,把房子存款換成這3種資產,生活會越好

巢客HOME
2026-06-12 10:15:04
集體拉升!中東、美伊協議,突傳重磅!伊朗,最新回應!

集體拉升!中東、美伊協議,突傳重磅!伊朗,最新回應!

證券時報e公司
2026-06-13 22:28:10
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

阿傖說事
2026-06-13 14:00:30
Lisa闖進世界杯歌詞引發低俗爭議!終因露屁股蛋子被LV家族拋棄

Lisa闖進世界杯歌詞引發低俗爭議!終因露屁股蛋子被LV家族拋棄

阿訊說天下
2026-06-14 17:01:39
當年明月悟得那么通透,為什么依然過不好一生?

當年明月悟得那么通透,為什么依然過不好一生?

新浪財經
2026-06-14 00:52:12
澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認為

澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認為

懂球帝
2026-06-14 16:44:57
中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

跑者排球視角
2026-06-14 14:15:01
震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

火山詩話
2026-06-14 12:48:44
文班:這是我人生最深刻一課,總決賽大部分時間是我們統治著比賽

文班:這是我人生最深刻一課,總決賽大部分時間是我們統治著比賽

懂球帝
2026-06-14 13:01:11
制裁菲防長不到24小時,菲內部分裂:軍方公開站隊,選擇對抗中國

制裁菲防長不到24小時,菲內部分裂:軍方公開站隊,選擇對抗中國

共工之錨
2026-06-14 01:47:55
某二級骨科醫院停擺:管理層宣布停業,數百員工討欠薪!

某二級骨科醫院停擺:管理層宣布停業,數百員工討欠薪!

黯泉
2026-06-14 10:39:20
朱雨鈴3-1逆轉日乒黑馬,中國WTT奪冠,馬琳壓力大

朱雨鈴3-1逆轉日乒黑馬,中國WTT奪冠,馬琳壓力大

余憁搞笑段子
2026-06-14 17:00:08
2026-06-14 22:23:00
PsyBrain腦心前沿
PsyBrain腦心前沿
追蹤腦科學新動態,聚焦認知與神經新研究
558文章數 20關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

金價跌至900元關口 北京大媽豪擲11萬給兒媳備五金

頭條要聞

金價跌至900元關口 北京大媽豪擲11萬給兒媳備五金

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

親子
房產
教育
家居
軍事航空

親子要聞

去小院看爺爺奶奶,一見面就親的不行,還得是大孫子隔輩親啊!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

教育要聞

不留遺憾,高考再戰!綿陽多校2027屆復讀班招生信息出爐

家居要聞

空間微調 移形換境

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版