![]()
來源:生物學報
長久以來,神經科學和人工智能領域有一個根深蒂固的共識:動物的學習效率主要取決于“學習率”這個固有參數,而與獎勵本身的大小關系不大。因此,為了獲得足夠多的訓練數據,實驗室中通常給予動物極微小的獎勵(如一小滴水)。2026年5月21日,霍華德·休斯醫學研究所Luke T. Coddington團隊(Sheng Gong為第一作者)在Science在線發表題為“Reward magnitude determines reinforcement learning efficiency”的研究論文,該研究徹底挑戰了這一傳統,發現將獎勵幅度提高一兩個數量級,能使小鼠的學習效率飆升十倍以上。其核心機制在于,更大的獎勵能引發大腦中多巴胺更持久、更強的釋放,而這直接充當了學習的“加速器”。這項研究不僅揭示了多巴胺調節學習的新機制,也表明整個領域可能長期低估了動物的學習能力,并使用了“次優”的訓練策略。
![]()
傳統誤區:為求數據,犧牲效率
經典理論認為,強化學習(動物和AI的核心學習方式)的效率由一個相對固定的“學習率”決定。研究者通常給予小鼠極微量的獎勵(不足其日常需求的1%),旨在鼓勵它們為獲得更多獎勵而不斷重復行為,從而產生大量用于分析的學習“試次”。這被視為標準操作,但代價可能是學習過程被不必要地拉長了。
核心突破:獎勵大小決定學習速度
研究團隊設計了一系列復雜的任務,包括隱藏目標導航、高難度抓取運動技能和感覺決策。他們比較了標準微量獎勵與提高10-100倍的“超大獎勵”對小鼠初始學習效率的影響。
結果令人震驚:
學習效率飆升:在“超大獎勵”下,小鼠學會任務所需的嘗試次數減少了一個數量級(即10倍以上)。例如,某些導航任務,標準獎勵需數百上千次嘗試,而超大獎勵下僅需幾次就能掌握。
表現質量不減:雖然學得快,但小鼠最終能達到的任務熟練度與標準獎勵組無異,排除了“為求快而犧牲精度”的可能。
縮小個體差異:大獎勵顯著減少了不同小鼠在學習速度上的個體差異,使大多數個體都能快速進入高效學習狀態。
![]()
從極少數但回報極高的案例中吸取經驗教訓,往往能迅速見效(圖源自Science )
機制揭秘:多巴胺是核心“加速器”
研究從三個層面解釋了“超大獎勵”為何如此有效:
提高學習速率:獎勵越大,學習新知識的速度越快。
增強學習保持:能更好地鞏固和利用之前學到的經驗。
提升任務專注度:讓動物在實驗中更投入,減少分心。
而將這三點串聯起來的關鍵分子正是多巴胺。研究人員發現:
獎勵大小編碼:消費更大獎勵時,大腦腹側紋狀體的多巴胺釋放不僅幅度更高,持續時間也更長。
光遺傳學驗證:通過光遺傳學手段,在給予標準獎勵時人為延長多巴胺神經元的激活時間,可以部分模擬大獎勵的效果(提高學習速率和專注度),但無法完全復制(例如,無法增強對先前學習的保持能力)。這表明多巴胺信號是主要但非唯一的介質。
深遠意義:重塑實驗范式與理論認知
這項研究具有多重深遠影響:
修正理論模型:它直接將獎勵大小與學習效率掛鉤,挑戰了“學習率固定”的傳統強化學習模型,要求理論框架納入獎勵大小的動態調節作用。
優化實驗設計:為動物行為學研究提供了強效的“加速”工具。在需要快速訓練動物的復雜實驗中(如神經環路解析),采用更大獎勵可極大提升實驗效率,減少動物使用量,符合“3R”原則。
揭示多巴胺新功能:明確了多巴胺信號不僅編碼“獎勵預測誤差”(“驚喜”值),其信號幅度和時長本身就能調控學習的速度和專注度,深化了對多巴胺功能的理解。
啟發AI與教育:為人工智能領域調整“獎勵函數”以優化學習效率提供了生物學的啟發。同時,對人類教育而言,它也隱喻了“即時、充分的正向反饋”對提升學習動力的根本性作用。
當然,研究也指出,大獎勵并非在所有學習場景中都完美,例如在某些簡單條件反射任務中可能干擾預期行為。但總體而言,這項工作像一道強光,照亮了被傳統實驗范式所忽視的動物學習的真實潛能,并指出了一個簡單而強大的原理:要學得快,有時獎勵必須給得足夠“重磅”。
參考消息:
https://www.science.org/doi/10.1126/science.aeb0813
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.