網易首頁 > 網易號 > 正文申請入駐

神經調質的時間信用分配擴散機制

2026-04-05 12:00:49　來源: CreateAMind

上海舉報

分享至

Diffusion of Neuromodulators for Temporal Credit Assignment

神經調質的時間信用分配擴散機制

https://arxiv.org/pdf/2603.08949

生物學習能夠在反饋稀疏且不精確的情況下實現時間信用分配，常常依賴于在空間和時間上起作用的神經調質信號。在此，我們提出一種學習機制，其中誤差信息通過網絡局部擴散，類似于神經調質的容積傳遞。這種分布式調制使得神經元即使在沒有直接反饋的情況下，也能利用擴散的信用信號的局部濃度進行學習。將該機制應用于具有稀疏反饋連接的回聲脈沖神經網絡中，擴散式信用信號傳遞在三個基準任務上改善了學習效果。以資格傳播作為基線學習機制，我們展示了基于擴散的調制如何為稀疏連接的神經回路中的信用分配提供一種合理的機制。”

I. 引言

生物學習是生物體普遍存在的特征。已知大多數動物的神經系統具有高度適應性，多種局部可塑性機制和調節系統緊密協調運作，以高效地修改突觸連接。與生物網絡不同，人工神經網絡主要依靠誤差反向傳播進行訓練，這是一種精確的信用分配方法，能在廣泛任務中實現極高性能。反向傳播在訓練人工神經網絡上的成功，催生了眾多假設，認為生物學習可能遵循相似原理[1]。然而，生物網絡的若干限制（如非精確的信用分配、稀疏的連接與反饋等）使得標準反向傳播難以在生物網絡中精確實現，從而促使人們尋找在生物網絡連接和信號機制約束下能夠復現反向傳播性能的、具有生物學合理性的替代方案。

資格傳播[2]是時間反向傳播最成功的生物學合理性替代方案之一。然而，在具有稀疏反饋連接的網絡中——這種結構更接近生物網絡的組織方式——其性能會下降[3]。近期引入神經調質信號的擴展，通過為學習信號增加額外結構或細胞類型特異的通信，取得了性能提升[4,5]。盡管有效，但這些方法依賴于精確且靶向的信用分配。相比之下，神經調質系統主要通過容積傳遞運作，即信號在細胞外間隙擴散，并在較大的空間尺度上調節神經元群體[6–8]。

在此，我們研究一種學習機制，其中信用信號在網絡上進行空間擴散，信用分配由某種調制粒子的局部濃度決定，而不是由其源頭位置決定。

II. 結果

為了評估擴散的信用信號對學習的影響，我們研究了循環脈沖神經網絡（RSNNs）學習執行幾個復雜的時間任務。每個RSNN接收來自外部輸入層的、以脈沖序列形式呈現的任務特定輸入，其活動由一個由漏型非脈沖神經元組成的輸出層讀出（圖1a）。

我們的RSNN包含兩種神經元類型：漏積分發放神經元（LIF）及其具有發放率適應性的變體（ALIF）。不同任務中兩者的比例有所不同（更多細節見補充材料）。這些神經元被隨機嵌入在均勻分布的二維網格上，從神經元i到神經元j的連接概率隨著它們之間距離的平方呈指數衰減（圖1b）。衰減率設置為使得連接率約為10%。這種安排促進了局部連接模式，有利于鄰近神經元之間的連接。到輸入層和輸出層的連接是稀疏的，僅包含所有可能連接中隨機的10%，且對任一神經元類型無偏向。更多實現細節和模型方程見補充材料。

在每個任務中，RSNN接收反饋信用信號，這些信號編碼了網絡與任務相關的誤差，從而調節學習但不影響神經元活動。關鍵的是，我們假設這些神經調質信號并非以精確靶向的方式運作。相反，一旦釋放，它們不僅會到達目標神經元，還會通過細胞間隙擴散，在隨后的若干時間步內影響鄰近的細胞（圖1b）。

其中 η 是學習率。這兩項的推導是為了使更新近似于通過時間的反向傳播 (BPTT)。它們的確切表達式取決于具體的神經元和網絡模型；對于我們的網絡，這些表達式在補充材料中提供。簡而言之，資格跡充當突觸前和突觸后神經活動的衰減記憶，而學習信號根據網絡在任務中的誤差來調節權重更新的幅度。

使用帶擴散和不帶擴散的 e-prop，我們在三個基準任務上訓練我們的網絡：模式生成、延遲匹配樣本和線索累積 [4]。在第一個任務，模式生成（圖 2a）中，網絡應學習重現由五個正弦波的加權和組成的一維目標信號，使用泊松噪聲的實現作為輸入。在這個任務中，每個時間步都提供誤差反饋。相比之下，延遲匹配樣本和線索累積任務僅在最后的時間幀提供誤差信號，此時網絡必須基于先前的輸入做出決策。在延遲匹配樣本任務（圖 2b）中，目標是比較兩個二進制線索的值，這兩個線索之間有一個延遲窗口，然后確定線索是相同（1-1 或 0-0）還是不同（1-0 或 0-1）。同時，在線索累積任務（圖 2c）中，呈現七個線索的序列，每個出現在左側或右側。在一段沒有線索的延遲期之后，網絡必須指出哪一側顯示的線索占多數。

我們發現，在稀疏反饋連接設置下，擴散誤差信號顯著提高了 e-prop 在所有三個任務上的性能（圖 2）。與不帶擴散的標準 e-prop 相比，我們的變體始終產生更好的學習結果，縮小了與 BPTT 的性能差距，BPTT 被作為學習曲線的下界比較包含在內。此外，盡管我們的 RSNN 的局部連接模式更緊密地反映了生物回路，我們發現隨機連接的稀疏 RSNN 在此處考慮的任務中同樣受益于信用信號的局部擴散。

III、討論

在稀疏反饋通路下進行時序信用分配具有挑戰性，即使是最先進的生物合理學習規則（如 e-prop）在此類設定中也表現吃力。雖然隨機 e-prop [2] 通過在稀疏連接網絡中使用隨機反饋權重表現良好，但它仍預設了密集的反饋通路，即每個神經元都能接收其專屬的誤差信號。在這方面，我們的工作補充了先前的研究結果 [4]，該研究通過為 e-prop 增加一種額外的細胞特異性局部神經調質信號，同樣在稀疏反饋設定下實現了更高的性能。然而，該改進依賴于相連神經元之間精確誤差的直接傳遞。在此，我們表明，一種精度較低、依賴化學擴散的神經調質通信形式，也能為局部學習帶來類似的益處。

盡管已有充分證據表明大腦同時依賴突觸傳遞和體積傳輸進行神經調質調控 [9]，但后者在人工神經網絡中受到的關注較少。已有研究提出，此類機制有助于緩解災難性遺忘 [10]，并通過選擇性調制神經元子集來增強網絡的動態靈活性 [11]。近期研究也表明，調質信號的體積傳輸可在循環神經網絡（RNN）中實現門控特性并實施上下文因子分解 [12, 13]。

除了多巴胺編碼預測誤差信號 [14] 之外，其他神經調質（包括血清素、乙酰膽堿等）也影響生物學習過程 [15]。我們認為，由于本方法具有計算高效性和內在靈活性，它為探索擴散性神經調質在人工系統中的功能角色，以及檢驗其在生物對應物中的相關假說，提供了一個有前景的框架。

我們的結果表明，已知在生物回路中運行的生化過程（如調質物質的擴散）可能在真實連接約束條件下促進學習方面發揮功能性作用。我們的發現激勵人們進一步研究生物系統中神經調質動力學與學習之間的相互作用，并為高效訓練空間嵌入型人工網絡指明了方向。

原文鏈接：https://arxiv.org/pdf/2603.08949

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.