網易首頁 > 網易號 > 正文申請入駐

追問daily | 10分鐘數字干預課程可緩解抑郁癥狀；大語言模型是否暗中知道何時停止思考？

2026-03-04 08:28:23　來源: 追問Nextquestion

上海舉報

分享至

█ 腦科學動態

Science揭示共情的神經基礎：食欲素如何讓我們懂得安慰同伴

免疫細胞保留組織位置的分子記憶：AI算法重構單細胞空間坐標

前腦島活動揭示酒精成癮者偏愛酒精的神經機制

新冠后遺癥：味蕾內的分子缺陷導致長期味覺喪失

AI分析未發現年輕人大腦結構與導航能力存在明顯關聯

記憶編碼并非持續恒定，而是隨大腦 Theta 節律波動

低劑量鋰可能延緩輕度認知障礙患者的語言記憶衰退

細胞譜系被證實是大腦自我組織的“隱形導航圖”

10分鐘數字干預課程可緩解抑郁癥狀

█ AI驅動科學

AI驅動的高通量全腦細胞圖譜繪制

CATS Net框架實現類人概念形成、理解與交流

序列模型智能體可通過上下文推理自然涌現合作行為

大語言模型是否暗中知道何時停止思考？

基于強化學習的多智能體拓撲演化，實現競賽級代碼生成

混合強化學習框架利用記憶機制，顯著提升大語言模型智能體的探索能力

腦科學動態

Science揭示共情的神經基礎：食欲素如何讓我們懂得安慰同伴

情感共情如何轉化為親社會行為？斯坦福大學的Jae Gon Kim和Jin Hyung Lee團隊以小鼠為模型，揭示了下丘腦到前扣帶回皮層的食欲素能神經通路是關鍵。該通路通過驅動特定腦區振蕩來調控共情與親社會行為。

研究團隊首先構建了無經驗觀察恐懼和依賴經驗的觀察恐懼兩種小鼠模型，以對比共同經歷對共情的影響。行為學分析顯示，擁有共同恐懼經歷的小鼠表現出更強的觀察恐懼反應，并在重聚時展現出更多社交梳理（allogrooming，即安慰行為）。隨后，研究人員結合OxLight1探針與光纖記錄技術，發現小鼠前扣帶回皮層（ACC）內的食欲素能神經元在共情期間被選擇性激活。為驗證因果關系，團隊采用光遺傳學技術，實時抑制從下丘腦外側區（LHA）投射至前扣帶回皮層的神經輸入，同時記錄局部場電位。結果表明，這種特異性抑制不僅降低了目標腦區特定頻率的θ波功率，還顯著減少了小鼠的凝視僵住和親社會行為。這證實了下丘腦食欲素能輸入通過驅動皮層θ振蕩實現了情感共情向行動的轉化。研究發表在 Science 上。

#神經科學 #神經機制與腦功能解析 #食欲素 #親社會行為 #共情

閱讀更多：

Kim, Jae Gon, et al. “Empathy and Prosocial Behavior Powered by Orexin-Driven Theta Oscillations.” Science, vol. 391, no. 6787, Feb. 2026, pp. 800–06. science.org (Atypon), https://doi.org/10.1126/science.aea7140

免疫細胞保留組織位置的分子記憶：AI算法重構單細胞空間坐標

單細胞測序雖能揭示單個免疫細胞的基因活性，但在細胞分離時會丟失關鍵的空間位置信息，這阻礙了對復雜器官疾病機制的理解。波恩大學醫院和波恩大學的Junping Yin、Jian Li和Christian Kurts團隊開發了名為MERLIN的人工智能算法，成功從離體巨噬細胞中提取出位置信息，精準重建了其在器官內的原始空間坐標。

? 基于人工智能的腎臟免疫細胞定位多項式分類工作流程示意圖及其應用。Credit: Advanced Science (2026).

該研究融合了免疫學與生物信息學，團隊利用來自腎臟皮質、外髓質和內髓質的多個獨立單細胞RNA測序數據集對MERLIN算法進行訓練。該算法采用改進的多層感知器機器學習框架，通過識別受局部缺氧或鹽濃度等組織微環境影響的特異性基因表達模式來預測細胞來源。數據表明，MERLIN預測小鼠和人類腎臟中駐留巨噬細胞空間位置的準確率均超過75%，并且成功跨器官應用于大腦，重建了小膠質細胞的空間分布。在分析急性腎損傷和糖尿病腎病等已發表數據集時，MERLIN揭示了外髓質巨噬細胞在促炎反應中的主導地位，其預測的區域特異性免疫反應與臨床已知的藥物療效高度吻合，為研究微環境與疾病進展的關系提供了強大工具。研究發表在 Advanced Science 上。

#神經科學 #神經機制與腦功能解析 #技術創新 #單神經元重建 #全腦成像

閱讀更多：

Yin, Junping, et al. “Predicting Macrophage Spatial Localization from Single-Cell Transcriptomes to Uncover Disease Mechanisms.” Advanced Science, n/a, no. n/a, p. e10924. Wiley Online Library, https://doi.org/10.1002/advs.202410924

前腦島活動揭示酒精成癮者偏愛酒精的神經機制

成癮者為何更偏愛酒精而非社交？阿姆斯特丹醫科大學中心的Nathan J. Marchant團隊開展研究，證實前腦島區域在決策過程中的活動偏差是促使個體優先選擇酒精的關鍵所在。

? 左圖：軌跡圖描繪了大鼠按下杠桿獲得酒精或社交獎勵時前島葉的活動情況。右圖：大鼠按下杠桿獲得獎勵后的平均活動值（±標準誤）。Credit: van Mourik et al., 2026

研究團隊訓練大鼠在交替階段按壓杠桿，以分別獲得酒精或社交獎勵。研究人員在大鼠的前腦島皮層轉染了鈣指示劑，并利用光纖光度法記錄腦區活動。同時，團隊引入線性彈道累積器模型（Linear Ballistic Accumulator modelling，一種用于解析認知決策中證據積累速度的數學模型）來分析行為數據。

結果顯示大鼠逐漸形成了強烈的酒精偏好。在面臨選擇時，前腦島皮層在酒精相關行為中的活躍度顯著高于社交行為，尤其在做出決定前的提示期最為明顯。模型表明，該腦區的活動差異與決策偏差高度正相關，即該腦區活動加快了傾向酒精的證據積累。當對選擇酒精施加懲罰時，大鼠偏好逆轉，該腦區活動偏差不再與決策相關。這證實了前腦島在酒精渴求機制中的關鍵作用，為成癮干預提供了新的潛在治療靶點。研究發表在 Journal of Neuroscience 上。

#疾病與健康 #神經機制與腦功能解析 #成癮機制 #前腦島皮層 #決策偏差

閱讀更多：

Mourik, Yvar van, et al. “Anterior Insula Activity during Alcohol and Social Reward Self-Administration and Choice in Male and Female Rats.” Journal of Neuroscience, Feb. 2026. Research Articles. www.jneurosci.org, https://doi.org/10.1523/JNEUROSCI.1180-25.2026

新冠后遺癥：味蕾內的分子缺陷導致長期味覺喪失

新冠引發的長期味覺喪失機制亟待闡明。科羅拉多大學安舒茨醫學院等機構的Hanna Morad與Thomas E Finger等人合作，首次發現長新冠患者味蕾內的分子異常，揭示了特定味覺喪失的生物學原因。

研究團隊招募了28名在感染新冠病毒一年后仍報告持續味覺障礙的非住院患者。研究人員首先使用WETT味覺測試客觀評估受試者對甜、鮮、苦、酸、咸五種基本味覺的感知能力。隨后，團隊對其中20名受試者的菌狀乳頭進行了活體組織檢查。通過組織學分析和定量聚合酶鏈式反應（qPCR，一種用于放大并定量檢測特定遺傳物質片段的技術），研究人員檢測了味蕾的整體結構、神經支配情況以及不同味覺受體細胞標志物的信使核糖核酸表達水平。

結果顯示，11名患者出現了一種或多種味覺的完全喪失，主要集中在甜味、鮮味和苦味上。這些受影響的味覺均依賴于一種名為PLCβ2的蛋白質，該蛋白質作為受體細胞內的分子放大器，對味覺感知至關重要。患者樣本中負責產生PLCβ2的mRNA水平顯著降低導致信號減弱，且部分患者顯微鏡下可見味蕾結構紊亂。這表明長期味覺喪失并非外周神經整體破壞，而是由特定分子功能障礙和局部結構改變所致。研究發表在 Chemical Senses 上。

#疾病與健康 #其他 #長新冠 #味覺喪失 #分子病理

閱讀更多：

Morad, Hanna, et al. “Taste Dysfunction in Long COVID.” Chemical Senses, vol. 51, Jan. 2026, p. bjaf068. Silverchair, https://doi.org/10.1093/chemse/bjaf068

AI分析未發現年輕人大腦結構與導航能力存在明顯關聯

長期以來，人們常引用“倫敦出租車司機”的研究，認為擅長認路的人擁有更發達的大腦特定區域。然而，這一觀點在普通年輕人身上可能并不適用。來自德克薩斯大學阿靈頓分校的史蒂文·韋斯伯格（Steven M. Weisberg）與佛羅里達大學的阿什什·薩胡（Ashish K. Sahoo）等人組成的研究團隊，利用先進的人工智能技術向這一傳統觀念發起了挑戰。他們發現，在健康年輕人群體中，大腦結構與導航能力之間并沒有明顯的聯系。

該研究招募了90名平均年齡為23.1歲的參與者，要求他們在虛擬環境中學習路線并繪制地圖，以測試其空間記憶和導航能力。隨后，研究團隊利用圖卷積神經網絡（GCNN）和3D卷積神經網絡（3DCNN）等深度學習模型，對參與者的磁共振成像（MRI）數據進行分析。這些先進的模型能夠檢測出傳統測量方法（如單純的體積測量）無法捕捉的細微結構模式。研究重點對比了傳統上與記憶和導航密切相關的海馬體以及作為對照區域的丘腦。結果顯示，盡管AI模型能夠很好地擬合訓練數據，但在預測新數據的導航表現時效果微弱。這意味著，對于健康的年輕成年人而言，大腦宏觀結構的差異（如海馬體的大小或形狀）并不能有效預測其認路能力的強弱。這一發現提示我們需要重新審視大腦結構與行為功能之間的映射關系，未來的研究可能需要更大的樣本量或更全面的行為指標。研究發表在 Neuropsychologia 上。

#AI驅動科學 #神經機制與腦功能解析 #海馬體 #空間導航 #深度學習

閱讀更多：

Sahoo, Ashish K., et al. “Deep Learning Approaches to Map Individual Differences in Macroscopic Neural Structure with Variations in Spatial Navigation Behavior.” Neuropsychologia, vol. 222, Feb. 2026, p. 109352. PubMed, https://doi.org/10.1016/j.neuropsychologia.2025.109352

記憶編碼并非持續恒定，而是隨大腦 Theta 節律波動

為什么有些瞬間我們能清晰記住，而另一些則轉瞬即逝？Thomas M. Biba、Katherine Duncan 等來自多倫多大學、麻省理工學院的研究團隊發現，人類的學習和記憶能力并非每時每刻都保持穩定，而是以每秒數次的頻率進行節律性波動。這項研究證實了記憶編碼效率會隨著大腦的特定節律起伏，揭示了大腦捕捉信息的“最佳時刻”。

該研究采用了通常用于注意力研究的密集采樣方法，對125名參與者進行了毫秒級精度的測試。在實驗中，研究人員微調了提示線索與記憶目標出現的時間間隔，從而重建了記憶編碼的時間進程。結果顯示，記憶的形成呈現出明顯的 Theta 節律，即在3-10 Hz的頻率范圍內波動。這意味著大腦每秒鐘大約有3到10次“快門”開啟的機會，處于這些時間窗口內的信息更容易被記住。此外，研究還發現這種節律受到乙酰膽堿相關因素的調節，乙酰膽堿是一種對注意力和學習至關重要的神經遞質。符合編碼與提取獨立階段模型（Separate Phases for Encoding and Retrieval (SPEAR) model）的預測，那些擁有更好持續注意力或受尼古丁（乙酰膽堿激動劑）影響的個體，其記憶節律表現出不同的特征。這表明我們的記憶系統并非持續在線，而是通過快速的振蕩機制來優化信息的編碼。

#認知科學 #記憶機制 #神經機制與腦功能解析 #生理節律

閱讀更多：

Biba, Thomas M., et al. “Episodic Memory Encoding Fluctuates at a Theta Rhythm from 3-10 Hz.” s8nda_v2, PsyArXiv, 14 Jan. 2026. OSF Preprints, https://osf.io/preprints/psyarxiv/s8nda_v2/

低劑量鋰可能延緩輕度認知障礙患者的語言記憶衰退

鋰作為治療雙相情感障礙的老藥，是否能跨界延緩阿爾茨海默病的進程？來自匹茲堡大學醫學院的Ariel G. Gildengers及其同事的一項最新臨床試驗表明，這種情緒穩定劑可能具有神經保護潛力。研究團隊發現，雖然低劑量鋰未能全面阻止輕度認知障礙患者的病情惡化，但在特定的記憶領域顯示出了減緩衰退的積極信號，且在老年群體中表現出良好的安全性。

在這項為期兩年的隨機雙盲對照試驗中，研究人員招募了80名患有輕度認知障礙的老年人，對比了每日服用低劑量碳酸鋰與安慰劑的效果。研究重點關注了參與者的加州言語學習測試-II成績及腦部影像學變化。結果顯示，雖然主要終點未達統計學顯著性，但在語言記憶這一阿爾茨海默病早期受損的關鍵領域，鋰劑組的年均評分下降幅度（0.73分）僅為安慰劑組（1.42分）的約一半。此外，腦成像分析顯示，盡管兩組參與者的海馬體均隨時間萎縮，但在β-淀粉樣蛋白檢測呈陽性的患者亞組中，鋰劑似乎提供了更強的保護作用。這一發現提示，未來的研究若能利用生物標志物篩選特定患者群體，可能會觀察到更明確的療效。研究證實了該療法的安全性，為后續更大規模的驗證性試驗奠定了基礎。研究發表在 JAMA Neurology 上。

#疾病與健康 #個性化醫療 #神經調控 #阿爾茨海默病

閱讀更多：

Gildengers, Ariel G., et al. “Low-Dose Lithium for Mild Cognitive Impairment: A Pilot Randomized Clinical Trial.” JAMA Neurology, Mar. 2026. Silverchair, https://doi.org/10.1001/jamaneurol.2026.0072

細胞譜系被證實是大腦自我組織的“隱形導航圖”

大腦如何從單細胞發育成擁有千億神經元的復雜網絡？來自冷泉港實驗室、哈佛大學和蘇黎世聯邦理工學院的 Stan Kerstjens、Anthony M. Zador、Florian Engert 和 Rodney J. Douglas 等研究人員提出了顛覆性的新理論。他們發現，細胞的位置命運不僅僅依賴外部化學信號，更取決于其“家族血統”。該研究揭示了細胞譜系如何作為一種可擴展的位置信息機制，指導大腦在大尺度上的精確組裝。

? 神經科學家追蹤了斑馬魚大腦中兩個相鄰區域（分別用紅色和藍色標出）數千個基因的表達模式。Credit: Zador lab/CSHL

長期以來，科學家認為發育中的細胞主要通過擴散的化學信號來“導航”。然而，這種信號隨距離衰減，難以解釋大型大腦的精確構建。研究團隊構建了一種基于譜系的模型，并在小鼠和斑馬魚的發育大腦中進行了驗證。他們發現，主要特征基因——即數千個基因的共表達模式——在發育過程中表現出驚人的穩定性，并且跨物種保守。研究表明，細胞像人類家族繁衍定居一樣，傾向于停留在祖先附近，這種“基于譜系”的信息傳遞方式解決了長距離定位的難題，與化學信號機制形成互補，共同確保了大腦結構的正確發育。這一發現不僅解開了生物學基礎謎題，也可能為理解自我復制AI模型的代際信息傳遞提供新視角。研究發表在 Neuron 上。

#神經科學 #神經機制與腦功能解析 #發育生物學 #細胞譜系

閱讀更多：

Kerstjens, Stan, et al. “A Lineage-Based Model of Scalable Positional Information in Vertebrate Brain Development.” Neuron, vol. 0, no. 0, Mar. 2026. www.cell.com, https://doi.org/10.1016/j.neuron.2025.12.043

10分鐘數字干預課程可緩解抑郁癥狀

針對抑郁癥治療門檻高、資源緊缺的全球性難題，Benjamin T. Kaveladze、Jessica L. Schleider 等研究人員開展了一項大規模眾包研究，旨在探索簡短的數字化手段對改善心理健康的作用。該團隊通過篩選與測試，發現精心設計的簡短在線課程能為抑郁癥患者提供實質性幫助。

這項研究是有史以來規模最大的心理健康干預隨機對照試驗之一。研究團隊首先眾包征集了66個干預方案，最終篩選出12個時長在10分鐘以內的單次干預（SSIs）課程，內容涵蓋從人工智能輔助寫作到改編自勵志廣告的各種形式。7,505名患有抑郁癥狀的美國成年人被隨機分配接受其中一種干預，或進入學習鱒魚知識的對照組。結果顯示，雖然幾乎所有干預都能帶來即時的積極情緒，但在一個月后，僅有“互動認知重評”（Interactive Cognitive Reappraisal，一種引導用戶重新解讀負面想法的技巧）和“尋找焦點”（Finding Focus，一種注意力訓練）這兩種方法顯示出顯著的持續效果。與對照組相比，這兩項干預使抑郁癥狀進一步減輕了約4%。盡管效應量較小，但考慮到這些課程完全免費且易于大規模推廣，其公共衛生意義重大。值得注意的是，數據顯示參與者在四周后的改變意愿平均略有下降，這提示未來的研究需關注如何利用即時收益來促進長期的行為改變。研究發表在 Nature Human Behaviour 上。

#疾病與健康 #心理健康與精神疾病 #健康管理與壽命延長 #數字療法 #公共衛生

閱讀更多：

Kaveladze, Benjamin T., et al. “A Crowdsourced Megastudy of 12 Digital Single-Session Interventions for Depression in US Adults.” Nature Human Behaviour, Mar. 2026, pp. 1–17. www.nature.com, https://doi.org/10.1038/s41562-026-02415-6

AI 驅動科學

AI驅動的高通量全腦細胞圖譜繪制

為了打破器官整體成像與細胞細節研究之間的壁壘，來自洛克菲勒大學的 Tatsuya C. Murakami 和 Nathaniel Heintz 等研究人員開發了一項突破性的整合技術。針對全器官成像中難以同時標記大量分子以及缺乏高效細胞定量分析方法的痛點，該團隊推出了一套結合了高多重全組織染色與人工智能分析的全新框架，成功實現了在完整組織樣本中對復雜細胞生態系統的系統性解析。

研究團隊首先開發了名為 mFISH3D 的技術，通過系統優化組織處理流程，包括利用甲醇脫脂、特定的雜交緩沖液以及光漂白技術去除自發熒光，實現了在完整小鼠大腦中對多達 10 種信使核糖核酸進行高信噪比的三維成像。為了處理產生的海量三維數據，研究人員開發了名為 ZenCell 的人工智能分析工具。ZenCell 基于視覺Transformer架構，采用自監督學習策略，僅需極少量的人工標注數據即可完成高精度的全腦三維細胞分割。實驗結果顯示，該策略不僅精準繪制了小鼠大腦中抑制性神經元的亞型分布，糾正了關于丘腦細胞類型的傳統認知，還成功應用于小鼠胚胎、腎臟、魷魚腦以及人腦皮層樣本，證明了其在跨物種、多組織類型研究中的廣泛適用性。研究發表在 Neuron 上。

#AI驅動科學 #自動化科研 #全腦成像 #原位雜交 #細胞圖譜

閱讀更多：

Murakami, Tatsuya C., et al. “Artificial Intelligence-Driven Whole-Brain Cell Mapping with Highly Multiplexed in Situ Hybridization.” Neuron, vol. 0, no. 0, Feb. 2026. www.cell.com, https://doi.org/10.1016/j.neuron.2025.12.027

CATS Net框架實現類人概念形成、理解與交流

當前AI系統在從感知經驗中自發形成概念方面仍存在局限。中國科學院自動化研究所的Shan Yu團隊與北京大學的Yanchao Bi團隊合作，提出了一種新型神經網絡框架CATS Net。該研究不僅再現了類人的概念生成與理解過程，還揭示了其背后的計算原理，為構建具有類人概念智能的系統提供了新思路。

CATS Net包含概念抽象（CA）模塊和任務求解（TS）模塊。在處理視覺任務時，CA模塊將高維輸入壓縮為低維概念向量，這些向量如同“鑰匙”，通過分層門控機制產生“開關”信號，動態調節TS模塊以完成特定任務。研究團隊利用功能磁共振成像（fMRI）的表征相似性分析（RSA）發現，CATS Net生成的概念空間與人類認知語義模型高度一致，且其表征模式與人腦腹側枕顳皮層的活動顯著相關。此外，CA模塊的運作機制也與人腦語義控制網絡相吻合。更重要的是，該框架允許不同網絡間通過直接傳遞概念向量來實現知識共享，模擬了人類的語言交流過程。研究成果已發表在 Nature Computational Science 上。

#認知科學 #計算模型與人工智能模擬 #神經機制與腦功能解析 #跨學科整合

閱讀更多：

Guo, Liangxuan, et al. “A Neural Network for Modeling Human Concept Formation, Understanding and Communication.” Nature Computational Science, Feb. 2026, pp. 1–15. www.nature.com, https://doi.org/10.1038/s43588-026-00956-4

序列模型智能體可通過上下文推理自然涌現合作行為

在多智能體系統中，如何讓自利的個體自發達成合作一直是人工智能領域的一大難題。Google Paradigms of Intelligence Team 的研究人員 Marissa A. Weis、Maciej Wo?czyk 和 Alexander Meulemans 等人的一項最新研究表明，通過讓基于序列模型的智能體與多樣化的對手進行博弈，可以自然地誘導出穩健的合作行為，而無需像過去那樣依賴復雜的元學習機制或人為設定的層級結構。這一發現為利用標準序列建模和強化學習技術構建可擴展的協作多智能體系統提供了新路徑。

這項研究聚焦于經典的迭代囚徒困境（Iterated Prisoner’s Dilemma）博弈。研究團隊提出了一種“混合池訓練”的方法，即讓正在學習的智能體不僅與同類互動，還與一系列策略各異的靜態表格型智能體進行博弈。關鍵在于，智能體不知道對手是誰，必須依靠歷史交互數據進行實時推斷。實驗結果顯示，這種環境迫使智能體掌握了上下文學習能力，即在單次互動中快速識別對手并做出最佳響應。有趣的是，這種快速適應能力使智能體表現得像一個容易被利用的“天真學習者”，這反而成為了合作的催化劑：為了避免雙輸，智能體之間產生了相互勒索（Mutual extortion）的動態壓力，最終在長期的權重更新中演化出了互利共贏的合作策略。研究團隊還提出了一種名為預測策略改進（PPI）的新算法，利用序列模型的自監督學習進一步提升了這一過程的效率。

#大模型技術 #意圖與決策 #多智能體強化學習 #博弈論 #上下文學習

閱讀更多：

Weis, Marissa A., et al. “Multi-Agent Cooperation through in-Context Co-Player Inference.” arXiv:2602.16301, arXiv, 18 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.16301

大語言模型是否暗中知道何時停止思考？

大型推理模型在解決復雜問題時常產生冗長且低效的“思維鏈”，但它們是否知道何時應該“見好就收”？來自北京航空航天大學和字節跳動公司的Zixuan Huang、Deqing Wang等人通過研究揭示，模型其實隱式地具備判斷最佳停止時機的能力，只是這種能力被現有技術范式所掩蓋。他們為此開發了名為SAGE的新方法，成功解鎖了模型高效推理的潛力。

研究團隊發現，盡管模型表面上會生成大量冗余的推理步驟，但其內部對簡短且正確的推理路徑抱有更高的“自信心”。這種自信心并非通過常規的下一個詞預測概率來體現，而是通過整個思考路徑的平均累積對數概率（Φ，一種衡量全局連貫性的指標）來衡量。基于這一洞察，團隊提出了SAGE（Self-Aware Guided Efficient Reasoning）解碼策略。該策略在推理時會探索多條可能的路徑，并優先選擇那些讓模型整體上最自信的路徑，尤其是當模型高度自信地生成一個“思考結束”的信號時。進一步地，他們將SAGE融入強化學習框架（SAGE-RL），讓模型能夠學習并內化這種高效的推理模式。實驗結果表明，經過SAGE-RL優化的模型在多個高難度數學推理基準測試中，不僅推理過程更簡潔，準確率也得到顯著提升。

#大模型技術 #計算模型與人工智能模擬 #強化學習 #推理效率

閱讀更多：

Huang, Zixuan, et al. “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” arXiv:2602.08354, arXiv, 27 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.08354

AgentConductor：基于強化學習的多智能體拓撲演化，實現競賽級代碼生成

當前用于代碼生成的多智能體系統因其固定的協作模式而面臨效率瓶頸。針對此問題，Siyu Wang, Ruotian Lu, Zhihao Yang等人提出了一種名為AgentConductor的新型框架。該框架引入一個“指揮家”智能體，通過強化學習動態生成和演化智能體之間的交互拓撲（即通信網絡），使其能根據任務的難易度和實時反饋進行自適應調整，從而高效解決競賽級編程問題。

AgentConductor的核心是一個基于大語言模型的“指揮家”智能體，它通過兩階段訓練而成：首先進行監督微調，使其掌握生成有效拓撲結構的基礎知識；隨后采用強化學習進一步優化。在解決問題時，“指揮家”會評估任務難度，并生成一個與之匹配的分層有向無環圖（layered Directed Acyclic Graph，一種允許并行處理和靈活通信的圖結構）。系統根據該拓撲執行任務，若失敗則會利用執行反饋進行多輪迭代，重新生成更優的拓撲。訓練過程采用了一種創新的多目標獎勵函數，它不僅獎勵代碼的正確性，還考慮了拓撲結構的合理性和一個與任務難度掛鉤的密度指標，以此平衡性能與資源消耗。實驗結果顯示，在APPS等五個公開代碼生成數據集上，AgentConductor的性能全面超越現有方法，pass@1準確率最高提升了14.6%，同時將令牌消耗降低了68%，實現了更優的效能與成本控制。

#AI驅動科學 #機器人及其進展 #多智能體系統 #強化學習

閱讀更多：

Wang, Siyu, et al. “AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation.” arXiv:2602.17100, arXiv, 19 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.17100

混合強化學習框架利用記憶機制，顯著提升大語言模型智能體的探索能力

如何解決大語言模型智能體在強化學習中探索能力不足的瓶頸？微軟研究院和韓國科學技術院的Zeyuan Liu、Jeonghye Kim、Xufang Luo等人提出了一種名為EMPO2的新型混合強化學習框架，通過融合外部記憶與策略優化，顯著增強了智能體的自主探索與泛化能力。

該團隊提出的EMPO2（Exploratory Memory-Augmented On- and Off-Policy Optimization）框架獨創性地結合了參數化與非參數化更新。在訓練中，智能體能通過自我反思，將過去的失敗經驗總結為“提示”存入外部記憶，用于指導后續探索。更關鍵的是，該框架采用了一種混合策略優化方法，通過一種類似知識蒸餾的離策略（off-policy）更新機制，將記憶帶來的探索優勢“內化”為模型自身的參數。這使得智能體最終即使脫離記憶模塊也能保持出色的性能。為進一步提升探索效率，研究還引入了狀態新穎度的內在獎勵機制。在ScienceWorld和WebShop兩個復雜任務環境中的測試表明，EMPO2的性能相較于基線算法GRPO分別提升了128.6%和11.3%。在分布外測試中，該智能體也展現出強大的泛化能力，無需更新參數即可快速適應新任務。

#AI驅動科學 #機器人及其進展 #強化學習 #大語言模型智能體

閱讀更多：

Liu, Zeyuan, et al. “Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization.” arXiv:2602.23008, arXiv, 26 Feb. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2602.23008

整理｜ChatGPT

編輯｜丹雀、存源

關于追問nextquestion

天橋腦科學研究院旗下科學媒體，旨在以科學追問為紐帶，深入探究人工智能與人類智能相互融合與促進，不斷探索科學的邊界。歡迎評論區留言，或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問，我們將基于追問知識庫為你做出智能回復哦~

關于天橋腦科學研究院

天橋腦科學研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一，圍繞全球化、跨學科和青年科學家三大重點，支持腦科學研究，造福人類。

研究院在華山醫院、上海市精神衛生中心分別設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室；與加州理工學院合作成立了加州理工陳天橋雒芊芊神經科學研究院。

研究院還建成了支持腦科學和人工智能領域研究的生態系統，項目遍布歐美、亞洲和大洋洲，包括、、、科研型臨床醫生獎勵計劃、、、科普視頻媒體「大圓鏡」等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.