網易首頁 > 網易號 > 正文申請入駐

別只拿大模型潤色論文了！看這8位頂尖神經科學家如何用AI開掛

2026-03-12 09:51:06　來源: 追問Nextquestion

上海舉報

分享至

在過去幾年里，大語言模型（large language models，LLMs）在規模與能力上都實現了顯著提升。它們在復雜推理方面更加出色，能夠理解并執行科學研究中的指令提示，如今還可以處理文本、圖像和代碼等多種信息形式。研究人員迅速將這些能力融入科研流程之中，把大語言模型納入日常工作，用于文獻分析、研究假設生成、數據庫查詢、復雜數據集處理以及新結果的探索。接下來，八位神經科學家將結合各自實驗室的實踐，介紹他們如何具體運用這些工具。

為便于閱讀，以下內容在篇幅和表述清晰度上經過了適度編輯。

雷扎·阿巴西-阿斯爾

Reza Abbasi-Asl

美國加州大學舊金山分校神經學、生物工程與治療科學副教授

阿巴西-阿斯爾的實驗室致力于探索可解釋機器學習（interpretable machine learning）在理解大腦功能及相關疾病中的作用。他主持了多項將人工智能應用于神經解剖學與健康技術的研究，其中包括一項發表于2025年的重要成果：利用基于Transformer的模型，構建了迄今分辨率最高的小鼠大腦結構圖譜之一。

在這一過程中，模型幾乎不需要人工干預，而是以自下而上的方式，自主學習神經解剖的組織規律。

我們實驗室正在使用支撐大語言模型的核心技術，來處理一種完全不同的“語言”。這種語言并非文本，而是由空間基因組學（spatial genomics）實驗所揭示的細胞組織結構。基于這一思路，我們提出了一個問題：人工智能模型是否也能像語言模型理解句子中的詞語那樣，根據周圍細胞構成的上下文來理解單個細胞？答案是肯定的。

我們實驗室正在使用支撐大語言模型的核心技術，來處理一種完全不同的“語言”。這種語言并非文本，而是由空間基因組學（spatial genomics）實驗所揭示的細胞組織結構。基于這一思路，我們提出了一個問題：人工智能模型是否也能像語言模型理解句子中的詞語那樣，根據周圍細胞構成的上下文來理解單個細胞？答案是肯定的。

CellTransformer采用自監督學習（self-supervised learning）的方式，在Allen腦科學研究所合作團隊采集的大規模空間基因組學數據上進行訓練。模型在分析一個細胞鄰域時，會刻意隱藏其中某個細胞的分子身份，僅依據周圍細胞的信息進行推斷。通過數百萬次重復這一過程，它逐漸掌握了不同細胞在空間中如何組合與排列的基本規律。

這一方法與以往主要用于界定大腦中不同細胞類型的腦圖譜研究有所不同。CellTransformer 關注的不是細胞類型本身，而是不同類型的細胞如何進一步組合成更大尺度、具有功能意義的腦區結構。在這一過程中，模型幾乎完全依賴數據進行學習，無需人工標注，最終生成了一張超高分辨率的大腦結構圖譜。令人高興的是，該模型不僅以極高的準確度復現了已知的大尺度腦區，還識別出了大量此前尚未被系統記錄的、更為精細的亞區結構。

?腦圖譜繪制：圖中展示了 CellTransformer 在小鼠大腦中識別出的約 1300 個腦區或亞區。每張切片旁均附有 Allen 腦科學研究所提供的對應參考圖譜，便于對照。加州大學舊金山分校 Abbasi 實驗室

這真的讓人非常振奮。因為在過去幾十年里，臨床前研究所依賴的大腦圖譜，本質上仍是手工繪制的，難免受到不同腦區歷史研究興趣的影響。

相比之下，人工智能生成的圖譜在空間細節上更為精細，也更加客觀。研究者可以將疾病狀態或藥物作用精準對應到以細胞為單位界定的特定腦區，而且當新的數據出現時，該方法也可以迅速應用。

更令人期待的是，CellTransformer并不局限于神經科學領域。研究團隊將其設計為一種不依賴特定組織類型的通用工具。只要某個器官系統擁有大規模空間轉錄組學（spatial transcriptomics）數據，就可以直接應用這一模型。

這意味著，它不僅提供了一種新的大腦圖譜構建方式，也為幾乎所有生物學領域建立高分辨率細胞圖譜提供了基礎性方案。從長遠來看，該框架有望發展為一個可擴展的平臺，推動跨物種、跨疾病狀態的組織結構研究，逐步加深我們對組織結構的、真正基于數據的理解。

卡特琳·弗蘭克

Katrin Franke

斯坦福大學醫學院高級研究科學家

德國蒂賓根大學眼科研究所研究組負責人

她的研究融合系統神經科學、計算建模與機器學習方法，致力于揭示視網膜與大腦皮層中的神經回路如何處理視覺信息。

最近，我們開始將大語言模型作為“科學家”來使用，讓它們承擔一些原本需要由人類完成的分析工作，并且能夠在更大規模上開展這些任務。

大語言模型極大地改變了我的工作方式，如今已成為我日常科研中不可或缺的一部分。作為一名非英語母語者，無論是在郵件中拿捏語氣，還是在撰寫論文評審時精確措辭，我過去常常難以把想法表達得足夠清晰。如今，我會借助大語言模型來潤色初稿、檢查語法并調整語氣，這讓學術寫作對像我這樣的非母語研究者來說變得更加輕松，也更有把握。

除了寫作，我也經常使用大語言模型處理編程任務，尤其是在生成數據可視化代碼片段或進行調試時。這些工具的交互特性讓我在思考問題時更加高效，比獨自琢磨要順暢得多。無論是構思分析思路，還是梳理論文結構，我都會與模型反復交流，在對話中不斷完善想法。

我的研究高度依賴團隊協作，日常需要進行大量會議。我們會將會議內容轉錄成文字，再交由大語言模型整理，生成結構清晰、包含明確行動要點的會議摘要，這為團隊節省了大量時間。近期，我們還開始借助視覺語言模型（vision-language models，VLMs）等更先進的模型進行科學研究。這類技術讓研究者能夠完成過去主要依賴人工判斷的分析任務，并在規模和速度上達到以往難以實現的水平。

以我們的研究為例，我們關注視覺皮層中的神經元如何對不同圖像作出反應。如今，我們可以借助大語言模型，自動概括這些圖像在內容上的共同特征，如果完全依靠人工完成，這一過程往往需要耗費研究者大量時間。

盡管我在日常科研中頻繁使用這些工具，但我始終對它們的輸出保持審慎態度。只要持續保持批判性視角，并清楚認識到諸如“幻覺”等局限性，我相信包括大語言模型在內的人工智能工具，依然具有深刻改變我們工作方式的巨大潛力。（順便一提，這段文字本身也借助了大語言模型進行潤色。）

布拉德利·洛夫

Bradley Love

洛斯阿拉莫斯國家實驗室高級研究科學家

早期工作中，他構建了關于人類學習與決策機制的計算模型，并將這些模型應用于腦成像數據的分析。近年來，他的重點轉向改進深度學習模型，使其在行為表現和大腦反應層面更加貼近人類。目前，他致力于構建綜合性科研系統，其中包含大語言模型等關鍵組件，以推動科學發現的提速。

BrainGPT.org項目探討了一個關鍵問題：如果將大語言模型訓練于神經科學文獻，它們在預測各個子領域的實驗結果時，是否能夠超越人類專家[1]。為此，來自11個國家的國際團隊開發了評測基準BrainBench。該基準基于《神經科學雜志》的論文摘要，要求測試對象區分真實研究結果與經過細微修改的結果。參與測試的既包括人類專家，也包括大語言模型。

結果顯示，在預測實驗結果這一任務中，人機混合團隊的準確率高于單獨的人類或人工智能。

最關鍵的發現是，大語言模型在預測實驗結果方面表現出超越人類專家的能力。同時，它們的置信度具有良好的校準性。也就是說，模型越有把握時，預測結果通常也越準確。這一研究結果表明，大語言模型可能從根本上改變神經科學研究的開展方式。

研究由此帶來了兩點重要啟示。第一，由于大語言模型和人類專家都表現出較好的置信度校準能力，將兩者結合組成的人機團隊，其預測準確率高于任何一方單獨工作。第二，借助大語言模型在信息整合和模式識別方面的獨特優勢，這類系統有助于加快科學發現的進程。

一個典型案例來自哈佛醫學院和麻省總醫院的邁克爾·施瓦茨希爾德（Michael Schwarzschild）。他曾發現一種潛在的帕金森病生物標志物，但后來回顧文獻時發現，上世紀80至90年代已有研究提出過類似線索，只是當時未受到足夠重視。在測試中，BrainGPT 所使用的大語言模型成功將這一創新性結果判斷為最有可能成立的發現。這顯示出模型能夠發現被忽視的研究線索，并將分散的科學文獻重新關聯起來。

目前，研究團隊正與AE Studio合作開發開源工具，幫助不同學科的科學家更好地利用這些預測能力。這些工具的目標，是通過預測研究結果、評估既有研究結果的可重復性，來提升科研效率。

研究團隊也邀請科學家、人工智能研究者以及軟件開發者注冊獲取項目進展，或參與到相關工作中[4]。同時，團隊正在尋求用于托管這些工具的資源，以確保其能夠免費向學術社區開放。對此感興趣的讀者，可以聯系項目負責人羅曉亮（Xiaoliang Luo，EmpiriQaL.ai）以及我本人[5-6]。這一項目標志著人工智能深入參與科學研究的重要進展，也為不同學科探索新的發現與驗證路徑提供了新的工具支持。

杰里米·馬格蘭德

Jeremy Magland

Flatiron 研究所計算數學中心高級數據科學家

他的研究主要圍繞構建計算工具與科研平臺，提升研究者對復雜科學數據的獲取與使用能力，重點關注數據可視化、交互式分析以及研究過程的可重復性。他開發的開源軟件被廣泛應用于多個科學領域，在神經生理學研究和神經元放電分選領域尤為常見。

這些數據具有很高的再利用價值，但對于未參與原始采集的研究者來說，理解其結構與內容往往需要投入大量時間。

我們正在利用大語言模型，幫助神經科學研究者更高效地復用DANDI神經生理數據分布式檔案庫（Distributed Archives for Neurophysiology Data）中的復雜數據集。DANDI收錄了數百個神經生理數據集，涵蓋通過電生理、鈣成像等技術記錄的大腦活動數據，同時包含行為數據與刺激信息。這些數據具有很高的再利用價值，但對于未參與原始采集的研究者來說，理解其結構與內容往往需要投入大量時間。

為此，我們團隊開發了一套基于大語言模型的系統，來承擔數據初步探索中最耗時的工作。首先，一個人工智能代理會自動對數據集進行探索，自主從遠程文件中加載數據片段，運行探索腳本，并生成和檢查可視化結果，以理解數據的結構與特征。隨后，第二個模型會基于前一步收集的信息，自動生成一個Python筆記本，對數據集進行系統介紹，并演示如何加載、繪圖和開展初步分析。在經過人工核查以確保準確性后，該筆記本將與對應數據集一同發布在線。

這一流程的目標，是幫助研究者在幾分鐘內完成從“這個數據很有意思”到“我可以開始使用它”的轉變。這也是推動公共神經科學數據更加易于理解和復用的重要一步。

當然，在使用大語言模型時，必須警惕它們可能生成誤導性信息。我啟動這一項目的另一個目的，是檢驗模型是否會落入常見的統計陷阱，從而得出虛假的研究結論[7]。隨著模型能力不斷提升，這類問題有望逐步減少。

妮娜·米奧蘭

Nina Miolane

加州大學圣塔芭芭拉分校電氣與計算機工程系助理教授、幾何智能實驗室主任

她的實驗室研究“智能的幾何結構”，即用數學原理刻畫大腦與機器如何組織、轉換并適應信息。在這些原理的基礎上，團隊致力于開發新一代人工智能系統。即使在數據規模較小、噪聲較大或結構高度復雜的情況下，這些系統仍能實現顯著提升的準確性或計算效率。

我們發現，自動化檢索與文獻整理顯著提升了對模型結果的理解深度，也促進了團隊內部的討論，并為后續實驗室驗證階段的蛋白篩選提供了清晰方向。

額顳葉變性（frontotemporal degeneration，FTD）是一種影響大腦額葉和顳葉區域的癡呆類型，會損害語言、決策以及運動功能。它是60歲以下人群中最常見的癡呆形式之一，但其分子層面的致病機制至今仍未被充分理解。

為填補這一空白，我們開展了一項研究項目，由博士生路易莎·科內利斯（Louisa Cornelis）牽頭，并與加州大學圣塔芭芭拉分校的幾何智能實驗室（Geometric Intelligence Lab）以及加州大學舊金山分校的記憶與衰老中心共同開展[8]。參與該項目的研究人員還包括吉列爾莫·貝爾納爾德斯·吉爾（Guillermo Bernárdez Gil）、羅文·薩洛納（Rowan Saloner）、凱特琳·卡薩萊托（Kaitlin Casaletto）以及我本人[9-11]。研究團隊利用可解釋的圖神經網絡（Graph Neural Networks，GNNs），對來自FTD患者的大規模蛋白質組學數據進行了系統分析。

我們的模型通過識別疾病早期的分子信號來預測未來的認知功能下降。在某些情況下，甚至能夠在臨床癥狀出現之前給出預警，從而提前評估疾病可能對患者生活和功能狀態產生的影響。隨后，我們結合由大語言模型增強的可解釋性分析方法，篩選出在模型預測中發揮關鍵作用的蛋白質，以揭示可能支撐FTD發生與進展的分子模式。

在具體操作層面，我們將大語言模型整合進整個可解釋性分析流程中。當模型篩選出最具預測力的前10個關鍵蛋白后，一個定制化的AI系統會自動檢索PubMed數據庫，并對相關文獻進行梳理和總結，幫助我們回答幾個核心問題：這些蛋白已知的生物學功能是什么？其中哪些曾在阿爾茨海默病或帕金森病等神經退行性疾病研究中被報道？是否出現在動物實驗中？又有哪些可能是此前尚未被關注的全新線索？

初步測試已帶來了多項有價值的發現。例如，即便此前沒有與FTD的直接研究關聯，這套系統仍然能夠發現，圖神經網絡（Graph Neural Networks，GNNs）識別出的關鍵蛋白與其他神經退行性疾病之間存在潛在聯系。團隊成員在此過程中逐一核查所有引用文獻。我們發現，自動化檢索與文獻整理顯著提升了對模型結果的理解深度，也促進了團隊內部的討論，并為后續實驗室驗證階段的蛋白篩選提供了清晰方向。

當然，這種方式也有其局限性。LLM的幻覺問題仍然存在，可能引用不存在的文章，或未經同行審閱的研究。為盡量降低這類風險，我們將模型的作用嚴格限定在對自動化PubMed檢索結果進行整理和摘要上，所有輸出內容都會由團隊成員逐一人工審核。即便如此，AI仍可能誤讀部分研究結論，或遺漏關鍵文獻。不過，在生成研究假設的階段，這一工具依然非常有價值。未來，我們計劃通過專家評審，對大量查詢結果進行系統分析，統計正確與錯誤輸出的比例，以更客觀地評估其整體準確性。

瑞秋·帕金森

Rachel Parkinson

倫敦瑪麗女王大學講師

牛津大學施密特“科學中的人工智能”學者

她的研究融合了神經生理學、行為學與計算建模，旨在理解環境壓力因素如何影響昆蟲的感覺系統以及傳粉昆蟲的整體健康狀況。其致力于開發以人工智能為驅動的工具，用于加速生物科學研究，包括用于高通量行為毒理學研究的實驗設備，以及支持系統性綜述的大語言模型分析流程。

我們將MetaBeeAI設計為一種“專家參與式”的分析流程，使研究者能夠在每個階段對模型輸出進行核查。

在生物學和神經科學領域，科研文獻數量持續增長，給研究者帶來了巨大的整理與消化壓力。我們正利用大語言模型來應對這一挑戰。面對不斷涌現的研究成果，個體研究者往往難以及時全面掌握相關進展。在這一背景下，我們開展了MetaBeeAI項目，專注研究農藥等環境壓力因素如何影響昆蟲的大腦與行為[12]。MetaBeeAI利用大語言模型系統性閱讀數千篇論文，篩選關鍵發現，并提取結構化信息，例如實驗設計、受影響的腦區以及行為結果，使這些數據能夠直接用于元分析或計算模型。

需要強調的是，這并非一個“黑箱”系統。MetaBeeAI采用“專家參與式”（expert-in-the-loop）的流程設計。研究者可以在各個階段核查模型輸出、糾正錯誤，并提供反饋，以持續優化大語言模型的提示策略與微調過程。這一機制使整個流程更加透明、可審計，并能夠根據不同領域的研究需求進行調整。與此同時，我們正在構建一個由領域專家整理的基準數據集，用于評估大語言模型在真實生物學文獻中的表現，并據此改進模型對科學文本的理解能力。

我們的最終目標，是將這一工具推廣至神經科學與生物學領域的研究者群體，幫助更多研究者更高效地提取關鍵發現、整合證據，并加速科研進程。

馬丁·施林普夫

Martin Schrimpf

瑞士聯邦理工學院洛桑分校Neuro-X神經科學研究所助理教授

他致力于以計算視角理解大腦的工作機制，其研究橫跨機器學習、神經科學與認知科學多個領域，重點在于構建能夠同時對齊神經活動與行為表現的計算模型。

我們最近發現，GPT系列模型的內部表征，與人類語言網絡中的神經表征具有出人意料的相似性。

除了在寫作和編程支持等常見場景中應用大語言模型，我們還將其作為預測大腦信息加工過程的計算模型。我們最近發現，GPT系列模型的內部表征，與人類語言網絡中的神經表征具有出人意料的相似性。該模型家族也是ChatGPT等工具所基于的核心架構。當我們將同一段文本同時呈現給人類受試者和模型時，可以觀察到兩種系統之間高度一致的反應模式。模型的內部激活狀態不僅能夠預測大腦中的神經活動模式，還能夠對應閱讀時長等行為指標。

這種一致性的強度以及能讓我們利用大語言模型篩選句子，從而可靠地增強或抑制人類語言系統中特定腦區的活動。這一發現令人振奮，因為它為通過感知層面的輸入而非侵入式手段調節大腦活動，提供了新的可能。

受到這些發現的啟發，我們也開始將大語言模型本身視為一種值得研究的“物種”。我們借鑒神經科學中的功能定位方法，對不同模型進行分析，結果發現，在一個大語言模型中，真正承擔核心語言處理功能的組件只占相對較小的一部分，其余大量組件則服務于各種輔助性任務。這一結構特征再次呼應了人類大腦的組織方式，即語言網絡本身與更廣泛的推理系統和世界知識系統相互區分。

這種雙向的交叉研究正在持續展現其價值。一方面，我們利用人工智能模型理解大腦；另一方面，也借助神經科學工具解析模型本身。這種協同效應正在不斷增強，有望推動我們構建出更加貼近真實大腦運作機制的計算模型。

金·斯塔肯費爾德

Kim Stachenfeld

哥倫比亞大學理論神經科學中心的兼職助理教授、Google DeepMind 的資深研究科學家

她的研究橫跨神經科學與人工智能領域，重點關注以人工智能為靈感的神經計算模型，以及如何利用AI工具來解析和理解大腦數據。

真正的難點在于如何理解這些模型，即厘清代碼中不同組成部分的功能，以及它們與既有研究之間的聯系。

計算模型在神經科學中具有重要地位，它們將對神經過程的抽象描述與可通過數據檢驗的定量預測結合起來。長期以來，這類模型的構建幾乎完全由人類完成，通常需要同時精通神經科學與建模方法的專業研究者。如今，大語言模型已能夠編寫可執行代碼，為自動生成計算模型提供了新的可能。

盡管大語言模型生成的代碼在質量上仍遜于熟練程序員，但其優勢在于生成速度快且可規模化產出。以AlphaEvolve為代表的方法正是利用了這一特點，在優化循環中持續生成并改進代碼，以尋找能夠最大化特定目標函數的程序[13]。我們團隊用這一思路尋找數據驅動的計算模型，并對大語言模型生成的程序進行優化，使其能夠更好地刻畫和擬合神經科學數據集。

我們還將這一方法應用于動物學習行為的計算模型發現[14]。整個流程從一個“提示”開始，其中包含示例程序，以及對大語言模型的修改方式的具體說明。模型據此生成修改后的程序，并根據其對行為數據的擬合效果進行評分。在每一輪迭代中，提示中的示例程序都會被得分更高的模型生成程序所替換。

最終得到的程序在數據擬合上表現良好，這是針對該目標反復優化的結果。同時，由于這些代碼源自在人類編寫代碼語料上訓練的大語言模型，其整體可讀性也較高。但真正具有挑戰性的，在于如何理解這些模型，即厘清代碼中不同組成部分的功能，以及它們與既有研究之間的聯系。

這項研究揭示了生成式人工智能所帶來的一種更廣泛的權衡關系。在過去，構建模型本身是理論研究者面臨的核心難題。而這一艱難過程往往在無形中確保模型具備若干重要特征，例如扎根于既有文獻、具備良好的可解釋性、體現一定創新性，并聚焦于關鍵研究現象。

而在生成式工具的幫助下，模型的產出變得前所未有地容易，但其質量卻不再自然得到保證。因此，計算神經科學研究者如今面臨的新挑戰，是必須更加明確地界定并形式化表達，我們究竟希望模型具備哪些核心屬性。

https://www.thetransmitter.org/neuroscientists-using-ai/how-neuroscientists-are-using-ai/

1.https://doi.org/10.1038/s41562-024-02046-9

2.https://doi.org/10.48550/arXiv.2408.08083

3.https://www.massgeneral.org/neurology/research/schwarzschild-lab-molecular-neurobiology-laboratory

4.https://docs.google.com/forms/d/e/1FAIpQLSffnG45CrQOnp8c8X1MN1mZPK1JEsrgzcvf1sFrmwc18ozXjw/viewform

5.https://orcid.org/0000-0002-5297-2114

6.https://orcid.org/0000-0002-7883-7076

7.https://github.com/dandi-ai-notebooks/spurious-discovery-tests/blob/main/README.md

8.https://www.physics.ucsb.edu/people/louisa-cornelis

9.https://gi.ece.ucsb.edu/people

10.https://memory.ucsf.edu/people/rowan-saloner

11.https://memory.ucsf.edu/people/kaitlin-casaletto

12.https://metabeeai.github.io/metabeeai-workshop/metabeeai.html

13.https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

14.https://doi.org/10.1101/2025.02.05.636732

關于追問nextquestion

天橋腦科學研究院旗下科學媒體，旨在以科學追問為紐帶，深入探究人工智能與人類智能相互融合與促進，不斷探索科學的邊界。歡迎評論區留言，或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問，我們將基于追問知識庫為你做出智能回復哦~

關于天橋腦科學研究院

天橋腦科學研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一，圍繞全球化、跨學科和青年科學家三大重點，支持腦科學研究，造福人類。

Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室；與加州理工學院合作成立了加州理工天橋神經科學研究院。

Chen Institute建成了支持腦科學和人工智能領域研究的生態系統，項目遍布歐美、亞洲和大洋洲，包括、、、科研型臨床醫生獎勵計劃、、、科普視頻媒體「大圓鏡」等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.