我國學(xué)者開發(fā)“AI數(shù)據(jù)科學(xué)家”，只需一句話指令，自主完成生物醫(yī)學(xué)數(shù)據(jù)分析

2026-04-03 10:50:50　來源: 生物世界

上海舉報(bào)

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

AI 智能體（AI Agent），作為大語言模型（LLM）的強(qiáng)大應(yīng)用正在興起，它們能夠自動(dòng)化完成復(fù)雜任務(wù)并助力科學(xué)數(shù)據(jù)探索。然而，由于難以處理專業(yè)工具和多步驟推理，其在生物醫(yī)學(xué)數(shù)據(jù)分析中的應(yīng)用，仍然受到限制。

2026 年 3 月 30 日，中國科學(xué)院計(jì)算技術(shù)研究所趙屹研究員團(tuán)隊(duì)聯(lián)合中國科學(xué)院生物物理所陳潤生院士團(tuán)隊(duì)、澳門科技大學(xué)張康教授團(tuán)隊(duì)，在 Nature 子刊Nature Biomedical Engineering上發(fā)表了題為：Empowering AI data scientists using a multi-agent LLM framework with self-evolving capabilities for autonomous, tool-aware biomedical data analyses 的研究論文。

該研究推出了一個(gè)“AI 數(shù)據(jù)科學(xué)家”——BioMedAgent，這是一個(gè)具備自我進(jìn)化能力的多智能體大語言模型框架，它能夠理解自然語言指令，自動(dòng)調(diào)用專業(yè)工具，完成從基因組測序到機(jī)器學(xué)習(xí)建模的全流程分析，讓生物醫(yī)學(xué)研究者擺脫繁瑣的數(shù)據(jù)分析之苦。

生物醫(yī)學(xué)研究的“數(shù)據(jù)困境”

現(xiàn)代生物醫(yī)學(xué)研究正面臨前所未有的數(shù)據(jù)爆炸，從電子健康記錄到高分辨率醫(yī)學(xué)影像，從基因組測序到蛋白質(zhì)組學(xué)，海量數(shù)據(jù)蘊(yùn)含著疾病機(jī)理、藥物靶點(diǎn)的寶貴線索。

然而，分析這些數(shù)據(jù)需要跨越生物信息學(xué)、人工智能、軟件編程、統(tǒng)計(jì)學(xué)和數(shù)學(xué)多個(gè)領(lǐng)域的復(fù)雜技能。傳統(tǒng)上，生物醫(yī)學(xué)研究人員需要依賴專業(yè)生物信息學(xué)家或?qū)W習(xí)復(fù)雜的編程語言，這個(gè)過程既耗時(shí)又容易出錯(cuò)。現(xiàn)有的分析平臺(tái)（例如 Galaxy、Nextflow 等）雖然簡化了工作流開發(fā)，但仍依賴預(yù)定義流程，缺乏靈活性，更不支持自然語言交互。

多智能體協(xié)作：AI 數(shù)據(jù)科學(xué)家

BioMedAgent的核心創(chuàng)新在于其多智能體架構(gòu)，系統(tǒng)使用 ChatGPT、DeepSeek、Gemini 等大語言模型生成多個(gè)專業(yè)智能體，通過規(guī)劃、編碼、執(zhí)行三階段協(xié)作完成任務(wù)。

例如，當(dāng)你輸入“分析這份癌癥患者的測序數(shù)據(jù)，找出致病突變并推薦治療方案”時(shí)，系統(tǒng)內(nèi)部會(huì)啟動(dòng)一場 AI 專家會(huì)診。進(jìn)而規(guī)劃智能體理解任務(wù)需求，選擇合適工具；編碼智能體生成執(zhí)行代碼；執(zhí)行智能體運(yùn)行分析流程。整個(gè)過程完全自動(dòng)化，無需人工干預(yù)。

更關(guān)鍵的是，BioMedAgent 集成了 67 種專業(yè)生物信息學(xué)工具，涵蓋 DNA 分析、RNA 測序、單細(xì)胞分析等關(guān)鍵領(lǐng)域。

自我進(jìn)化能力：越用越聰明的 AI

BioMedAgent 最引人注目的特點(diǎn)是其自我進(jìn)化能力，該系統(tǒng)通過“記憶檢索”算法，記錄成功的工具選擇、工作流和代碼，并在遇到類似任務(wù)時(shí)智能復(fù)用這些經(jīng)驗(yàn)。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種記憶更新策略：持續(xù)記憶積累（保留所有成功記錄）和迭代記憶遺忘（選擇性修剪過時(shí)記錄）。實(shí)驗(yàn)顯示，后者在長期運(yùn)行中表現(xiàn)更優(yōu)。

經(jīng)過三輪迭代學(xué)習(xí)，BioMedAgent 在生物醫(yī)學(xué)數(shù)據(jù)分析任務(wù)上的成功率從 52% 提升到 77%，在組學(xué)分析任務(wù)中更是達(dá)到 94% 的高成功率。

BioMedAgent 就像一個(gè)有經(jīng)驗(yàn)的科學(xué)家團(tuán)隊(duì)，每次成功都會(huì)積累經(jīng)驗(yàn)，下次遇到類似問題能更快找到解決方案。

超越基準(zhǔn)：實(shí)際應(yīng)用的突破

為了全面評估系統(tǒng)性能，研究團(tuán)隊(duì)構(gòu)建了 BioMed-AQA 基準(zhǔn)，包含 327 個(gè)涵蓋組學(xué)分析、精準(zhǔn)醫(yī)學(xué)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和數(shù)據(jù)可視化五大類別的任務(wù)。

在與主流 AI 系統(tǒng)的對比中，BioMedAgent 表現(xiàn)突出——

總體成功率 77%，顯著高于 GPT-4o 的 46%；
在需要專業(yè)工具的組學(xué)分析任務(wù)中，成功率高達(dá) 94%；
即使面對人類專家用不同方式描述同一個(gè)任務(wù)時(shí)，BioMedAgent 仍能準(zhǔn)確理解和執(zhí)行以保持穩(wěn)定性能；

更令人印象深刻的是，BioMedAgent 成功應(yīng)用于真實(shí)科研場景——

跨組學(xué)分析：自動(dòng)完成 RNA 測序與單細(xì)胞 RNA 測序數(shù)據(jù)的聯(lián)合分析；
機(jī)器學(xué)習(xí)建模：無需人工編程干預(yù)，完成從模型構(gòu)建到評估的全流程；
病理圖像分割：通過自動(dòng)集成分辨率增強(qiáng)與細(xì)胞分割算法，提升多類細(xì)胞分割精度。

從“工具”到“合作者”的轉(zhuǎn)變

這項(xiàng)研究的深遠(yuǎn)意義在于，它標(biāo)志著 AI 在生物醫(yī)學(xué)領(lǐng)域的角色從被動(dòng)工具向主動(dòng)合作者的轉(zhuǎn)變。

論文第一作者、中國科學(xué)院計(jì)算技術(shù)研究所卜德超副研究員指出，BioMedAgent 并非旨在替代科研人員，而是作為面向科研和臨床場景的智能輔助系統(tǒng)，幫助科研人員在面對復(fù)雜數(shù)據(jù)和多步驟分析任務(wù)時(shí)提升效率、降低技術(shù)門檻。

隨著多智能體 AI 系統(tǒng)的發(fā)展，生物醫(yī)學(xué)研究正迎來人機(jī)協(xié)作的新范式——人類研究者與 AI 深度協(xié)作，各自發(fā)揮優(yōu)勢，人類提供創(chuàng)造性思維和領(lǐng)域洞察，AI 處理繁瑣的數(shù)據(jù)分析和模式識(shí)別，從而讓人類研究者能更專注于科學(xué)發(fā)現(xiàn)本身，而非數(shù)據(jù)處理等技術(shù)細(xì)節(jié)。

BioMedAgent 也展示了自我進(jìn)化的多智能體框架在復(fù)雜科學(xué)任務(wù)中的巨大潛力，這一框架不僅適用于生物醫(yī)學(xué)，還有望擴(kuò)展到其他需要復(fù)雜工具集成和多步推理的科學(xué)領(lǐng)域。

當(dāng)前，AI在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用正從單一任務(wù)向端到端全流程演進(jìn)。從文獻(xiàn)檢索、假設(shè)生成到實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和結(jié)果解釋，AI智能體正在重塑整個(gè)科研流程。

論文鏈接：

https://www.nature.com/articles/s41551-026-01634-6

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.