无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

哈佛、MIT Broad研究所發布MEDEA:組學智能體缺的是自知之明

0
分享至



作者:論文團隊

編輯丨ScienceAI

在靶點篩選、合成致死判斷與免疫治療響應預測等治療發現場景中,AI 智能體需要串聯多個組學數據源、調用多種機器學習模型并檢索文獻來完成多步分析。但現有智能體普遍面臨兩個問題:一是大模型在長鏈分析中會逐步丟失用戶指定的生物學上下文(如把「初始型 CD4+ αβ T 細胞」模糊成「CD4+ T 細胞」),導致下游分析在錯誤粒度上進行卻不觸發任何報警;二是面對多源證據沖突時缺乏調和機制 —— 工具輸出、文獻檢索與大模型參數化知識給出矛盾結論時,系統無法做出可追溯的取舍。

為此,哈佛醫學院隋芃瑋 / 高尚華 / Marinka Zitnik 團隊提出 MEDEA,一個在分析流程每一步都嵌入驗證機制的組學 AI 智能體。MEDEA 在靶點發現、合成致死推理、免疫治療響應預測三個場景上完成了 5,679 次完整分析,比單獨使用大模型的準確率最高提升 45.9%,且消融實驗表明性能提升的主要來源不是骨干模型的能力差異,而是驗證模塊的有無。



論文地址:https://medea.openscientist.ai

開源地址:https://github.com/mims-harvard/Medea

方法設計

MEDEA 接受自然語言描述的研究目標,使用 20 個專業工具執行多步分析,核心設計原則是在流程每一步嵌入驗證,而非僅在最終輸出時判斷對錯。

系統由四個協同模塊組成。研究規劃模塊將自然語言目標轉化為分步研究計劃后,進行上下文驗證(每個步驟中的細胞類型、疾病等生物學實體是否與所選工具兼容)和完整性驗證(計劃的技術可行性與邏輯一致性)。例如,當用戶要求分析肝星狀細胞的靶點,但所選單細胞基礎模型的預訓練數據不包含該細胞類型時,上下文驗證會檢測到不兼容,引導智能體從可用的近似細胞類型中選擇替代方案并記錄替代理由。



分析執行模塊在代碼執行前后各加一層驗證:執行前檢查語法與接口兼容性,執行后審計數據來源與輸出和計劃的一致性。即使代碼運行成功,如果輸出偏離研究計劃預期,也會被標記并觸發修正。

文獻推理模塊在檢索完成后,先對每篇論文在物種、疾病、細胞類型等維度做相關性篩選,過濾不相關文獻后再進行證據綜合,避免「檢索到什么就用什么」的問題。

多輪討論模塊以三個模型組成的評審團,對工具分析、文獻推理、骨干模型三條證據通路的輸出做加權投票與多輪辯論。證據收斂時給出結論,分裂或不足時選擇校準棄權 —— 即不回答。

工具空間中有 4 個機器學習模型(PINNACLE、TranscriptFormer、COMPASS、OpenScholar),它們是被智能體調用的工具而非骨干模型。智能體根據疾病上下文動態選擇調用哪個模型。受限工具實驗表明,PINNACLE 在類風濕關節炎等疾病上更優,TranscriptFormer 在肝母細胞瘤等場景上更優,反映了蛋白質互作網絡拓撲與基因表達動態兩類信號的互補性。

MEDEA 在三個開放式治療發現任務上跑了 5,679 次完整組學分析,覆蓋精準靶點發現(2,400 次,涵蓋 5 種疾病,29 個細胞類型)、合成致死推理(2,385 次,7 個癌細胞系)、以及患者級別的免疫治療響應預測(894 次,298 名膀胱癌患者)。





細胞類型特異性靶點發現

2,400 次分析,覆蓋類風濕關節炎、1 型糖尿病、干燥綜合征、肝母細胞瘤、濾泡性淋巴瘤五種疾病及 29 種細胞類型。MEDEA 比單獨使用大模型的準確率最高提升 45.9%。

該場景的核心挑戰在于細胞類型粒度。大模型在多步分析中會逐步模糊細胞類型 —— 將用戶指定的「初始型 CD4+ αβ T 細胞」簡化為「CD4+ T 細胞」。在類風濕關節炎中,初始型與效應記憶型 CD4+ αβ T 細胞的致病角色截然不同,混淆會導致靶點推薦指向錯誤的生物學邏輯。加入上下文驗證后,MEDEA 在髓樣樹突細胞上的準確率提升 28.9%,在初始型 CD4+ αβ T 細胞上提升 21.7%—— 這些恰恰是上下文粒度直接決定靶點推薦質量的細胞類型。



消融實驗揭示了一個結構性矛盾。大模型單獨使用時幾乎從不放棄回答(棄權率僅 1.8%),但跨五種疾病的平均錯誤率高達 69.2%—— 在 1 型糖尿病上甚至達到 80%。文獻檢索配置方向相反:77.6% 的分析選擇放棄回答,因為細胞類型特異性的靶點文獻確實太過稀缺。大模型的參數化知識覆蓋面廣但可靠性低,文獻證據可靠性高但覆蓋面窄,任何單一通路都無法同時滿足兩者,只有多條通路互相校驗才能兼顧。 完整 MEDEA 達到最高準確率和最低失敗率。



合成致死推理:糾錯、補漏、止損

2,385 次分析,覆蓋 MCF7、MCF10A、MDAMB231、CAL27、CAL33、A549、A427 七個癌細胞系。MEDEA 比骨干大模型最高提升 21.7%(MCF7)。

MEDEA 在該場景下展現出三種行為模式。在至少 323 個大模型答錯的案例中給出了正確判斷(糾錯);在 175 個大模型棄權的案例中給出了正確答案(補漏);在 141 個大模型犯錯的案例中選擇棄權而非跟著錯(止損)。在藥物發現場景中,止損可能比糾錯更有價值 —— 一個錯誤的合成致死預測可能觸發昂貴的實驗跟進,而一個校準的棄權只會讓研究者多花時間尋找其他證據。



系統整合了 DepMap 基因共依賴分數與通路富集分析,對基因對聯合抑制是否會選擇性殺死癌細胞做出可追溯的判斷。

免疫治療響應預測

894 次患者級別分析,基于 IMvigor210 膀胱癌隊列的 298 名患者。MEDEA 比大模型最高提升 23.9%。在高腫瘤突變負荷且非炎癥型微環境這一最困難的亞組中,MEDEA 修正了底層機器學習模型 50.9% 的誤分類。



論文中的一個患者案例清晰展示了多源證據沖突時的決策過程。一名腫瘤突變負荷為 19.0 的男性患者,GPT-4o 和 Claude 3.7 Sonnet 均基于高突變負荷預測「響應」。MEDEA 調用 COMPASS 分析腫瘤轉錄組后發現 T 細胞耗竭嚴重(評分 0.5067)、B 細胞浸潤極低(0.0260),微環境整體呈功能失調;而文獻檢索恰恰支持「高突變負荷→好響應」的關聯 —— 兩條證據直接矛盾。經多輪討論調和后,MEDEA 判定微環境功能障礙信號優先于突變負荷的統計關聯,預測「不響應」。患者實際結局為疾病進展。整個決策鏈路可追溯。



驗證機制的貢獻大于骨干模型的選擇

消融實驗中最核心的發現:MEDEA 的性能提升并非來自更強的骨干大模型。 無論使用 GPT-4o 還是 Claude 3.7 Sonnet 作為骨干,加入驗證模塊后性能顯著提升,去掉后顯著下降。這意味著當前組學智能體的性能瓶頸可能不在推理能力,而在過程可靠性。

MEDEA 的輸出不是一個標簽或分數,而是一份包含完整推理鏈路的分析報告 —— 研究計劃、每步工具調用與輸出、文獻檢索與相關性評分、證據調和的決策過程。對于需要向團隊解釋「為什么推薦這個靶點」或「為什么判斷該患者不響應」的場景,這種可審計的輸出形態具有直接的實際價值。

代碼、評測基準和全部工具配置均已開源,模塊化設計支持選擇性集成。論文同時指出局限性:評測基準依賴已有單細胞圖譜和特定患者隊列,部分評測依賴大模型評審,工具本身編碼了細胞類型粒度等假設,評審團式共識模塊存在關聯錯誤風險。

在藥物發現中,一個自信的錯誤答案往往比一句誠實的「我不確定」代價更高。MEDEA 的校準棄權 —— 在證據不足時選擇不回答 —— 或許是這項工作中最具實際價值的設計。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

每日經濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

懂球帝
2026-05-21 15:41:08
三大元兇引發跳水 后期策略

三大元兇引發跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

房產
旅游
藝術
家居
教育

房產要聞

順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

旅游要聞

當國航紫宸遇見崇州竹編 這場小滿時節的航文旅融合快閃超浪漫!

藝術要聞

崔雪冬 2026年油畫新作

家居要聞

風格碰撞 個性與藝術

教育要聞

嶺大AI學科躋身軟科2025全球前200!三大碩士課程招生中!

無障礙瀏覽 進入關懷版