網易首頁 > 網易號 > 正文申請入駐

Auto Research 時代，AI Scientist 的第一場藥企實習考驗

2026-05-19 17:35:47　來源: 投中網

北京舉報

分享至

過去一年，AI圈誕生了一位頂級“卷王”——AI Scientist。它從只會乖巧答題的大模型做題家，快速進化為自動化科研助手（Auto research）：它可以自己提假設、查文獻、寫代碼、跑實驗、分析結果，甚至連論文都幫你寫好。但從demo到應用，AI scientist領域卻正陷入一場集體尷尬：AI 做科研的時代已來，但誰會為它的研究買單？

這一次，我們把這個問題放進最難的行業場景之一：生物醫藥。

Phylo、紅杉中國xbench、Humanlaya Data Lab團隊，聯合斯坦福、哈佛、北大和頭部藥企的 100 位資深專家，耗時 1000 余小時，共同構建了全球首個面向真實生物醫藥研究場景的過程級評估框架——BiomniBench，并讓 AI 從頭到尾做一遍藥企的真實數據分析（BiomniBench-DA），結果是：

1.最強 AI scientist實習生拿到 73.34分（滿分100），顯著高于人類實習生 40-50 分的平均線。

2.除基礎模型外，智能體框架（Agent Harness）對結果的影響也很大。同一個 GPT-5.4，放在 Codex CLI 里 68.69 分，放在 Terminus-2 里只有 55.19 分。差了 13.5 分。

3.AI scientist 更快更省，單個任務平均用時4.9-25分鐘、花0.92-4.58美元，而人類完成同樣的任務通常需要數小時甚至數十小時。

4.AI scientist 也偏科，不同任務類型之間的表現差距顯著。

01｜AI scientist 實習生到底被派去做什么？

在藥企，搞研究可不是那么簡單——

比如：給你一組免疫治療患者的單細胞測序數據和臨床信息，你要判斷某個 biomarker（生物標志物）是否值得進入下一輪實驗驗證。這聽起來并不復雜，但實際要面對的是：數據清洗、樣本篩選、統計方法、多重檢驗校正、生物學解釋...

每一步都可能出錯。

而“在生物學里，一個看似正確的結論可能建立在完全錯誤的分析過程之上——而等你發現的時候，藥已經做失敗了。”這句來自藥企一線科學家的提示，為我們指向了一個關鍵問題：評價一個AI Scientist是否能勝任藥企的工作，不能只看結果，還需要關注整個過程。

真實情況：跑通了不等于做對了

過去一段時間，AI Scientist 領域出現了大量 Benchmark，他們試圖幫助我們衡量模型是否知道某篇論文、某種方法、某個基因，以及能否在知識問答中給出正確答案。

但這些benchmark幾乎都只在評答案對不對。

BiomniBench 旨在從根本上扭轉當下 benchmark 的不足，不僅關注任務的結果，更關注測試是「模型會不會真的做研究」，從數據清洗、到方法選擇、到統計檢驗、到生物學解釋，每一步都測。達到了Agent 測試的更深一步：process-level evaluation，過程級評測

02 | 首個考核任務 -生物醫藥數據分析

首個落地模塊 BiomniBench-DA 聚焦數據分析任務（Data Analysis）——這是當前 AI Agent 在生物醫學研究中最常見、也最貼近真實研發流程的使用場景。

這套 Benchmark 共100 道題目，結合 Nature、Cell、Science 等高影響力論文的公開數據，由原論文作者或擁有 5 年以上行業經驗的專家聯合出題，把真實工作中常見的干擾因素和決策邏輯融入每一道題中，全面覆蓋生物醫藥研究的5大疾病領域，和 17 類核心分析任務。

在測試的過程中，AI 答題需要給出完整分析軌跡，包括：讀了什么數據，做了哪些清洗，為什么選某個方法，統計結果怎么樣，怎么解釋。然后 LLM 裁判按專家寫好的評分標準（Rubric），從六個維度打分：數據處理、方法選擇、統計嚴謹性、生物學解釋、科學推理、來源可靠性

當然，評分標準允許多條合理路徑。很多生物學問題沒有唯一答案，關鍵在于論證清晰、有據可循。Agent不會因選擇了與示例分析路徑不同，但同樣正確的方法而被扣分。

5 大疾病領域 × 17 類任務

03 | AI Scientist 的藥企實習結果

Insight 1：誰是最強AI scientist 實習生

最強配置是 Claude Code + Opus 4.7，73.34 分。排在后面的是 Claude Code + Opus 4.6，69.83 分。第三名 Codex CLI + GPT-5.4，68.69 分。前三名里兩個是 Claude Code 的配置。

作為參照，我們邀請了幾位人類實習生在限定時間內作答部分題目，其平均得分在40-50分之間。這意味著最強的AI scientist 實習生表現已經超越了人類實習生平均水平。

Insight 2：Agent Harness 對結果的影響，與基礎模型一樣重要

在藥企數據分析這個場景下，Agent Harness與模型能力對結果提升同等重要。在固定基礎模型的情況下，更換Agent Harness會顯著改變得分。最明顯的案例是 GPT-5.4：

?在 Codex CLI 下得分為 68.69

?而在 Terminus-2 下僅為 55.19

這 13.5 分的差距完全歸因于Agent Harness。

Terminus-2 Agent Harness 下9個基礎模型的表現

Insight 3：AI Scientist 更快更省

AI scientist單個任務平均用時4.9-25分鐘，花 0.92 到 4.58 美元；而人類完成同樣的任務通常需要數小時甚至數十小時。在速度和成本上，AI 展現出一貫的優勢。

對藥企來說，這個進步還是很有價值的：大量探索性分析可以前置、并行化，然后丟給 AI，早期試錯成本大幅降低

貴的不一定好，但好的確實貴

Insight 4：AI Scientist 也“偏科”

AI scientist在不同任務類型之間的表現差距顯著。細胞組成分析最高分拿到 91 分，突變分析 88 分。邊界清晰的任務是 AI 的專長。而GWAS-eQTL 分析只有 45 分，通路富集 64 分。需要判斷統計方法、理解生物學上下文、和重科學推理的任務，AI 就稍顯乏力了。

可見 AI 擅長計算，但對結果的生物學意義和科學深度理解還比較有限。短期內「AI 算 + 人類解釋」可能是最安全的協作模式。

BiomniBench 的真正意義，不在于給生物醫藥 AI Scientist 排一個名次，而希望回答一個更大的問題：當 AI Scientist 試圖端到端地自動化科研流程時，我們該如何判斷它是否在真的做研究？

過去的 benchmark 像一場考試，給題、給答案、判對錯。而 Auto Research 需要的是上崗評測，給數據、給目標、看過程、看結果、看風險。問題的關鍵不再是“這個模型準不準”，而是“這條分析鏈條，科學家敢不敢信”。

AI Scientist 的進步，來自基礎模型、Agent Harness、行業知識，以及AI研究者與領域專家共同構建的 Verification Loop。對 AI 研究者而言，我們希望為大家打開真實的藥企場景視野，了解真實任務中的難點。對生物醫藥從業者來說，我們也希望提供一個更貼近真實部署、并能客觀了解 AI 現階段能力的視角。我們相信，當過程被看見、當推理被驗證、當每一環都可追溯，AI 與科學家之間的信任，才真正開始建立。

所以，實習結束。

如果是這樣一位AI Scientist實習生，你會讓它轉正嗎？

本次測評主要聚焦數據分析任務（Data Analysis），生物醫藥行業擁有極其多元的角色與職能，本次測評結果不代表所有崗位的情況。未來我們將延續這套過程級評測框架，推出覆蓋更多行業場景的benchmark。歡迎行業專家、AI researcher 聯系合作。

本次BiomniBench-DA僅評估了部分模型與Harness組合。未來我們將覆蓋更多模型及AI Scientist專業產品。同時，我們將開源部分題目供內部測試使用。如您對產品在全部100道題上的評測結果感興趣，歡迎聯系我們。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.