過去一年,AI圈誕生了一位頂級“卷王”——AI Scientist。它從只會乖巧答題的大模型做題家,快速進化為自動化科研助手(Auto research):它可以自己提假設、查文獻、寫代碼、跑實驗、分析結果,甚至連論文都幫你寫好。但從demo到應用,AI scientist領域卻正陷入一場集體尷尬:AI 做科研的時代已來,但誰會為它的研究買單?
這一次,我們把這個問題放進最難的行業場景之一:生物醫藥。
Phylo、紅杉中國xbench、Humanlaya Data Lab團隊,聯合斯坦福、哈佛、北大和頭部藥企的 100 位資深專家,耗時 1000 余小時,共同構建了全球首個面向真實生物醫藥研究場景的過程級評估框架——BiomniBench,并讓 AI 從頭到尾做一遍藥企的真實數據分析(BiomniBench-DA),結果是:
1.最強 AI scientist實習生拿到 73.34分(滿分100),顯著高于人類實習生 40-50 分的平均線。
2.除基礎模型外,智能體框架(Agent Harness)對結果的影響也很大。同一個 GPT-5.4,放在 Codex CLI 里 68.69 分,放在 Terminus-2 里只有 55.19 分。差了 13.5 分。
3.AI scientist 更快更省,單個任務平均用時4.9-25分鐘、花0.92-4.58美元,而人類完成同樣的任務通常需要數小時甚至數十小時。
4.AI scientist 也偏科,不同任務類型之間的表現差距顯著。
01|AI scientist 實習生到底被派去做什么?
在藥企,搞研究可不是那么簡單——
比如:給你一組免疫治療患者的單細胞測序數據和臨床信息,你要判斷某個 biomarker(生物標志物)是否值得進入下一輪實驗驗證。這聽起來并不復雜,但實際要面對的是:數據清洗、樣本篩選、統計方法、多重檢驗校正、生物學解釋...
每一步都可能出錯。
而“在生物學里,一個看似正確的結論可能建立在完全錯誤的分析過程之上——而等你發現的時候,藥已經做失敗了。”這句來自藥企一線科學家的提示,為我們指向了一個關鍵問題:評價一個AI Scientist是否能勝任藥企的工作,不能只看結果,還需要關注整個過程。
![]()
真實情況:跑通了不等于做對了
過去一段時間,AI Scientist 領域出現了大量 Benchmark,他們試圖幫助我們衡量模型是否知道某篇論文、某種方法、某個基因,以及能否在知識問答中給出正確答案。
但這些benchmark幾乎都只在評答案對不對。
BiomniBench 旨在從根本上扭轉當下 benchmark 的不足,不僅關注任務的結果,更關注測試是「模型會不會真的做研究」,從數據清洗、到方法選擇、到統計檢驗、到生物學解釋,每一步都測。達到了Agent 測試的更深一步:process-level evaluation,過程級評測
![]()
02 | 首個考核任務 -生物醫藥數據分析
首個落地模塊 BiomniBench-DA 聚焦數據分析任務(Data Analysis)——這是當前 AI Agent 在生物醫學研究中最常見、也最貼近真實研發流程的使用場景。
這套 Benchmark 共100 道題目,結合 Nature、Cell、Science 等高影響力論文的公開數據,由原論文作者或擁有 5 年以上行業經驗的專家聯合出題,把真實工作中常見的干擾因素和決策邏輯融入每一道題中,全面覆蓋生物醫藥研究的5大疾病領域,和 17 類核心分析任務。
在測試的過程中,AI 答題需要給出完整分析軌跡,包括:讀了什么數據,做了哪些清洗,為什么選某個方法,統計結果怎么樣,怎么解釋。然后 LLM 裁判按專家寫好的評分標準(Rubric),從六個維度打分:數據處理、方法選擇、統計嚴謹性、生物學解釋、科學推理、來源可靠性
當然,評分標準允許多條合理路徑。很多生物學問題沒有唯一答案,關鍵在于論證清晰、有據可循。Agent不會因選擇了與示例分析路徑不同,但同樣正確的方法而被扣分。
![]()
5 大疾病領域 × 17 類任務
![]()
03 | AI Scientist 的藥企實習結果
Insight 1:誰是最強AI scientist 實習生
最強配置是 Claude Code + Opus 4.7,73.34 分。排在后面的是 Claude Code + Opus 4.6,69.83 分。第三名 Codex CLI + GPT-5.4,68.69 分。前三名里兩個是 Claude Code 的配置。
作為參照,我們邀請了幾位人類實習生在限定時間內作答部分題目,其平均得分在40-50分之間。這意味著最強的AI scientist 實習生表現已經超越了人類實習生平均水平。
![]()
Insight 2:Agent Harness 對結果的影響,與基礎模型一樣重要
在藥企數據分析這個場景下,Agent Harness與模型能力對結果提升同等重要。在固定基礎模型的情況下,更換Agent Harness會顯著改變得分。最明顯的案例是 GPT-5.4:
?在 Codex CLI 下得分為 68.69
?而在 Terminus-2 下僅為 55.19
這 13.5 分的差距完全歸因于Agent Harness。
![]()
Terminus-2 Agent Harness 下9個基礎模型的表現
Insight 3:AI Scientist 更快更省
AI scientist單個任務平均用時4.9-25分鐘,花 0.92 到 4.58 美元;而人類完成同樣的任務通常需要數小時甚至數十小時。在速度和成本上,AI 展現出一貫的優勢。
對藥企來說,這個進步還是很有價值的:大量探索性分析可以前置、并行化,然后丟給 AI,早期試錯成本大幅降低
![]()
貴的不一定好,但好的確實貴
Insight 4:AI Scientist 也“偏科”
AI scientist在不同任務類型之間的表現差距顯著。細胞組成分析最高分拿到 91 分,突變分析 88 分。邊界清晰的任務是 AI 的專長。而GWAS-eQTL 分析只有 45 分,通路富集 64 分。需要判斷統計方法、理解生物學上下文、和重科學推理的任務,AI 就稍顯乏力了。
可見 AI 擅長計算,但對結果的生物學意義和科學深度理解還比較有限。短期內「AI 算 + 人類解釋」可能是最安全的協作模式。
![]()
BiomniBench 的真正意義,不在于給生物醫藥 AI Scientist 排一個名次,而希望回答一個更大的問題:當 AI Scientist 試圖端到端地自動化科研流程時,我們該如何判斷它是否在真的做研究?
過去的 benchmark 像一場考試,給題、給答案、判對錯。而 Auto Research 需要的是上崗評測,給數據、給目標、看過程、看結果、看風險。問題的關鍵不再是“這個模型準不準”,而是“這條分析鏈條,科學家敢不敢信”。
AI Scientist 的進步,來自基礎模型、Agent Harness、行業知識,以及AI研究者與領域專家共同構建的 Verification Loop。對 AI 研究者而言,我們希望為大家打開真實的藥企場景視野,了解真實任務中的難點。對生物醫藥從業者來說,我們也希望提供一個更貼近真實部署、并能客觀了解 AI 現階段能力的視角。我們相信,當過程被看見、當推理被驗證、當每一環都可追溯,AI 與科學家之間的信任,才真正開始建立。
所以,實習結束。
如果是這樣一位AI Scientist實習生,你會讓它轉正嗎?
本次測評主要聚焦數據分析任務(Data Analysis),生物醫藥行業擁有極其多元的角色與職能,本次測評結果不代表所有崗位的情況。未來我們將延續這套過程級評測框架,推出覆蓋更多行業場景的benchmark。歡迎行業專家、AI researcher 聯系合作。
本次BiomniBench-DA僅評估了部分模型與Harness組合。未來我們將覆蓋更多模型及AI Scientist專業產品。同時,我們將開源部分題目供內部測試使用。如您對產品在全部100道題上的評測結果感興趣,歡迎聯系我們。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.