无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Auto Research 時代,AI Scientist 的第一場藥企實習考驗

0
分享至

過去一年,AI圈誕生了一位頂級“卷王”——AI Scientist。它從只會乖巧答題的大模型做題家,快速進化為自動化科研助手(Auto research):它可以自己提假設、查文獻、寫代碼、跑實驗、分析結果,甚至連論文都幫你寫好。但從demo到應用,AI scientist領域卻正陷入一場集體尷尬:AI 做科研的時代已來,但誰會為它的研究買單?

這一次,我們把這個問題放進最難的行業場景之一:生物醫藥。

Phylo、紅杉中國xbench、Humanlaya Data Lab團隊,聯合斯坦福、哈佛、北大和頭部藥企的 100 位資深專家,耗時 1000 余小時,共同構建了全球首個面向真實生物醫藥研究場景的過程級評估框架——BiomniBench,并讓 AI 從頭到尾做一遍藥企的真實數據分析(BiomniBench-DA),結果是:

1.最強 AI scientist實習生拿到 73.34分(滿分100),顯著高于人類實習生 40-50 分的平均線。

2.除基礎模型外,智能體框架(Agent Harness)對結果的影響也很大。同一個 GPT-5.4,放在 Codex CLI 里 68.69 分,放在 Terminus-2 里只有 55.19 分。差了 13.5 分。

3.AI scientist 更快更省,單個任務平均用時4.9-25分鐘、花0.92-4.58美元,而人類完成同樣的任務通常需要數小時甚至數十小時。

4.AI scientist 也偏科,不同任務類型之間的表現差距顯著。

01|AI scientist 實習生到底被派去做什么?

在藥企,搞研究可不是那么簡單——

比如:給你一組免疫治療患者的單細胞測序數據和臨床信息,你要判斷某個 biomarker(生物標志物)是否值得進入下一輪實驗驗證。這聽起來并不復雜,但實際要面對的是:數據清洗、樣本篩選、統計方法、多重檢驗校正、生物學解釋...

每一步都可能出錯。

而“在生物學里,一個看似正確的結論可能建立在完全錯誤的分析過程之上——而等你發現的時候,藥已經做失敗了。”這句來自藥企一線科學家的提示,為我們指向了一個關鍵問題:評價一個AI Scientist是否能勝任藥企的工作,不能只看結果,還需要關注整個過程。



真實情況:跑通了不等于做對了

過去一段時間,AI Scientist 領域出現了大量 Benchmark,他們試圖幫助我們衡量模型是否知道某篇論文、某種方法、某個基因,以及能否在知識問答中給出正確答案。

但這些benchmark幾乎都只在評答案對不對。

BiomniBench 旨在從根本上扭轉當下 benchmark 的不足,不僅關注任務的結果,更關注測試是「模型會不會真的做研究」,從數據清洗、到方法選擇、到統計檢驗、到生物學解釋,每一步都測。達到了Agent 測試的更深一步:process-level evaluation,過程級評測



02 | 首個考核任務 -生物醫藥數據分析

首個落地模塊 BiomniBench-DA 聚焦數據分析任務(Data Analysis)——這是當前 AI Agent 在生物醫學研究中最常見、也最貼近真實研發流程的使用場景。

這套 Benchmark 共100 道題目,結合 Nature、Cell、Science 等高影響力論文的公開數據,由原論文作者或擁有 5 年以上行業經驗的專家聯合出題,把真實工作中常見的干擾因素和決策邏輯融入每一道題中,全面覆蓋生物醫藥研究的5大疾病領域,和 17 類核心分析任務。

在測試的過程中,AI 答題需要給出完整分析軌跡,包括:讀了什么數據,做了哪些清洗,為什么選某個方法,統計結果怎么樣,怎么解釋。然后 LLM 裁判按專家寫好的評分標準(Rubric),從六個維度打分:數據處理、方法選擇、統計嚴謹性、生物學解釋、科學推理、來源可靠性

當然,評分標準允許多條合理路徑。很多生物學問題沒有唯一答案,關鍵在于論證清晰、有據可循。Agent不會因選擇了與示例分析路徑不同,但同樣正確的方法而被扣分。



5 大疾病領域 × 17 類任務



03 | AI Scientist 的藥企實習結果

Insight 1:誰是最強AI scientist 實習生

最強配置是 Claude Code + Opus 4.7,73.34 分。排在后面的是 Claude Code + Opus 4.6,69.83 分。第三名 Codex CLI + GPT-5.4,68.69 分。前三名里兩個是 Claude Code 的配置。

作為參照,我們邀請了幾位人類實習生在限定時間內作答部分題目,其平均得分在40-50分之間。這意味著最強的AI scientist 實習生表現已經超越了人類實習生平均水平。



Insight 2:Agent Harness 對結果的影響,與基礎模型一樣重要

在藥企數據分析這個場景下,Agent Harness與模型能力對結果提升同等重要。在固定基礎模型的情況下,更換Agent Harness會顯著改變得分。最明顯的案例是 GPT-5.4:

?在 Codex CLI 下得分為 68.69

?而在 Terminus-2 下僅為 55.19

這 13.5 分的差距完全歸因于Agent Harness。



Terminus-2 Agent Harness 下9個基礎模型的表現

Insight 3:AI Scientist 更快更省

AI scientist單個任務平均用時4.9-25分鐘,花 0.92 到 4.58 美元;而人類完成同樣的任務通常需要數小時甚至數十小時。在速度和成本上,AI 展現出一貫的優勢。

對藥企來說,這個進步還是很有價值的:大量探索性分析可以前置、并行化,然后丟給 AI,早期試錯成本大幅降低



貴的不一定好,但好的確實貴

Insight 4:AI Scientist 也“偏科”

AI scientist在不同任務類型之間的表現差距顯著。細胞組成分析最高分拿到 91 分,突變分析 88 分。邊界清晰的任務是 AI 的專長。而GWAS-eQTL 分析只有 45 分,通路富集 64 分。需要判斷統計方法、理解生物學上下文、和重科學推理的任務,AI 就稍顯乏力了。

可見 AI 擅長計算,但對結果的生物學意義和科學深度理解還比較有限。短期內「AI 算 + 人類解釋」可能是最安全的協作模式。



BiomniBench 的真正意義,不在于給生物醫藥 AI Scientist 排一個名次,而希望回答一個更大的問題:當 AI Scientist 試圖端到端地自動化科研流程時,我們該如何判斷它是否在真的做研究?

過去的 benchmark 像一場考試,給題、給答案、判對錯。而 Auto Research 需要的是上崗評測,給數據、給目標、看過程、看結果、看風險。問題的關鍵不再是“這個模型準不準”,而是“這條分析鏈條,科學家敢不敢信”。

AI Scientist 的進步,來自基礎模型、Agent Harness、行業知識,以及AI研究者與領域專家共同構建的 Verification Loop。對 AI 研究者而言,我們希望為大家打開真實的藥企場景視野,了解真實任務中的難點。對生物醫藥從業者來說,我們也希望提供一個更貼近真實部署、并能客觀了解 AI 現階段能力的視角。我們相信,當過程被看見、當推理被驗證、當每一環都可追溯,AI 與科學家之間的信任,才真正開始建立。

所以,實習結束。

如果是這樣一位AI Scientist實習生,你會讓它轉正嗎?

本次測評主要聚焦數據分析任務(Data Analysis),生物醫藥行業擁有極其多元的角色與職能,本次測評結果不代表所有崗位的情況。未來我們將延續這套過程級評測框架,推出覆蓋更多行業場景的benchmark。歡迎行業專家、AI researcher 聯系合作。

本次BiomniBench-DA僅評估了部分模型與Harness組合。未來我們將覆蓋更多模型及AI Scientist專業產品。同時,我們將開源部分題目供內部測試使用。如您對產品在全部100道題上的評測結果感興趣,歡迎聯系我們。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
悲催!理發店橫幅“40歲以上老人剪發10元”上熱搜,80后集體破防

悲催!理發店橫幅“40歲以上老人剪發10元”上熱搜,80后集體破防

火山詩話
2026-06-10 11:26:31
日媒:日本自民黨前總裁河野洋平去世

日媒:日本自民黨前總裁河野洋平去世

新華社
2026-06-10 18:25:36
上海市“70后”副市長陳宇劍,被查

上海市“70后”副市長陳宇劍,被查

新京報
2026-06-10 16:15:09
山東渣土車側翻致女老師死亡事故調查報告:貨車超載407%,公司法定代表人被批捕

山東渣土車側翻致女老師死亡事故調查報告:貨車超載407%,公司法定代表人被批捕

封面新聞
2026-06-10 16:38:09
烤鵝腿走紅“鵝腿阿姨”承認材料是鴨腿,其曾在北大論壇講良心生意:人不管做什么要持之以恒;丈夫回應:16元買不到鵝腿

烤鵝腿走紅“鵝腿阿姨”承認材料是鴨腿,其曾在北大論壇講良心生意:人不管做什么要持之以恒;丈夫回應:16元買不到鵝腿

大象新聞
2026-06-10 17:15:03
騰訊走,科興衰!空出約15萬㎡,租金暴跌至100,拼好飯都降價了

騰訊走,科興衰!空出約15萬㎡,租金暴跌至100,拼好飯都降價了

譚談社會
2026-06-08 15:44:12
一米護欄網片報價800元、一顆螺栓20元,寶雞車主撞壞護欄,定損遭遇糊涂賬

一米護欄網片報價800元、一顆螺栓20元,寶雞車主撞壞護欄,定損遭遇糊涂賬

大風新聞
2026-06-08 23:15:27
國足0-0泰國僅1天,足協官宣確認,將邀請4隊來華比賽,時間如下

國足0-0泰國僅1天,足協官宣確認,將邀請4隊來華比賽,時間如下

小火箭愛體育
2026-06-10 16:35:41
馬云:未來3年有可能成為白菜價的10樣東西,別讓你的資產變廢紙

馬云:未來3年有可能成為白菜價的10樣東西,別讓你的資產變廢紙

科學發掘
2026-06-10 16:08:46
蘋果:中國大陸暫不提供最新Siri AI

蘋果:中國大陸暫不提供最新Siri AI

界面新聞
2026-06-09 06:47:41
怒降10℃!六月的廣東迎來冷空氣!深圳天氣有變...

怒降10℃!六月的廣東迎來冷空氣!深圳天氣有變...

深圳好玩
2026-06-10 12:28:05
廣東男子殉情后續!岳母再曝家丑,不止妻子被親戚侵犯這么簡單

廣東男子殉情后續!岳母再曝家丑,不止妻子被親戚侵犯這么簡單

青梅侃史啊
2026-06-10 09:33:39
中朝握手不到24小時,美國向韓國提出臺灣問題

中朝握手不到24小時,美國向韓國提出臺灣問題

最新聲音
2026-06-10 18:06:53
菲律賓7.8級強震過去了36小時,國際上的慰問鋪天蓋地

菲律賓7.8級強震過去了36小時,國際上的慰問鋪天蓋地

小馬姨
2026-06-10 13:43:21
梅西替補建功,阿根廷3-0冰島,世界杯首戰對手剛掀翻無冕之王

梅西替補建功,阿根廷3-0冰島,世界杯首戰對手剛掀翻無冕之王

釘釘陌上花開
2026-06-10 11:04:57
母親帶16歲女兒前往醫院墮胎,醫護人員懷疑其遭遇性侵,強制報告后真兇浮出水面,2名嫌犯因強奸罪被判刑

母親帶16歲女兒前往醫院墮胎,醫護人員懷疑其遭遇性侵,強制報告后真兇浮出水面,2名嫌犯因強奸罪被判刑

揚子晚報
2026-06-10 12:31:14
670 億美元越南南北高鐵競標大戲落幕!

670 億美元越南南北高鐵競標大戲落幕!

安安說
2026-06-10 16:01:09
“我真的想多活幾年”,釘釘副總裁,也提桶跑路了!

“我真的想多活幾年”,釘釘副總裁,也提桶跑路了!

南財社V
2026-06-09 20:36:31
美眾議院集體表決通告全球:不再承認“一中”原則?這次不能再忍

美眾議院集體表決通告全球:不再承認“一中”原則?這次不能再忍

混沌錄
2026-06-09 22:14:08
上海交大解剖200名肺病死者,驚訝發現:易患肺癌的人,有4大惡習

上海交大解剖200名肺病死者,驚訝發現:易患肺癌的人,有4大惡習

芹姐說生活
2026-06-09 13:29:12
2026-06-10 20:52:49
投中網 incentive-icons
投中網
創新經濟的智識與洞見
12436文章數 15477關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

"鵝腿阿姨"回應:未找到解釋契機 用了一兩個月鵝腿

頭條要聞

"鵝腿阿姨"回應:未找到解釋契機 用了一兩個月鵝腿

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

比EV版便宜2萬/能選天神之眼B 2026款海獅06DM-i還能打嗎?

態度原創

旅游
健康
教育
公開課
軍事航空

旅游要聞

中國文旅看山西丨八泉峽:以山河為載體,傳承三晉文脈

粽子為何難消化?過量吃會怎么樣?

教育要聞

來自東辰、實小等學校共15名!2026“涪城好少年”名單公布

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗襲擊美軍第五艦隊

無障礙瀏覽 進入關懷版