網易首頁 > 網易號 > 正文申請入駐

ProtocolQA 得分逼近人類專家！中國這家跨界公司率先讓科研 AI 卷進實驗室

2026-07-02 20:58:39　來源: 生物學霸

浙江舉報

分享至

凌晨一點，你還在盯著那塊該死的電泳圖。

白天 AI 生成的方案，讀起來條理清晰，可照著做完轉化、涂板、挑克隆，結果菌落 PCR 卻不出條帶。回頭一查：退火溫度設置和引物 Tm 值對不上, 耗材的孔板規格也不匹配。

質粒構建、定點突變這類長流程實驗更是如此，任何一環出錯, 前面幾天都可能白做。市面上多數「AI for Bio」工具，能做到的也就是生成一份讀起來專業的方案，至于能否真的在設備上跑起來，它們給不出答案。

你期待的，或許是一個真正懂你的 AI 實驗室：能把腦子里那個還沒想清楚的實驗設想，變成一套能直接上機、出了問題還能自己找原因改方案的完整流程。

這個期待，可能已經有了答案。2026 年 6 月 30 日，華大智造子公司涌生智能與上海人工智能實驗室聯合，在預印本平臺 arXiv 發布論文《A Self-Evolving Agentic System for Automated Generation and Execution of Biological Protocols》[1]，提出自演化多智能體系統 ProtoPilot，并配套發布面向真實實驗任務的評測體系 BioLab Bench。這次合作的關鍵，不是把一個模型和一個實驗室簡單接起來，而是補上 AI for Bio 最難的一半：真實世界。模型那一側正在被越來越多團隊買到、訓練和快速拉平；但模型夠不到的「物理那一半」——真實設備、真實濕實驗、真實失敗、真實約束和專家反饋，不能下載，也很難被蒸餾，只能在一次次實驗試錯中積累。

所以，當模型能力逐漸平權，真正拉開差距的，不是誰能生成更多答案，而是誰手里有真實實驗世界這一側。

當前，評估 AI 模型與智能體實驗能力的代表性公開數據集之一，是 Future House 構建的 LAB-Bench。其中 ProtocolQA 子任務專門衡量模型能否理解實驗 Protocol、進行流程推理，并識別實驗設計與執行中的關鍵問題，分為選擇題和開放問答兩種形式，開放問答更接近真實科研場景，也更能反映模型的真實水平。

在本論文中，團隊用這項任務對 ProtoPilot 做了一輪測評：在開放問答部分，ProtoPilot 結合 Qwen3.7 拿到 46.66% 的準確率，超過了目前表現最靠前的通用大模型 GPT 5.6 Sol (43.50%），并進一步嘗試結合 GPT5.5 拿到了 52.38% 的準確率，逼近人類專家水平，相比 GPT5.5 提升了 12.38 個百分點。這背后體現的是一條不同于純算力競賽的路線：頭部 AI 公司用 Scale compute 推高通用模型能力，而涌生智能選擇從真實實驗世界出發，通過 Agent scaling 和真實世界閉環數據工程，把真實任務、設備約束、專家反饋和濕實驗結果組織成 AI 持續進化的訓練場。

圖片來源：參考文獻[1]

BioLab Bench：AI 說自己會做實驗，憑什么信?

BioLab Bench 是一款面向真實生命科學實驗任務的 Bio Agent 評測體系，覆蓋從理解用戶實驗意圖，到生成 Protocol、SOP、自動化代碼，再到設備執行的全鏈路。

過去不少 AI for Bio 評測考的是知識問答、論文理解、序列分析這類「知識層」能力，但你更在意的是：這個 Agent 到底能不能把實驗跑起來?

相較于「知識層」評測，BioLab Bench 的四大差異化特點：

基于真實實驗案例構建：不是設計好的示范題，而是基于真實濕實驗案例構建的評測集，更接近你在實驗室里真正會遇到的任務類型。

聽懂需求 ≠ 設備愿意跑：AI 生成的方案讀起來通順, 不代表設備認可。BioLab Bench 采用兩段式評測：Design2Protocol 看有沒有真正聽懂需求，Protocol2Code 看能不能轉成設備能執行的流程，既看會不會想，也看能不能落地。

不只看方案順不順：同時評估科學性、完整性、可操作性、安全性、參數忠實度、SDK 合規性和設備可運行性，實驗中的那些「會不會翻車」的問題，大多被納入考察范圍。

應用場景廣泛：從基礎液體處理、樣本準備，到細胞實驗、分子實驗、測序建庫、多組學工作流和復雜自動化聯動都有涉及，你實際操作時會踩的坑，評測里大概率都有對應考點。

ProtoPilot：這三件事，AI 替你扛了

如果說 BioLab Bench 是一把「尺子」，回答的是「你怎么評估一個 Bio Agent」；那 ProtoPilot 就是真正下場跑流程的系統，回答的是「你怎么把它放進實驗鏈路里」。

ProtoPilot 是一套自進化多智能體系統：你用自然語言描述實驗目標后，它會拆解成科學合理的 Protocol，識別可用設備，轉成可執行的 SOP 和自動化設備運行代碼，經仿真校驗與專家審查后下發執行，再根據濕實驗反饋持續修正進化，形成從意圖到執行的完整閉環。

它解決了什么問題：

需求模糊：你腦子里的實驗設想，一開始大多是模糊的。ProtoPilot 靠多個智能體分工協作，陪你把一句模糊的話推理成結構化、參數完整的實驗方案，不用你自己先想清楚每個細節。

「寫得好」≠「跑得通」：真實執行要過孔位、體積、耗材、溫控、設備 SDK、安全邊界這些硬關卡，這也是很多「AI 方案」最后只能躺在文檔里的原因。ProtoPilot 的 Protocol2Code 環節，專門補這段最容易掉鏈子的地方，把方案變成自動化設備能夠執行的代碼。

缺少反饋閉環：如果沒有反饋閉環的工具，你問它為什么失敗，它給不出比你更多的信息。而 ProtoPilot 會把失敗原因、專家反饋和實驗結果回流進系統，形成自進化，下一次不用你再從頭教它一遍。

真實應用案例：干濕閉環是怎么自己轉起來的

前面這些反饋機制說到底靠的是一件事：讓「干」和「濕」真正接起來。不是紙面上的概念，下面這組真實實驗數據，就是這套閉環在實驗臺上跑起來的樣子：

在基礎實驗中，ProtoPilot 完成多孔板接種、連續梯度稀釋和菌落 PCR 檢測：96 個菌液接種樣本孔均出現明顯生長，OD600 讀數分布穩定；24 個菌落 PCR 克隆均擴增出預期條帶。

進一步在分子克隆任務中，系統支持完成 GLuc-WT 和 RLuc-WT 質粒構建，兩個目標質粒均獲得 Sanger 測序確認的正確克隆；

在 16 個酶突變體構建中，成功構建 15 個獲得 Sanger 確認的突變體。對于更長流程的基于 PCA 法的 DNA 組裝實驗，96 個候選克隆中 93 個 colony PCR 陽性，陽性率達到 96.9%，并最終成功構建出全部目標 DNA 序列。

更關鍵的是，ProtoPilot 不只是「一次性生成流程」。在 PCA 組裝實驗中，當轉化環節出現異常時，系統能夠分析失敗原因，識別抗性篩選失效等問題，并重新生成修正后的實驗方案，使實驗恢復到可繼續篩選和驗證的狀態。

這只是鏈路的一部分

BioLab Bench 和 ProtoPilot 不是孤立發布的兩個產品，而是涌生智能整條產品鏈路上的兩個節點。它們能反哺此前發布的 αLab Brain 智能體系統（核心是 Bio Agent Harness），也補強了 SE-Fab 從實驗意圖到執行流程的 Agent 鏈路；對于華大智造現有的 PrepALL、AlphaTool、AIO 一體機等 Agent-Ready 的實驗室自動化設備，則通過 Protocol2Code 和設備約束評估，讓設備能接入更智能的實驗任務鏈路。

如果有一天，實驗室真的能這樣運轉

設想一下：你不再需要反復調試設備參數、不再需要在深夜自己排查每一次失敗，而是可以把精力真正放在科學假設本身。用一句話說清楚你想做什么，剩下的方案設計、設備調度、執行監控、故障修正, 交給 Physical AI 去閉環完成。

當下不少海外科研 AI 產品，能力仍集中在文獻、代碼、模型這些「干實驗」環節，產品官方也坦承距離完整的濕實驗自動化還有一段路。而這一次，涌生智能與上海人工智能實驗室聯合交出的 ProtoPilot 和 BioLab Bench，是已經在真實實驗臺上跑通、有電泳條帶和測序報告為證的干濕閉環。

AI 公司在集體進攻 Bio，但大多卡在同一步：模型可以買、可以訓，真實設備、真實失敗案例買不到。反過來，一家本就扎根實驗室的公司要補上 AI 這一課，手里恰恰握著別人正在拼命找的東西：這或許就是這家中國跨界公司，能把干濕閉環做出來的原因。

生命科學實驗室的 Physical AI，不會從聊天框里長出來，它長在實驗室里——長在你每一次移液、每一次電泳、每一次深夜改方案里。

內容策劃：沈佳鈺

內容審核：朱卿

題圖來源：華大智造

參考文獻：

[1] https://doi.org/10.48550/arXiv.2606.31763

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.