凌晨一點,你還在盯著那塊該死的電泳圖。
白天 AI 生成的方案,讀起來條理清晰,可照著做完轉化、涂板、挑克隆,結果菌落 PCR 卻不出條帶。回頭一查:退火溫度設置和引物 Tm 值對不上, 耗材的孔板規格也不匹配。
質粒構建、定點突變這類長流程實驗更是如此,任何一環出錯, 前面幾天都可能白做。市面上多數「AI for Bio」工具,能做到的也就是生成一份讀起來專業的方案,至于能否真的在設備上跑起來,它們給不出答案。
你期待的,或許是一個真正懂你的 AI 實驗室:能把腦子里那個還沒想清楚的實驗設想,變成一套能直接上機、出了問題還能自己找原因改方案的完整流程。
這個期待,可能已經有了答案。2026 年 6 月 30 日,華大智造子公司涌生智能與上海人工智能實驗室聯合,在預印本平臺 arXiv 發布論文《A Self-Evolving Agentic System for Automated Generation and Execution of Biological Protocols》[1],提出自演化多智能體系統 ProtoPilot,并配套發布面向真實實驗任務的評測體系 BioLab Bench。這次合作的關鍵,不是把一個模型和一個實驗室簡單接起來,而是補上 AI for Bio 最難的一半:真實世界。模型那一側正在被越來越多團隊買到、訓練和快速拉平;但模型夠不到的「物理那一半」——真實設備、真實濕實驗、真實失敗、真實約束和專家反饋,不能下載,也很難被蒸餾,只能在一次次實驗試錯中積累。
所以,當模型能力逐漸平權,真正拉開差距的,不是誰能生成更多答案,而是誰手里有真實實驗世界這一側。
![]()
![]()
![]()
當前,評估 AI 模型與智能體實驗能力的代表性公開數據集之一,是 Future House 構建的 LAB-Bench。其中 ProtocolQA 子任務專門衡量模型能否理解實驗 Protocol、進行流程推理,并識別實驗設計與執行中的關鍵問題,分為選擇題和開放問答兩種形式,開放問答更接近真實科研場景,也更能反映模型的真實水平。
在本論文中,團隊用這項任務對 ProtoPilot 做了一輪測評:在開放問答部分,ProtoPilot 結合 Qwen3.7 拿到 46.66% 的準確率,超過了目前表現最靠前的通用大模型 GPT 5.6 Sol (43.50%),并進一步嘗試結合 GPT5.5 拿到了 52.38% 的準確率,逼近人類專家水平,相比 GPT5.5 提升了 12.38 個百分點。這背后體現的是一條不同于純算力競賽的路線:頭部 AI 公司用 Scale compute 推高通用模型能力,而涌生智能選擇從真實實驗世界出發,通過 Agent scaling 和真實世界閉環數據工程,把真實任務、設備約束、專家反饋和濕實驗結果組織成 AI 持續進化的訓練場。
![]()
圖片來源:參考文獻[1]
BioLab Bench:AI 說自己會做實驗,憑什么信?
BioLab Bench 是一款面向真實生命科學實驗任務的 Bio Agent 評測體系,覆蓋從理解用戶實驗意圖,到生成 Protocol、SOP、自動化代碼,再到設備執行的全鏈路。
過去不少 AI for Bio 評測考的是知識問答、論文理解、序列分析這類「知識層」能力,但你更在意的是:這個 Agent 到底能不能把實驗跑起來?
相較于「知識層」評測,BioLab Bench 的四大差異化特點:
基于真實實驗案例構建:不是設計好的示范題,而是基于真實濕實驗案例構建的評測集,更接近你在實驗室里真正會遇到的任務類型。
聽懂需求 ≠ 設備愿意跑:AI 生成的方案讀起來通順, 不代表設備認可。BioLab Bench 采用兩段式評測:Design2Protocol 看有沒有真正聽懂需求,Protocol2Code 看能不能轉成設備能執行的流程,既看會不會想,也看能不能落地。
不只看方案順不順:同時評估科學性、完整性、可操作性、安全性、參數忠實度、SDK 合規性和設備可運行性,實驗中的那些「會不會翻車」的問題,大多被納入考察范圍。
應用場景廣泛:從基礎液體處理、樣本準備,到細胞實驗、分子實驗、測序建庫、多組學工作流和復雜自動化聯動都有涉及,你實際操作時會踩的坑,評測里大概率都有對應考點。
![]()
ProtoPilot:這三件事,AI 替你扛了
如果說 BioLab Bench 是一把「尺子」,回答的是「你怎么評估一個 Bio Agent」;那 ProtoPilot 就是真正下場跑流程的系統,回答的是「你怎么把它放進實驗鏈路里」。
ProtoPilot 是一套自進化多智能體系統:你用自然語言描述實驗目標后,它會拆解成科學合理的 Protocol,識別可用設備,轉成可執行的 SOP 和自動化設備運行代碼,經仿真校驗與專家審查后下發執行,再根據濕實驗反饋持續修正進化,形成從意圖到執行的完整閉環。
![]()
它解決了什么問題:
需求模糊:你腦子里的實驗設想,一開始大多是模糊的。ProtoPilot 靠多個智能體分工協作,陪你把一句模糊的話推理成結構化、參數完整的實驗方案,不用你自己先想清楚每個細節。
「寫得好」≠「跑得通」:真實執行要過孔位、體積、耗材、溫控、設備 SDK、安全邊界這些硬關卡,這也是很多「AI 方案」最后只能躺在文檔里的原因。ProtoPilot 的 Protocol2Code 環節,專門補這段最容易掉鏈子的地方,把方案變成自動化設備能夠執行的代碼。
缺少反饋閉環:如果沒有反饋閉環的工具,你問它為什么失敗,它給不出比你更多的信息。而 ProtoPilot 會把失敗原因、專家反饋和實驗結果回流進系統,形成自進化,下一次不用你再從頭教它一遍。
![]()
真實應用案例:干濕閉環是怎么自己轉起來的
前面這些反饋機制說到底靠的是一件事:讓「干」和「濕」真正接起來。不是紙面上的概念,下面這組真實實驗數據,就是這套閉環在實驗臺上跑起來的樣子:
在基礎實驗中,ProtoPilot 完成多孔板接種、連續梯度稀釋和菌落 PCR 檢測:96 個菌液接種樣本孔均出現明顯生長,OD600 讀數分布穩定;24 個菌落 PCR 克隆均擴增出預期條帶。
進一步在分子克隆任務中,系統支持完成 GLuc-WT 和 RLuc-WT 質粒構建,兩個目標質粒均獲得 Sanger 測序確認的正確克隆;
在 16 個酶突變體構建中,成功構建 15 個獲得 Sanger 確認的突變體。對于更長流程的基于 PCA 法的 DNA 組裝實驗,96 個候選克隆中 93 個 colony PCR 陽性,陽性率達到 96.9%,并最終成功構建出全部目標 DNA 序列。
更關鍵的是,ProtoPilot 不只是「一次性生成流程」。在 PCA 組裝實驗中,當轉化環節出現異常時,系統能夠分析失敗原因,識別抗性篩選失效等問題,并重新生成修正后的實驗方案,使實驗恢復到可繼續篩選和驗證的狀態。
![]()
![]()
![]()
![]()
這只是鏈路的一部分
BioLab Bench 和 ProtoPilot 不是孤立發布的兩個產品,而是涌生智能整條產品鏈路上的兩個節點。它們能反哺此前發布的 αLab Brain 智能體系統(核心是 Bio Agent Harness),也補強了 SE-Fab 從實驗意圖到執行流程的 Agent 鏈路;對于華大智造現有的 PrepALL、AlphaTool、AIO 一體機等 Agent-Ready 的實驗室自動化設備,則通過 Protocol2Code 和設備約束評估,讓設備能接入更智能的實驗任務鏈路。
如果有一天,實驗室真的能這樣運轉
設想一下:你不再需要反復調試設備參數、不再需要在深夜自己排查每一次失敗,而是可以把精力真正放在科學假設本身。用一句話說清楚你想做什么,剩下的方案設計、設備調度、執行監控、故障修正, 交給 Physical AI 去閉環完成。
當下不少海外科研 AI 產品,能力仍集中在文獻、代碼、模型這些「干實驗」環節,產品官方也坦承距離完整的濕實驗自動化還有一段路。而這一次,涌生智能與上海人工智能實驗室聯合交出的 ProtoPilot 和 BioLab Bench,是已經在真實實驗臺上跑通、有電泳條帶和測序報告為證的干濕閉環。
AI 公司在集體進攻 Bio,但大多卡在同一步:模型可以買、可以訓,真實設備、真實失敗案例買不到。反過來,一家本就扎根實驗室的公司要補上 AI 這一課,手里恰恰握著別人正在拼命找的東西:這或許就是這家中國跨界公司,能把干濕閉環做出來的原因。
生命科學實驗室的 Physical AI,不會從聊天框里長出來,它長在實驗室里——長在你每一次移液、每一次電泳、每一次深夜改方案里。
內容策劃:沈佳鈺
內容審核:朱卿
題圖來源:華大智造
參考文獻:
[1] https://doi.org/10.48550/arXiv.2606.31763
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.