當AI公司還在讀論文,Bio公司已經讓AI做完了實驗。
沒錯,又一熱門AI賽道,被國產玩家率先跑通了——
AI for Bio,生命科學領域。
![]()
時至今日,這個賽道幾乎擠滿了最不缺算力的一批硅谷玩家:
OpenAI發GPT-Rosalind,專攻藥物發現和基因組學;谷歌推Co-Scientist和ERA,把多Agent系統塞進科學推理流程;Anthropic上線面向科研流程的Claude Science工作臺。
雖然大家想的都是讓大模型讀完論文后,寫個「完美」的實驗方案,再真正走進實驗室,但奈何現實很骨感:
真正讓AI接管實驗室并跑通實驗的?約等于無。
就拿最接近終點的OpenAI和Ginkgo Bioworks的合作來說,GPT-5在那個項目里負責的是實驗設計和參數探索,真正在實驗臺上執行的Catalyst protocols,全部由Ginkgo的人類工程師編寫。
換句話說,強如OpenAI,模型也沒有真正接觸到「做實驗」這一層。
![]()
△圖源:OpenAI官網
不過現在,全球第一個補上這關鍵一步的來了。
華大智造子公司涌生智能×上海人工智能實驗室,聯合發布兩項新成果:
- ProtoPilot:一款由真實實驗室場景驅動的自進化多智能體系統;
- BioLab Bench:生命科學領域首個從用戶需求到設備可執行的全流程Agent評測體系。
從自然語言實驗意圖到濕實驗物理執行,完整閉環,真實驗證。
這一次,讓AI「真正走進實驗室」的不是哪家AI巨頭,是一家跨界做AI的中國Bio公司。
這事估計連老黃都沒想到:
年初他在CES上說,「Physical AI的ChatGPT時刻」到了,說的是機器人和自動駕駛。
但是現在,第一個在生命科學實驗室交出Physical AI答卷的,來自深圳。
AI for Bio,到底卡在哪了
為什么硅谷這幫最不缺算力的玩家,集體卡在了實驗室門口?
要回答這個問題,其實只需要弄清楚一件事:
從模型到實驗室,這中間到底缺了什么?頂尖模型在手,怎么就跨不過這道坎呢?
![]()
讓我們從AI for Bio這個賽道的真實進展說起。
過去幾年,AI在生命科學領域的應用多聚焦于「理解」和「分析」。
文獻閱讀、知識問答、序列比對、蛋白質結構預測,模型確實博學,但它本質上是個坐在屏幕后面的助理。
它能幫你理解世界,但還沒真正進入世界。
Agent時代來了之后,事情開始變了。AI不再只滿足于回答問題,它開始「設計和行動」。
應此潮流,以OpenAI、Anthropic為代表的前沿AI玩家,開始把目光投向更下游、更主動的方向:
假設生成、實驗設計、參數空間探索、藥物發現、蛋白工程、自動化實驗。
聽起來是不是已經很接近「讓AI進實驗室干活」了?
但現實情況是——還差得很遠。
當下AI for Bio最真實的現狀就一句話:能出方案,出不了結果。
能力達到博士級水平的頂尖AI,確實能寫出一段看起來專業的實驗方案,但寫得好≠跑得通。
![]()
△圖片由AI生成
這中間幾乎隔著一整條轉換鏈。ProtoPilot的論文拆得很清楚:
一個實驗意圖要變成濕實驗臺上的真實操作,需要穿過五層——科學意圖、Protocol(方案設計)、SOP(標準操作流程)、設備代碼,再到物理執行和反饋修正。
而每一層都要解決不同的模糊性,比如Protocol要表達生物邏輯、樣本譜系和質控結構;SOP要把邏輯落到可操作的體積、濃度、耗材和溫控條件上;設備代碼要綁定deck布局、孔位映射、液體處理動作和廠商SDK指令……
就這一套下來,只要有任一環節出錯,實驗就可能失敗。
所以,當AI for Bio的競爭從「模型能不能回答生命科學問題」轉向「模型能不能走完從屏幕到實驗臺的全鏈路」時,行業真正缺的也就浮出水面了。
一塊是「鏟子」,能接住模型輸出、連接專家、設備和濕實驗反饋的Bio Agent Harness。
沒有這個,方案再漂亮也只能停在屏幕上。
一塊是「尺子」,能評價Bio Agent真實實驗鏈路能力的benchmark。
不是考它做選擇題,是看它生成的流程能不能在真實設備上跑得通。
現在公開的benchmark,比如ProtocolQA,考的還是閱讀理解。
需要提醒,這兩件事都不是坐在屏幕前就能憑空設計出來的,它們必須來自真實實驗室:
真實任務、真實設備、真實約束、真實失敗和真實專家判斷。
所以現在你明白,為啥兩家國產團隊選擇聯手了吧(doge):
坐擁全棧生命科學設備、自動化實驗平臺、AI4Science經驗和豐富真實實驗場景的涌生智能,把最難被復制的「物理底座」和「場景底座」帶了進來。
它不僅提供濕實驗驗證能力,更從真實用戶需求、實驗室約束和自動化執行邏輯出發,參與定義什么樣的Protocol才算可用、可評、可執行。
上海人工智能實驗室則基于其在大模型訓練、評測標準和Agent框架上的積累,提供生成實驗Protocol的模型基礎,并與涌生智能共同構建Design2Protocol和Protocol2Code的benchmark、評分標準與評測工具。
兩邊一合,沉淀出了ProtoPilot和BioLab Bench。
Bio Agent,第一次真正走向了可評測、可執行、可迭代的真實實驗閉環。
ProtoPilot和BioLab Bench,如何填補行業空白
ProtoPilot和BioLab Bench,具體如何填補行業空白?
我也去仔細扒了扒論文。
ProtoPilot:第三方測評超越OpenAI最強旗艦GPT-5.6 Sol
先說多智能體系統ProtoPilot。
目前AI for Bio賽道上,能打通Design2Protocol、Protocol2Code、設備執行與濕實驗反饋驗證的系統仍然極少,大多還停留在分段優化階段,而ProtoPilot是少數已經實現全鏈路貫通的代表之一。
怎么個「全鏈路貫通」?舉個例子:
當你用自然語言對ProtoPilot說「構建8個GLuc突變體」,它就能把這句話拆解成科學合理的Protocol,識別可用設備,轉化為可執行的工作流代碼,下發到物理設備執行,并根據濕實驗反饋持續修正和進化。
![]()
注意,這不是聊天機器人,也不是單一設備的腳本生成器。
ProtoPilot背后是多個Agent在協同發力:
Orchestrator Agent統籌全局工作流狀態,Protocol Expert Agent生成實驗方案和SOP,Coding Agent將方案轉化為設備可執行代碼。三個Agent各司其職,逐層推進。
通過這種行業主流的「多Agent協同工作」方案,它成功解決了三個過去卡死行業的「老大難」。
第一個,需求模糊。
做過實驗的都知道,很多時候你腦子里的實驗意圖往往只有個大概方向。
怎么將這種模糊意圖轉化為下一步具體行動?這便是Orchestrator Agent首先登場的原因。
Orchestrator本質上干的是實驗室主管的活:
先把你的大目標拆成幾個模塊,每個模塊單獨細化成可操作的SOP,做完一個確認沒問題再做下一個,最后拼成完整流程。
這樣做的好處是,不會一上來就從頭寫到尾,寫到后面發現前面的參數跟后面打架。
第二個,寫得好≠跑得通。
Protocol寫得再漂亮,真實執行還涉及孔位、體積、slot、耗材、溫控、設備SDK、安全邊界,一堆硬約束。
ProtoPilot的Protocol2Code環節,就是專門來啃這塊硬骨頭的。
怎么啃?Coding Agent拿到SOP之后,會根據你實驗室里實際用的設備,把每一步操作翻譯成那臺機器聽得懂的SDK指令。同一個「移液100μL」的動作,在MGI Prepall/AlphaTool上怎么寫、在OpenTrons上怎么寫、deck怎么排、孔位怎么映射,它都替你對齊。
翻譯完還不算完,內置的驗證器會逐條檢查代碼的安全性和可執行性,過不了gate的直接打回重寫。
第三個,沒有反饋閉環。
模型生成完方案就撒手不管了,錯了也不知道錯在哪,下次還犯。
ProtoPilot不一樣,失敗原因、專家判斷、實驗結果統統回流到系統,形成運行時技能學習。
換句話說,它越用越強。
就這幾招下去,ProtoPilot能交出下面這份硬核成績單,我是真不意外了。
做實驗第一步,你得真懂實驗。
別的不說,行業公認「試金石」ProtocolQA總得挑戰一下吧。
ProtocolQA由AI4S領域的頂級機構FutureHouse推出,是專門考察AI對實驗流程理解與故障排查能力的第三方獨立benchmark。OpenAI家目前最頂的GPT-5.6 Sol的系統卡中也收錄了該benchmark結果。
結果呢?
在開放式問答上,GPT-5.6 Sol得分43.5%,距離人類專家54%還有明顯差距;而ProtoPilot拿到了52.38%,已經逼近專家水平。
在非開放式問答上,ProtoPilot更是取得了85.18%的成績,已經超越專家水平。
在行業公認的第三方考卷上,跑贏OpenAI目前最強的旗艦模型,ProtoPilot的實力不言自明。
P.S. 歸根到底,這背后其實是兩條完全不同的技術路線在較量,先埋個鉤子,后面詳細揭曉。
![]()
有了這個大腦,方案生成自然能打。
在Protocol任務上,ProtoPilot綜合評分94.7(滿分100),在所有8個評估維度上幾乎全線領跑。參數合理性98.9、方法學一致性97.7、內容完整性98.4,全部碾壓通用大模型和專用Bio Agent。
![]()
盲評中,三位獨立濕實驗科學家在不知道系統身份的情況下,70.6%的情況將ProtoPilot排在第一,90.2%的情況將ProtoPilot排在前三。
從下圖也能一眼看出,ProtoPilot生成的方案普遍更受科學家喜愛。
![]()
更關鍵的是,這個大腦能搞定最難的事。到了L3(最高復雜度) 任務這一檔,差距變得極其夸張:
ProtoPilot的通過率依然有60%,而作為行業標桿的OpenTrons-AI直接歸零。
如下圖右側的紫色柱子,OpenTrons-AI只能在自家設備使用,且完成不了復雜任務。
![]()
但光有腦子還不夠,還得手腳利索。
考查代碼轉化和設備執行(圖b)。Protocol2Code代碼質量中位數95.5,Gate Pass Rate達到96.6%。
什么概念?第二LabScript-AI的通過率是64.6%,Grok-4.3只有35%,GPT-5.5只有17.7%,再往下基本是個位數。
![]()
跨設備遷移更猛(圖c)。在MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO四個主流平臺上,Gate Pass Rate波動僅5.9個百分點(pp)。作為對比,LabScript-AI的波動則高達47.1個百分點。
這里有個特別有意思的細節:
在OpenTrons OT-2上,ProtoPilot通過率88.24%,而OpenTrons官方自己的AI只有32.35%。
也就是說,ProtoPilot不僅在技術上實現了通用,而且贏了別人接近三倍。
![]()
BioLab Bench:首個從實驗意圖到設備執行的全鏈路評測體系
說完了選手,再說考場。
現有的第三方benchmark,比如剛才提到的ProtocolQA,考的還是實驗理解和知識問答。
但AI for Bio真正要回答的問題,從來不是「你懂不懂實驗」,而是「你能不能把實驗跑出來」。
這就是BioLab Bench要填的坑,它衡量的核心只有一件事:
系統能不能在真實自動化設備上跑得通。
![]()
具體而言,BioLab Bench作為該領域首個覆蓋從用戶需求到設備可執行的全流程Agent評測體系,覆蓋理解用戶實驗意圖→Design2Protocol→Protocol2SOP→SOP2Code→設備code→真實實驗執行鏈路。
任務范圍從基礎操作到復雜多步驟流程,按L1到L3難度分層。
和傳統的生物benchmark的區別在哪?
以前的考試是做閱讀理解,看你懂不懂實驗原理,而BioLab Bench考的是真上手——
從實驗意圖到方案、SOP、設備代碼,一路到真實執行,全鏈路打通。
而且它還能跨平臺檢驗。
同一個任務,換到不同自動化設備上,看Agent能不能適配。
說到底,ProtocolQA這類測評考的是「知不知」,BioLab Bench考的是「做不做得到」。
不是紙面分數,是實驗臺上跑出來的閉環
系統有了,考場也有了,剩下的問題只有一個:在真實實驗臺上,能不能跑出結果來?
忙著「搭橋修路」這么久,總得讓人看到實際成果。
ProtoPilot用四組遞進難度的濕實驗給出了回答。(P.S. 濕實驗指真實實驗臺操作,和純計算模擬相對應)
第一組是最基礎的活兒,在96孔板里接菌培養。
沒什么花哨的,就是看機器能不能按照指令把菌液加到每個孔里、能不能養出東西來。
結果96個孔全部生長,OD600讀數穩穩當當。基礎操作,過關。
第二組加了點難度,做了24個菌落PCR。
簡單說就是挑菌、擴增、跑膠,看能不能拿到對的條帶。
24個克隆,全部擴增出預期條帶。機器移液、溫控、試劑分配,都沒掉鏈子。
第三組是真正的分子克隆,質粒構建和定點突變。
說白了就是把一段目標基因裝到質粒載體上,再精確地改掉其中某個堿基。
這里面涉及酶切、連接、轉化、測序驗證,每一步都得精準。
而ProtoPilot做的兩個質粒,GLuc-WT和RLuc-WT,全部拿到Sanger測序確認。
往下再做酶的突變體質粒的構建,成功構建出15個sanger測序通過的突變體。
當然最能體現水平的還是第四組,基于PCA方法的DNA組裝。
所謂PCA法的DNA組裝,意思是你手頭沒有現成的完整DNA片段,而是要從一組短寡核苷酸開始,把目標序列一步步「組裝」出來:設計引物、合成寡核苷酸、搭橋組裝、糾錯、擴增,再連到載體上、轉化進細胞。
整條路七個步驟串下來,一步卡住全盤重來。
在菌落PCR實驗一共挑選了96個候選克隆,93個陽性,初篩陽性率達96.9%,而Sanger測序結果也證明4條目標DNA序列全部構建成功。
![]()
![]()
![]()
![]()
更關鍵的是,這個系統還會自我修正。
論文里記錄了一個細節:
第一輪PCA組裝轉化,培養皿上的菌長糊了,幾乎沒有可挑的單克隆。
系統自己分析了失敗原因,判斷是抗性篩選出了問題,然后重新生成修正方案。
結果第二輪跑下來,成功出現了許多可挑取的單克隆菌落,最終成功拿到了測序確認的DNA產物。
顯然,這就不是紙面分數了。
這是從需求理解、流程生成、自動化執行、結果驗證到異常修正的完整閉環,在真實實驗臺上真刀真槍跑出來的。
一家跨界AI的中國Bio公司,比Claude更先交卷了
系統跑通了,數據打完了,濕實驗也驗過了。
問題只剩下一個:為什么交出這份答卷的,是一家中國Bio公司?
答案想必你已經猜到了,因為做AI for Bio,最稀缺的從來不是模型,是場景和設施。
AI發展到現在,這個判斷幾乎成了各行各業的共識。
放在AI for Bio賽道,真實設備、真實濕實驗、真實失敗、真實約束……這些理論上歸屬于「生命科學實驗室Physical AI」的部分,才是一個玩家所擁有的最大護城河。
模型可以買、可以訓,但真實道路只能自己修。
正是在這樣的背景下,涌生智能這家公司的出現也就不那么讓人意外了:
一家從設備側生長出來的AI公司,天然比從模型側空降的玩家,更懂物理世界的語法。
![]()
△圖片由AI生成
涌生智能,是今年3月由華大智造成立的子公司,專注AI4S領域,聚焦搭建面向生命科學的干濕閉環基礎設施。
掌舵人楊夢,華大智造首席AI官,涌生智能CEO,是華大智造AI戰略的核心推動者。
在此之前,他帶隊在Nature子刊發過EvoPlay(用強化學習設計功能蛋白的AI智能體)和PrimeGen(干濕協同多智能體系統),還主導開發了AI全棧接入的閃速測序儀E25 Flash。
因此這個團隊做ProtoPilot這件事,并非從零起步,而是在多年AI+Bio實戰經驗上的一次集中爆發。
當然了,一家成立僅幾個月的公司能快速拿出新成果,底氣無疑離不開其母公司華大智造。
華大智造是全球率先集齊「全讀長測序(SEQ ALL)+智能自動化(GLI)+多組學(OMICS)」三大技術板塊的生命科技上游企業,手握PrepALL、AlphaTool、AIO一體機等Agent-ready智能實驗自動化產品,截至2025年末已積累全球超3800家用戶,以及十余年生命科學設備的工程化經驗。
當這些設備能被代碼驅動,Agent才長出了手;當SOP數字化、機器可讀,Agent才聽得懂實驗的語言;當濕實驗結果能被采集、回流成數字信號,Agent才睜開了眼睛。
所以,一切都很清楚了:
涌生智能贏就贏在,他們不是從外部給實驗室裝一個AI,是從實驗室內部長出AI。
這是一條和硅谷完全不同的路線。
頭部AI公司選擇scale compute,用更大的算力推高通用模型能力;
而涌生智能則從真實實驗世界出發,基于國產開源模型,結合自研Bio Agent Harness架構,通過真實實驗數據回流與Agent協同驅動系統進化,將任務執行、設備約束、專家反饋與濕實驗結果統一納入訓練閉環。
路線不同,結果說話。
![]()
而這種差異,也很快體現在產品層面:
ProtoPilot和BioLab Bench的能力,已經在向涌生智能的整個產品體系回流,構建起真正的干濕閉環。
這次發布后,向上讓αLab Brain從「實驗室助手」升級為可評估、可修正、可持續進化的「實驗室伴侶」;
向下讓AlphaTool、PrepALL、AIO等硬件設備通過Protocol2Code接入Bio Agent生態,從預設執行變成智能節點。
SE-Fab的DBTL閉環也因此越轉越順,每一次真實任務、失敗修復和專家反饋,都沉淀為下一輪訓練材料。
一條真正的干濕閉環,就這么接上了。
有意思的是,Anthropic的Claude Science平臺瞄準的下一站,正是干濕閉環。
![]()
而涌生智能和上海人工智能實驗室這次聯合發布的,已經是干濕閉環了。
一家跨界做AI的中國Bio公司,不僅搶在硅谷前面交卷,更用一條完全不同的路線證明:
Bio公司在自己的場景里用AI做AI,確實比AI公司從外部攻進來更猛。
這出戲本身,已經足夠精彩。
回到開頭。年初黃仁勛在CES上說,Physical AI的下一站是機器人和工廠,但物理世界還有一塊他沒圈到的版圖:
全球每天運轉的生命科學實驗室。
Physical AI的強弱,不看參數大小,看它與真實世界交互的深度。自動駕駛的能力來自真實道路,機器人的能力來自真實動作,生命科學的智能也一樣——必須在真實實驗室里才能長出來。
涌生智能和上海人工智能實驗室的這次聯手,釋放了一個明確信號:
AI for Bio的競爭,正在從「誰的模型更強」轉向「誰的閉環更完整」。
這一次,Physical AI真正長在了生命科學實驗室里,而不是聊天框里。
論文:
https://arxiv.org/abs/2606.31763
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.