網易首頁 > 網易號 > 正文申請入駐

黃仁勛說的Physical AI，被這家中國跨界選手帶進生命科學實驗室

2026-07-03 13:19:21　來源: 量子位

北京舉報

分享至

當AI公司還在讀論文，Bio公司已經讓AI做完了實驗。

沒錯，又一熱門AI賽道，被國產玩家率先跑通了——

AI for Bio，生命科學領域。

時至今日，這個賽道幾乎擠滿了最不缺算力的一批硅谷玩家：

OpenAI發GPT-Rosalind，專攻藥物發現和基因組學；谷歌推Co-Scientist和ERA，把多Agent系統塞進科學推理流程；Anthropic上線面向科研流程的Claude Science工作臺。

雖然大家想的都是讓大模型讀完論文后，寫個「完美」的實驗方案，再真正走進實驗室，但奈何現實很骨感：

真正讓AI接管實驗室并跑通實驗的？約等于無。

就拿最接近終點的OpenAI和Ginkgo Bioworks的合作來說，GPT-5在那個項目里負責的是實驗設計和參數探索，真正在實驗臺上執行的Catalyst protocols，全部由Ginkgo的人類工程師編寫。

換句話說，強如OpenAI，模型也沒有真正接觸到「做實驗」這一層。

△圖源：OpenAI官網

不過現在，全球第一個補上這關鍵一步的來了。

華大智造子公司涌生智能×上海人工智能實驗室，聯合發布兩項新成果：

ProtoPilot：一款由真實實驗室場景驅動的自進化多智能體系統；
BioLab Bench：生命科學領域首個從用戶需求到設備可執行的全流程Agent評測體系。

從自然語言實驗意圖到濕實驗物理執行，完整閉環，真實驗證。

這一次，讓AI「真正走進實驗室」的不是哪家AI巨頭，是一家跨界做AI的中國Bio公司。

這事估計連老黃都沒想到：

年初他在CES上說，「Physical AI的ChatGPT時刻」到了，說的是機器人和自動駕駛。

但是現在，第一個在生命科學實驗室交出Physical AI答卷的，來自深圳。

AI for Bio，到底卡在哪了

為什么硅谷這幫最不缺算力的玩家，集體卡在了實驗室門口？

要回答這個問題，其實只需要弄清楚一件事：

從模型到實驗室，這中間到底缺了什么？頂尖模型在手，怎么就跨不過這道坎呢？

讓我們從AI for Bio這個賽道的真實進展說起。

過去幾年，AI在生命科學領域的應用多聚焦于「理解」和「分析」。

文獻閱讀、知識問答、序列比對、蛋白質結構預測，模型確實博學，但它本質上是個坐在屏幕后面的助理。

它能幫你理解世界，但還沒真正進入世界。

Agent時代來了之后，事情開始變了。AI不再只滿足于回答問題，它開始「設計和行動」。

應此潮流，以OpenAI、Anthropic為代表的前沿AI玩家，開始把目光投向更下游、更主動的方向：

假設生成、實驗設計、參數空間探索、藥物發現、蛋白工程、自動化實驗。

聽起來是不是已經很接近「讓AI進實驗室干活」了？

但現實情況是——還差得很遠。

當下AI for Bio最真實的現狀就一句話：能出方案，出不了結果。

能力達到博士級水平的頂尖AI，確實能寫出一段看起來專業的實驗方案，但寫得好≠跑得通。

△圖片由AI生成

這中間幾乎隔著一整條轉換鏈。ProtoPilot的論文拆得很清楚：

一個實驗意圖要變成濕實驗臺上的真實操作，需要穿過五層——科學意圖、Protocol（方案設計）、SOP（標準操作流程）、設備代碼，再到物理執行和反饋修正。

而每一層都要解決不同的模糊性，比如Protocol要表達生物邏輯、樣本譜系和質控結構；SOP要把邏輯落到可操作的體積、濃度、耗材和溫控條件上；設備代碼要綁定deck布局、孔位映射、液體處理動作和廠商SDK指令……

就這一套下來，只要有任一環節出錯，實驗就可能失敗。

所以，當AI for Bio的競爭從「模型能不能回答生命科學問題」轉向「模型能不能走完從屏幕到實驗臺的全鏈路」時，行業真正缺的也就浮出水面了。

一塊是「鏟子」，能接住模型輸出、連接專家、設備和濕實驗反饋的Bio Agent Harness。

沒有這個，方案再漂亮也只能停在屏幕上。

一塊是「尺子」，能評價Bio Agent真實實驗鏈路能力的benchmark。

不是考它做選擇題，是看它生成的流程能不能在真實設備上跑得通。

現在公開的benchmark，比如ProtocolQA，考的還是閱讀理解。

需要提醒，這兩件事都不是坐在屏幕前就能憑空設計出來的，它們必須來自真實實驗室：

真實任務、真實設備、真實約束、真實失敗和真實專家判斷。

所以現在你明白，為啥兩家國產團隊選擇聯手了吧（doge）：

坐擁全棧生命科學設備、自動化實驗平臺、AI4Science經驗和豐富真實實驗場景的涌生智能，把最難被復制的「物理底座」和「場景底座」帶了進來。

它不僅提供濕實驗驗證能力，更從真實用戶需求、實驗室約束和自動化執行邏輯出發，參與定義什么樣的Protocol才算可用、可評、可執行。

上海人工智能實驗室則基于其在大模型訓練、評測標準和Agent框架上的積累，提供生成實驗Protocol的模型基礎，并與涌生智能共同構建Design2Protocol和Protocol2Code的benchmark、評分標準與評測工具。

兩邊一合，沉淀出了ProtoPilot和BioLab Bench。

Bio Agent，第一次真正走向了可評測、可執行、可迭代的真實實驗閉環。

ProtoPilot和BioLab Bench，如何填補行業空白

ProtoPilot和BioLab Bench，具體如何填補行業空白？

我也去仔細扒了扒論文。

ProtoPilot：第三方測評超越OpenAI最強旗艦GPT-5.6 Sol

先說多智能體系統ProtoPilot。

目前AI for Bio賽道上，能打通Design2Protocol、Protocol2Code、設備執行與濕實驗反饋驗證的系統仍然極少，大多還停留在分段優化階段，而ProtoPilot是少數已經實現全鏈路貫通的代表之一。

怎么個「全鏈路貫通」？舉個例子：

當你用自然語言對ProtoPilot說「構建8個GLuc突變體」，它就能把這句話拆解成科學合理的Protocol，識別可用設備，轉化為可執行的工作流代碼，下發到物理設備執行，并根據濕實驗反饋持續修正和進化。

注意，這不是聊天機器人，也不是單一設備的腳本生成器。

ProtoPilot背后是多個Agent在協同發力：

Orchestrator Agent統籌全局工作流狀態，Protocol Expert Agent生成實驗方案和SOP，Coding Agent將方案轉化為設備可執行代碼。三個Agent各司其職，逐層推進。

通過這種行業主流的「多Agent協同工作」方案，它成功解決了三個過去卡死行業的「老大難」。

第一個，需求模糊。

做過實驗的都知道，很多時候你腦子里的實驗意圖往往只有個大概方向。

怎么將這種模糊意圖轉化為下一步具體行動？這便是Orchestrator Agent首先登場的原因。

Orchestrator本質上干的是實驗室主管的活：

先把你的大目標拆成幾個模塊，每個模塊單獨細化成可操作的SOP，做完一個確認沒問題再做下一個，最后拼成完整流程。

這樣做的好處是，不會一上來就從頭寫到尾，寫到后面發現前面的參數跟后面打架。

第二個，寫得好≠跑得通。

Protocol寫得再漂亮，真實執行還涉及孔位、體積、slot、耗材、溫控、設備SDK、安全邊界，一堆硬約束。

ProtoPilot的Protocol2Code環節，就是專門來啃這塊硬骨頭的。

怎么啃？Coding Agent拿到SOP之后，會根據你實驗室里實際用的設備，把每一步操作翻譯成那臺機器聽得懂的SDK指令。同一個「移液100μL」的動作，在MGI Prepall/AlphaTool上怎么寫、在OpenTrons上怎么寫、deck怎么排、孔位怎么映射，它都替你對齊。

翻譯完還不算完，內置的驗證器會逐條檢查代碼的安全性和可執行性，過不了gate的直接打回重寫。

第三個，沒有反饋閉環。

模型生成完方案就撒手不管了，錯了也不知道錯在哪，下次還犯。

ProtoPilot不一樣，失敗原因、專家判斷、實驗結果統統回流到系統，形成運行時技能學習。

換句話說，它越用越強。

就這幾招下去，ProtoPilot能交出下面這份硬核成績單，我是真不意外了。

做實驗第一步，你得真懂實驗。

別的不說，行業公認「試金石」ProtocolQA總得挑戰一下吧。

ProtocolQA由AI4S領域的頂級機構FutureHouse推出，是專門考察AI對實驗流程理解與故障排查能力的第三方獨立benchmark。OpenAI家目前最頂的GPT-5.6 Sol的系統卡中也收錄了該benchmark結果。

結果呢？

在開放式問答上，GPT-5.6 Sol得分43.5%，距離人類專家54%還有明顯差距；而ProtoPilot拿到了52.38%，已經逼近專家水平。

在非開放式問答上，ProtoPilot更是取得了85.18%的成績，已經超越專家水平。

在行業公認的第三方考卷上，跑贏OpenAI目前最強的旗艦模型，ProtoPilot的實力不言自明。

P.S. 歸根到底，這背后其實是兩條完全不同的技術路線在較量，先埋個鉤子，后面詳細揭曉。

有了這個大腦，方案生成自然能打。

在Protocol任務上，ProtoPilot綜合評分94.7（滿分100），在所有8個評估維度上幾乎全線領跑。參數合理性98.9、方法學一致性97.7、內容完整性98.4，全部碾壓通用大模型和專用Bio Agent。

盲評中，三位獨立濕實驗科學家在不知道系統身份的情況下，70.6%的情況將ProtoPilot排在第一，90.2%的情況將ProtoPilot排在前三。

從下圖也能一眼看出，ProtoPilot生成的方案普遍更受科學家喜愛。

更關鍵的是，這個大腦能搞定最難的事。到了L3（最高復雜度）任務這一檔，差距變得極其夸張：

ProtoPilot的通過率依然有60%，而作為行業標桿的OpenTrons-AI直接歸零。

如下圖右側的紫色柱子，OpenTrons-AI只能在自家設備使用，且完成不了復雜任務。

但光有腦子還不夠，還得手腳利索。

考查代碼轉化和設備執行（圖b）。Protocol2Code代碼質量中位數95.5，Gate Pass Rate達到96.6%。

什么概念？第二LabScript-AI的通過率是64.6%，Grok-4.3只有35%，GPT-5.5只有17.7%，再往下基本是個位數。

跨設備遷移更猛（圖c）。在MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO四個主流平臺上，Gate Pass Rate波動僅5.9個百分點（pp）。作為對比，LabScript-AI的波動則高達47.1個百分點。

這里有個特別有意思的細節：

在OpenTrons OT-2上，ProtoPilot通過率88.24%，而OpenTrons官方自己的AI只有32.35%。

也就是說，ProtoPilot不僅在技術上實現了通用，而且贏了別人接近三倍。

BioLab Bench：首個從實驗意圖到設備執行的全鏈路評測體系

說完了選手，再說考場。

現有的第三方benchmark，比如剛才提到的ProtocolQA，考的還是實驗理解和知識問答。

但AI for Bio真正要回答的問題，從來不是「你懂不懂實驗」，而是「你能不能把實驗跑出來」。

這就是BioLab Bench要填的坑，它衡量的核心只有一件事：

系統能不能在真實自動化設備上跑得通。

具體而言，BioLab Bench作為該領域首個覆蓋從用戶需求到設備可執行的全流程Agent評測體系，覆蓋理解用戶實驗意圖→Design2Protocol→Protocol2SOP→SOP2Code→設備code→真實實驗執行鏈路。

任務范圍從基礎操作到復雜多步驟流程，按L1到L3難度分層。

和傳統的生物benchmark的區別在哪？

以前的考試是做閱讀理解，看你懂不懂實驗原理，而BioLab Bench考的是真上手——

從實驗意圖到方案、SOP、設備代碼，一路到真實執行，全鏈路打通。

而且它還能跨平臺檢驗。

同一個任務，換到不同自動化設備上，看Agent能不能適配。

說到底，ProtocolQA這類測評考的是「知不知」，BioLab Bench考的是「做不做得到」。

不是紙面分數，是實驗臺上跑出來的閉環

系統有了，考場也有了，剩下的問題只有一個：在真實實驗臺上，能不能跑出結果來？

忙著「搭橋修路」這么久，總得讓人看到實際成果。

ProtoPilot用四組遞進難度的濕實驗給出了回答。（P.S. 濕實驗指真實實驗臺操作，和純計算模擬相對應）

第一組是最基礎的活兒，在96孔板里接菌培養。

沒什么花哨的，就是看機器能不能按照指令把菌液加到每個孔里、能不能養出東西來。

結果96個孔全部生長，OD600讀數穩穩當當。基礎操作，過關。

第二組加了點難度，做了24個菌落PCR。

簡單說就是挑菌、擴增、跑膠，看能不能拿到對的條帶。

24個克隆，全部擴增出預期條帶。機器移液、溫控、試劑分配，都沒掉鏈子。

第三組是真正的分子克隆，質粒構建和定點突變。

說白了就是把一段目標基因裝到質粒載體上，再精確地改掉其中某個堿基。

這里面涉及酶切、連接、轉化、測序驗證，每一步都得精準。

而ProtoPilot做的兩個質粒，GLuc-WT和RLuc-WT，全部拿到Sanger測序確認。

往下再做酶的突變體質粒的構建，成功構建出15個sanger測序通過的突變體。

當然最能體現水平的還是第四組，基于PCA方法的DNA組裝。

所謂PCA法的DNA組裝，意思是你手頭沒有現成的完整DNA片段，而是要從一組短寡核苷酸開始，把目標序列一步步「組裝」出來：設計引物、合成寡核苷酸、搭橋組裝、糾錯、擴增，再連到載體上、轉化進細胞。

整條路七個步驟串下來，一步卡住全盤重來。

在菌落PCR實驗一共挑選了96個候選克隆，93個陽性，初篩陽性率達96.9%，而Sanger測序結果也證明4條目標DNA序列全部構建成功。

更關鍵的是，這個系統還會自我修正。

論文里記錄了一個細節：

第一輪PCA組裝轉化，培養皿上的菌長糊了，幾乎沒有可挑的單克隆。

系統自己分析了失敗原因，判斷是抗性篩選出了問題，然后重新生成修正方案。

結果第二輪跑下來，成功出現了許多可挑取的單克隆菌落，最終成功拿到了測序確認的DNA產物。

顯然，這就不是紙面分數了。

這是從需求理解、流程生成、自動化執行、結果驗證到異常修正的完整閉環，在真實實驗臺上真刀真槍跑出來的。

一家跨界AI的中國Bio公司，比Claude更先交卷了

系統跑通了，數據打完了，濕實驗也驗過了。

問題只剩下一個：為什么交出這份答卷的，是一家中國Bio公司？

答案想必你已經猜到了，因為做AI for Bio，最稀缺的從來不是模型，是場景和設施。

AI發展到現在，這個判斷幾乎成了各行各業的共識。

放在AI for Bio賽道，真實設備、真實濕實驗、真實失敗、真實約束……這些理論上歸屬于「生命科學實驗室Physical AI」的部分，才是一個玩家所擁有的最大護城河。

模型可以買、可以訓，但真實道路只能自己修。

正是在這樣的背景下，涌生智能這家公司的出現也就不那么讓人意外了：

一家從設備側生長出來的AI公司，天然比從模型側空降的玩家，更懂物理世界的語法。

△圖片由AI生成

涌生智能，是今年3月由華大智造成立的子公司，專注AI4S領域，聚焦搭建面向生命科學的干濕閉環基礎設施。

掌舵人楊夢，華大智造首席AI官，涌生智能CEO，是華大智造AI戰略的核心推動者。

在此之前，他帶隊在Nature子刊發過EvoPlay（用強化學習設計功能蛋白的AI智能體）和PrimeGen（干濕協同多智能體系統），還主導開發了AI全棧接入的閃速測序儀E25 Flash。

因此這個團隊做ProtoPilot這件事，并非從零起步，而是在多年AI+Bio實戰經驗上的一次集中爆發。

當然了，一家成立僅幾個月的公司能快速拿出新成果，底氣無疑離不開其母公司華大智造。

華大智造是全球率先集齊「全讀長測序（SEQ ALL）+智能自動化（GLI）+多組學（OMICS）」三大技術板塊的生命科技上游企業，手握PrepALL、AlphaTool、AIO一體機等Agent-ready智能實驗自動化產品，截至2025年末已積累全球超3800家用戶，以及十余年生命科學設備的工程化經驗。

當這些設備能被代碼驅動，Agent才長出了手；當SOP數字化、機器可讀，Agent才聽得懂實驗的語言；當濕實驗結果能被采集、回流成數字信號，Agent才睜開了眼睛。

所以，一切都很清楚了：

涌生智能贏就贏在，他們不是從外部給實驗室裝一個AI，是從實驗室內部長出AI。

這是一條和硅谷完全不同的路線。

頭部AI公司選擇scale compute，用更大的算力推高通用模型能力；

而涌生智能則從真實實驗世界出發，基于國產開源模型，結合自研Bio Agent Harness架構，通過真實實驗數據回流與Agent協同驅動系統進化，將任務執行、設備約束、專家反饋與濕實驗結果統一納入訓練閉環。

路線不同，結果說話。

而這種差異，也很快體現在產品層面：

ProtoPilot和BioLab Bench的能力，已經在向涌生智能的整個產品體系回流，構建起真正的干濕閉環。

這次發布后，向上讓αLab Brain從「實驗室助手」升級為可評估、可修正、可持續進化的「實驗室伴侶」；

向下讓AlphaTool、PrepALL、AIO等硬件設備通過Protocol2Code接入Bio Agent生態，從預設執行變成智能節點。

SE-Fab的DBTL閉環也因此越轉越順，每一次真實任務、失敗修復和專家反饋，都沉淀為下一輪訓練材料。

一條真正的干濕閉環，就這么接上了。

有意思的是，Anthropic的Claude Science平臺瞄準的下一站，正是干濕閉環。

而涌生智能和上海人工智能實驗室這次聯合發布的，已經是干濕閉環了。

一家跨界做AI的中國Bio公司，不僅搶在硅谷前面交卷，更用一條完全不同的路線證明：

Bio公司在自己的場景里用AI做AI，確實比AI公司從外部攻進來更猛。

這出戲本身，已經足夠精彩。

回到開頭。年初黃仁勛在CES上說，Physical AI的下一站是機器人和工廠，但物理世界還有一塊他沒圈到的版圖：

全球每天運轉的生命科學實驗室。

Physical AI的強弱，不看參數大小，看它與真實世界交互的深度。自動駕駛的能力來自真實道路，機器人的能力來自真實動作，生命科學的智能也一樣——必須在真實實驗室里才能長出來。

涌生智能和上海人工智能實驗室的這次聯手，釋放了一個明確信號：

AI for Bio的競爭，正在從「誰的模型更強」轉向「誰的閉環更完整」。

這一次，Physical AI真正長在了生命科學實驗室里，而不是聊天框里。

論文：
https://arxiv.org/abs/2606.31763

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.