![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
如果你是一名合成生物學家,想設計一株能高效生產青蒿素的酵母,傳統流程可能是這樣:在實驗室里一輪輪敲除基因、調整培養條件,再測代謝產物的產量——這個過程往往要花上幾個月甚至幾年。但如果有一個“數字酵母”,能在電腦里先模擬出所有基因編輯方案的代謝結果,把最優解直接推給你,研發效率會提升多少?
2026 年 7 月 1 日,西湖大學郭天南教授聯合來自北京大學、上海人工智能實驗室、復旦大學、斯坦福大學、蘇黎世聯邦理工學院、多倫多大學等機構的數十個研究團隊,在Nature期刊發表了題為:Towards the construction of a virtual yeast 的前瞻性評述文章,提出了“虛擬酵母”(Virtual Yeast)計劃,旨在使用 AI 打造全球首個可預測、可實驗驗證的虛擬真核細胞,這不是簡單的細胞動畫,而是一個能模擬酵母從基因表達到代謝產物全鏈條行為的 AI 系統。
作為一種由 AI 驅動的智能體,虛擬酵母通過整合多模態生物數據、機制推理和主動實驗,以釀酒酵母作為遺傳可操作且數據豐富的模型系統,來模擬真核細胞的行為。該團隊將細胞復雜性分解為八個以功能為中心的模塊,涵蓋遺傳、代謝和結構系統,每個模塊均以特定領域的 AI 工具實現,并通過基于大語言模型的協調層進行統一調度。該系統建立在三大數據支柱之上——機制知識、亞細胞結構和動態狀態,將表示學習與生成建模集成于一個閉環學習流程中,能夠自主設計并執行實驗。
虛擬酵母既是一個概念平臺,也是一個操作平臺,可用于優化生物合成通路,支持在多種細胞過程中生成和優先排序假設,并加速靶點發現。通過將生物真實性與自主 AI 推理相結合,虛擬酵母為構建虛擬真核細胞和推動合成生物學發展建立了一個可推廣的藍圖。
![]()
為什么選擇酵母?
提到模式生物,很多人會想到大腸桿菌,但其作為原核細胞,與更復雜的真核生物相差太大。而釀酒酵母(Saccharomyces cerevisiae)才是真核生物的“黃金模型”。
酵母,是真核生物里的“小個子”,直徑只有 3-10 微米,卻擁有完整的真核細胞結構:細胞核、線粒體、內質網、高爾基體這些真核細胞特有的“器官”一個不少;它的遺傳工具箱極其豐富:覆蓋所有非必需基因的敲除文庫、全基因組 GFP 標簽庫、百萬級規模的遺傳互作圖譜,幾乎把“基因怎么影響性狀”的關系摸透了八九成;更關鍵的是,酵母和人類的核心細胞過程高度保守——細胞周期調控、DNA 修復、囊泡運輸這些基礎邏輯,和人體細胞是同根的。
換句話說,把酵母的數字模型做通了,這套方法就能平移到更復雜的真核細胞研究里,甚至為癌癥機制解析、藥物篩選打下基礎。
虛擬酵母不是“數字標本”,是八個功能模塊組成的AI智能體
傳統細胞建模的思路,往往是把所有分子反應塞進一個巨大的數學方程里,不僅計算量爆炸,還很難適配不同的研究需求。這次的虛擬酵母項目換了個思路:按細胞功能拆成八個獨立的 AI 模塊,再使用大語言模型(LLM)當“總指揮”協調它們工作。
這八個模塊剛好對應酵母的核心生命活動——
膜系統模塊:管內膜系統結構、物質運輸和脂質合成;
遺傳中樞模塊:負責染色質結構、基因組穩定性、轉錄調控和細胞周期推進;
線粒體能量模塊:主導氧化磷酸化、氧化還原平衡和衰老相關代謝;
胞質代謝模塊:覆蓋中心碳代謝、氨基酸合成、營養感知和儲能;
生物合成網絡模塊:負責蛋白質合成、折疊、翻譯后修飾和降解;
細胞骨架模塊:整合微絲、微管、細胞壁重塑,支撐細胞形態發生和物質運輸;
應激處理模塊:管理應激顆粒、P-小體、氧化應激解毒,應對環境變化;
降解機器模塊:執行蛋白酶體和液泡降解,回收細胞組分。
每個模塊都是專門的 AI 工具:比如代謝模塊會用變分自編碼器學習蛋白組和代謝組的關系,用擴散模型預測不同擾動下的代謝流變化;遺傳模塊會微調 Evo3 這類基因組基礎模型,專門識別酵母特有的調控語法。而大語言模型就像“項目經理”,接到用戶的問題(比如“敲除某個基因后酵母能不能在高溫下存活?”),會自動判斷該調用哪個模塊,甚至組合多個模塊的計算結果,給出綜合預測。
![]()
虛擬酵母 AI 智能體的概念路線圖
為了保證預測不“胡編亂造”,系統還加了三重約束:一是知識圖譜把關,所有推理都要符合已知的基因、通路、細胞器之間的因果關系;二是物理規則約束,比如代謝反應必須符合化學計量平衡,動力學符合已知酶學規律;三是強化學習反饋,用真實實驗結果當“獎勵信號”,讓模型越算越準。
![]()
虛擬酵母代理各功能模塊的架構框架
三個數據支柱撐起虛擬酵母的“地基”
要讓 AI 真的懂細胞,光有算法不夠,還得有高質量的數據。文章中明確提出構建虛擬酵母需要三個核心數據支柱:
第一是先驗生物學知識。幾十年來積累的酵母數據庫就是最好的養料:酵母基因組數據庫 SGD 的基因注釋、YMDB 的代謝物信息、YeastNet 的蛋白互作網絡、涵蓋近 100 萬對遺傳互作的全局互作圖譜……這些經過實驗驗證的知識會被整理成結構化知識圖譜,給 AI 當“教科書”。
第二是亞細胞空間架構數據。過去我們測組學,往往得到的是整個細胞的平均結果,不知道分子到底在哪個細胞器里干活。現在有了空間組學、膨脹顯微鏡、冷凍電鏡斷層掃描這些技術,我們能知道 mRNA 在細胞核里的定位、蛋白在應激顆粒里的分布、線粒體嵴的精細結構。這些數據能給 AI 建立“空間感”——畢竟很多細胞反應,位置錯了,功能就錯了。
第三是動態狀態數據。細胞不是靜態的,敲除一個基因、加一種藥物、升一度溫度,它的狀態都會隨時間變化。團隊已經啟動了第一階段的數據采集:用 969 個天然酵母菌株,在碳氮源變化、溫度波動、化學脅迫等不同條件下,做了超過 1.5 萬份時間分辨率的蛋白組檢測,配套 5000 多份代謝組數據和生長曲線。更重要的是,他們用了“主動學習”策略:AI 先根據現有數據預測哪些擾動條件最“信息量最大”,再指導實驗優先做這些,形成“模型預測→實驗驗證→數據反哺模型”的閉環。
![]()
閉環主動學習推動虛擬酵母模型的迭代優化
從代謝模塊開始,虛擬酵母已經在落地
文章中專門舉了代謝模塊的案例,展示這個框架的實際能力。傳統的基因組尺度代謝模型(GEM)雖然能預測生長表型,但很難精準算出細胞內代謝物的濃度變化。而虛擬酵母的代謝模塊把 AI 和 GEM 結合起來:用 Evo2 編碼基因組特征,用 Uni-Mol 編碼小分子特征,用深度學習模型學習蛋白豐度和代謝物濃度的關系,再用 GEM 的反應規則做約束,既能預測代謝流的變化,也能定量估算代謝物水平。
目前這個模塊已經在優化代謝物生產的場景里展現潛力:比如預測敲除哪些基因能提高某種工業用氨基酸的產量,比傳統機器學習模型的準確率更高。按照規劃,未來 5-10 年,這個項目會逐步完成:第一階段先打磨好代謝模塊,建立基準測試集;第二階段整合 2-3 個細胞器的功能模塊;第三階段實現八個模塊的完全整合,形成真正的全細胞 AI 智能體。
不止是酵母:虛擬細胞的通用藍圖
當然,研究團隊也坦言:虛擬酵母不會是完美的“數字孿生”,不需要也不可能把細胞里的每一個分子都精確模擬。它的核心價值,是提供一套可落地的框架:從功能出發拆分模塊、用多模態數據訓練、靠實驗閉環迭代、兼顧預測能力和可解釋性。
更重要的是,這套思路不只適用于酵母。未來還可以用類似的方法構建人類細胞的虛擬模型,用來模擬疾病發生過程、篩選藥物靶點、設計個性化治療方案。從酵母到人類,從基礎研究到生物制造,這個小小的虛擬酵母,可能正是打開“數字生物學”大門的第一把鑰匙。
https://www.nature.com/articles/s41586-026-10574-9
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.