Science：AI革新蛋白質(zhì)工程，開始重編程生命

2026-04-12 17:06:25　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

蛋白質(zhì)是生命世界里的“萬能工具”。從消化食物、抵抗病毒，到傳遞信號、構成身體，幾乎每一個生命過程都由蛋白質(zhì)驅(qū)動。如果能像工程師一樣，隨心所欲地設計或改造蛋白質(zhì)，我們就能創(chuàng)造出全新的藥物、更高效的疫苗、能吸收更多二氧化碳的植物，甚至是生物合成的環(huán)保材料。幾乎沒有哪個科學領域比蛋白質(zhì)工程具有更廣泛的社會影響潛力。

自然演化在長達數(shù)十億年的時間里緩慢塑造了生命的蛋白質(zhì)，但蛋白質(zhì)工程的任務是在極其壓縮的時間尺度上——幾年內(nèi)，甚至借助人工智能（AI）的幫助，可能在幾天內(nèi)——創(chuàng)造出具有特定性質(zhì)的蛋白質(zhì)，這顯然并不容易。

傳統(tǒng)的蛋白質(zhì)工程主要有兩條路徑：“定向進化”（directed evolution，DE）和“計算蛋白質(zhì)設計”（computational protein design，CPD）。前者獲得了 2018 年諾貝爾獎，它就像“人工加速的自然選擇”，通過反復隨機突變和篩選，在實驗室里“養(yǎng)”出好用的蛋白，但過程緩慢、昂貴，且離不開一個不錯的起始蛋白。而后者獲得了 2024 年諾貝爾獎，它則試圖用計算機模擬和物理定律，從頭“計算”出理想的蛋白質(zhì)結構，雖然搜索速度快，但依賴的理論模型太過簡化，難以模擬復雜的生物化學反應。

這兩條路徑真正的挑戰(zhàn)在于，蛋白質(zhì)的可能性實在太多了。每種蛋白質(zhì)通常由 20 種氨基酸組成，因此，一個僅由 100 個氨基酸組成的小型蛋白質(zhì)，其可能的序列數(shù)量就高達 20100 種，這已遠超宇宙中的原子總數(shù)。在這樣一片浩瀚的、未知的海洋里，如何精準、高效地找到那條“能完成特定任務”的稀有序列？

近年來，人工智能（AI）通過實現(xiàn)對具有所需特性的蛋白質(zhì)在高維序列空間中的更高效搜索，進一步推動了蛋白質(zhì)工程的發(fā)展。AI 正在成為這場尋寶之旅的終極“導航系統(tǒng)”和“探測雷達”，它不僅能繪制地圖，還能指明航線。

近日，國際頂尖學術期刊Science上發(fā)表了題為：How artificial intelligence is reengineering protein engineering 的綜述論文，該論文系統(tǒng)闡述了AI如何從根本上改變了蛋白質(zhì)工程這一領域。

AI 的“煉丹爐”：條件生成模型

當有一本記載了自然界所有已知蛋白質(zhì)的“天書”（一個通用 AI 模型），它描述了蛋白質(zhì)序列的普遍規(guī)律。現(xiàn)在，你想從這本書里，“煉”出一種新的蛋白酶，它需要滿足幾個特定條件：在 80°C 高溫下依然穩(wěn)定，并且能高效催化某類化學反應。

AI 蛋白質(zhì)設計的終極目標，就是計算出“在給定一系列設計條件（Y）下，一個蛋白質(zhì)序列（s）出現(xiàn)的概率分布”——即 p(s | y∈Y)。然后，從這個概率分布中采樣，就能直接得到符合要求的候選蛋白序列。這就像在“天書”上施加了一個精確的“過濾咒”和“引導術”。

從統(tǒng)計學視角看基于人工智能的蛋白質(zhì)工程

這篇綜述論文指出，實現(xiàn)這個“咒語”主要有三大策略——

預設條件：在訓練 AI 模型之初，就把“高溫穩(wěn)定性”、“催化效率”等條件作為“配方”直接“烘焙”進模型。這樣做針對性強，但每次想要新條件，就得重新“烤”一個模型，成本高，不靈活。
組合模型：不重新訓“天書”，而是給它配上一個“說明書”——一個能預測特定性質(zhì)的 AI 模型。用數(shù)學方法將兩者結合，動態(tài)地聚焦于我們關心的性質(zhì)。這種方法靈活，可以利用最新的數(shù)據(jù)和模型，但計算上可能更復雜。“適應性條件采樣”（CbAS）是此策略的代表。
即時引導：不改變模型本身，而是在模型“生成”新序列的每一步，都用“說明書”去實時“引導”生成過程，使其偏向滿足條件的序列。擴散模型等常用此方法，優(yōu)雅但生成速度可能較慢。

AI “煉丹”實戰(zhàn)：從“骨架”到“血肉”

理論框架之下，AI 在蛋白質(zhì)工程中正以幾種具體方式大展拳腳：

骨架生成：先讓 AI 想象出一個新的、穩(wěn)定的蛋白質(zhì)骨架結構。例如 RFdiffusion 和Chroma，能從一團“噪音”開始，逐漸“雕琢”出全新的、可設計的蛋白質(zhì)三維骨架，并可以“即時引導”其包含特定的功能位點（例如藥物結合口袋）。
逆折疊：有了骨架，下一步是“填充血肉”。逆折疊模型（例如 ProteinMPNN、ESM-IF1）能根據(jù)給定的骨架結構，設計出能折疊成這個形狀的氨基酸序列。這是目前從頭設計蛋白質(zhì)流程中的關鍵一步。
聯(lián)合生成：更前沿的研究試圖讓 AI“一蹴而就”，同時生成序列和結構，甚至直接精確到原子級別。這對于需要精確控制活性位點原子排布的酶設計，尤為重要。
評分與特征學習：一些生成模型本身不用于“創(chuàng)造”，而是用作“裁判”或“特征提取器”。它們能判斷一個給定序列“像不像”一個天然、穩(wěn)定的好蛋白，或者從序列中提取深層特征，用于預測其結構或功能。

成就、挑戰(zhàn)與未來

AI 的引入，已帶來實質(zhì)性的突破。在蛋白質(zhì)結合劑設計方面，成功率（命中率）從應用 AI 前的不到 0.05% 提升到了可觀的百分比級別，使得許多設計可以通過微量反應板進行表征，而非依賴勞動密集型的高通量篩選。

然而，挑戰(zhàn)依然嚴峻：

數(shù)據(jù)饑渴：設計能結合小分子、DNA/RNA（而不僅僅是另一種蛋白質(zhì)）的蛋白，仍然困難，因為蛋白質(zhì)與這些分子復合物的結構數(shù)據(jù)稀缺。

柔性難題：目前最成功的模型擅長設計由規(guī)則螺旋和折疊片構成的、剛性的“小球型”蛋白。但對于像抗體這樣，依賴柔性環(huán)區(qū)進行分子識別的蛋白質(zhì)，還缺乏通用的強大設計工具。

“圣杯”尚遠：酶設計可能是最難的高峰，它需要精確到原子級別的活性位點化學知識。目前，AI 模型多是在已知酶活性位點的基礎上“重塑”其周圍結構，還難以從頭設計針對全新化學反應的高效催化劑。

評估困境：如何公平地評估和比較不同的 AI 蛋白質(zhì)設計方法？濕實驗驗證成本高昂，而依賴 AlphaFold 等結構預測模型又可能偏向于天然蛋白質(zhì)的“舒適區(qū)”，限制了設計的創(chuàng)新性。因此，建立包含真實實驗驗證的基準測試，是推動領域發(fā)展的關鍵。

結語

總而言之，人工智能（AI）正在將蛋白質(zhì)工程從一門依賴大量試錯和物理近似的“技藝”，轉(zhuǎn)變?yōu)橐环N基于概率模型和數(shù)據(jù)驅(qū)動的、可預測性更強的“工程科學”。它通過條件生成模型這一核心思想，統(tǒng)一了搜索與設計，讓我們得以在蛋白質(zhì)的浩瀚宇宙中進行“智能導航”。

盡管在酶設計、柔性蛋白設計等方面仍面臨“硬骨頭”，且 AI 模型的通用性和評估體系有待完善，但 AI 無疑已為這個領域裝上了強大的引擎。未來，隨著更多高質(zhì)量數(shù)據(jù)的積累、模型與生物物理原理的更深融合，我們有理由期待，定制具有任何我們所能想象功能的蛋白質(zhì)，將不再是遙不可及的夢想。

論文鏈接：

https://www.science.org/doi/10.1126/science.aec8444

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.