撰文丨王聰
編輯丨王多魚
排版丨水成文
蛋白質(zhì)是生命世界里的“萬能工具”。從消化食物、抵抗病毒,到傳遞信號、構成身體,幾乎每一個生命過程都由蛋白質(zhì)驅(qū)動。如果能像工程師一樣,隨心所欲地設計或改造蛋白質(zhì),我們就能創(chuàng)造出全新的藥物、更高效的疫苗、能吸收更多二氧化碳的植物,甚至是生物合成的環(huán)保材料。幾乎沒有哪個科學領域比蛋白質(zhì)工程具有更廣泛的社會影響潛力。
自然演化在長達數(shù)十億年的時間里緩慢塑造了生命的蛋白質(zhì),但蛋白質(zhì)工程的任務是在極其壓縮的時間尺度上——幾年內(nèi),甚至借助人工智能(AI)的幫助,可能在幾天內(nèi)——創(chuàng)造出具有特定性質(zhì)的蛋白質(zhì),這顯然并不容易。
傳統(tǒng)的蛋白質(zhì)工程主要有兩條路徑:“定向進化”(directed evolution,DE)和“計算蛋白質(zhì)設計”(computational protein design,CPD)。前者獲得了 2018 年諾貝爾獎,它就像“人工加速的自然選擇”,通過反復隨機突變和篩選,在實驗室里“養(yǎng)”出好用的蛋白,但過程緩慢、昂貴,且離不開一個不錯的起始蛋白。而后者獲得了 2024 年諾貝爾獎,它則試圖用計算機模擬和物理定律,從頭“計算”出理想的蛋白質(zhì)結構,雖然搜索速度快,但依賴的理論模型太過簡化,難以模擬復雜的生物化學反應。
這兩條路徑真正的挑戰(zhàn)在于,蛋白質(zhì)的可能性實在太多了。每種蛋白質(zhì)通常由 20 種氨基酸組成,因此,一個僅由 100 個氨基酸組成的小型蛋白質(zhì),其可能的序列數(shù)量就高達 20100 種,這已遠超宇宙中的原子總數(shù)。在這樣一片浩瀚的、未知的海洋里,如何精準、高效地找到那條“能完成特定任務”的稀有序列?
近年來,人工智能(AI)通過實現(xiàn)對具有所需特性的蛋白質(zhì)在高維序列空間中的更高效搜索,進一步推動了蛋白質(zhì)工程的發(fā)展。AI 正在成為這場尋寶之旅的終極“導航系統(tǒng)”和“探測雷達”,它不僅能繪制地圖,還能指明航線。
近日,國際頂尖學術期刊Science上發(fā)表了題為:How artificial intelligence is reengineering protein engineering 的綜述論文,該論文系統(tǒng)闡述了AI如何從根本上改變了蛋白質(zhì)工程這一領域。
![]()
AI 的“煉丹爐”:條件生成模型
當有一本記載了自然界所有已知蛋白質(zhì)的“天書”(一個通用 AI 模型),它描述了蛋白質(zhì)序列的普遍規(guī)律。現(xiàn)在,你想從這本書里,“煉”出一種新的蛋白酶,它需要滿足幾個特定條件:在 80°C 高溫下依然穩(wěn)定,并且能高效催化某類化學反應。
AI 蛋白質(zhì)設計的終極目標,就是計算出“在給定一系列設計條件(Y)下,一個蛋白質(zhì)序列(s)出現(xiàn)的概率分布”——即 p(s | y∈Y)。 然后,從這個概率分布中采樣,就能直接得到符合要求的候選蛋白序列。這就像在“天書”上施加了一個精確的“過濾咒”和“引導術”。
![]()
從統(tǒng)計學視角看基于人工智能的蛋白質(zhì)工程
這篇綜述論文指出,實現(xiàn)這個“咒語”主要有三大策略——
預設條件:在訓練 AI 模型之初,就把“高溫穩(wěn)定性”、“催化效率”等條件作為“配方”直接“烘焙”進模型。這樣做針對性強,但每次想要新條件,就得重新“烤”一個模型,成本高,不靈活。
組合模型:不重新訓“天書”,而是給它配上一個“說明書”——一個能預測特定性質(zhì)的 AI 模型。用數(shù)學方法將兩者結合,動態(tài)地聚焦于我們關心的性質(zhì)。這種方法靈活,可以利用最新的數(shù)據(jù)和模型,但計算上可能更復雜。“適應性條件采樣”(CbAS) 是此策略的代表。
即時引導:不改變模型本身,而是在模型“生成”新序列的每一步,都用“說明書”去實時“引導”生成過程,使其偏向滿足條件的序列。擴散模型等常用此方法,優(yōu)雅但生成速度可能較慢。
AI “煉丹”實戰(zhàn):從“骨架”到“血肉”
理論框架之下,AI 在蛋白質(zhì)工程中正以幾種具體方式大展拳腳:
骨架生成:先讓 AI 想象出一個新的、穩(wěn)定的蛋白質(zhì)骨架結構。例如 RFdiffusion 和Chroma,能從一團“噪音”開始,逐漸“雕琢”出全新的、可設計的蛋白質(zhì)三維骨架,并可以“即時引導”其包含特定的功能位點(例如藥物結合口袋)。
逆折疊:有了骨架,下一步是“填充血肉”。逆折疊模型(例如 ProteinMPNN、ESM-IF1)能根據(jù)給定的骨架結構,設計出能折疊成這個形狀的氨基酸序列。這是目前從頭設計蛋白質(zhì)流程中的關鍵一步。
聯(lián)合生成:更前沿的研究試圖讓 AI“一蹴而就”,同時生成序列和結構,甚至直接精確到原子級別。這對于需要精確控制活性位點原子排布的酶設計,尤為重要。
評分與特征學習:一些生成模型本身不用于“創(chuàng)造”,而是用作“裁判”或“特征提取器”。它們能判斷一個給定序列“像不像”一個天然、穩(wěn)定的好蛋白,或者從序列中提取深層特征,用于預測其結構或功能。
成就、挑戰(zhàn)與未來
AI 的引入,已帶來實質(zhì)性的突破。 在蛋白質(zhì)結合劑設計方面,成功率(命中率)從應用 AI 前的不到 0.05% 提升到了可觀的百分比級別,使得許多設計可以通過微量反應板進行表征,而非依賴勞動密集型的高通量篩選。
然而,挑戰(zhàn)依然嚴峻:
數(shù)據(jù)饑渴:設計能結合小分子、DNA/RNA(而不僅僅是另一種蛋白質(zhì))的蛋白,仍然困難,因為蛋白質(zhì)與這些分子復合物的結構數(shù)據(jù)稀缺。
柔性難題:目前最成功的模型擅長設計由規(guī)則螺旋和折疊片構成的、剛性的“小球型”蛋白。但對于像抗體這樣,依賴柔性環(huán)區(qū)進行分子識別的蛋白質(zhì),還缺乏通用的強大設計工具。
“圣杯”尚遠:酶設計可能是最難的高峰,它需要精確到原子級別的活性位點化學知識。目前,AI 模型多是在已知酶活性位點的基礎上“重塑”其周圍結構,還難以從頭設計針對全新化學反應的高效催化劑。
評估困境:如何公平地評估和比較不同的 AI 蛋白質(zhì)設計方法?濕實驗驗證成本高昂,而依賴 AlphaFold 等結構預測模型又可能偏向于天然蛋白質(zhì)的“舒適區(qū)”,限制了設計的創(chuàng)新性。因此,建立包含真實實驗驗證的基準測試,是推動領域發(fā)展的關鍵。
結語
總而言之,人工智能(AI)正在將蛋白質(zhì)工程從一門依賴大量試錯和物理近似的“技藝”,轉(zhuǎn)變?yōu)橐环N基于概率模型和數(shù)據(jù)驅(qū)動的、可預測性更強的“工程科學”。它通過條件生成模型這一核心思想,統(tǒng)一了搜索與設計,讓我們得以在蛋白質(zhì)的浩瀚宇宙中進行“智能導航”。
盡管在酶設計、柔性蛋白設計等方面仍面臨“硬骨頭”,且 AI 模型的通用性和評估體系有待完善,但 AI 無疑已為這個領域裝上了強大的引擎。未來,隨著更多高質(zhì)量數(shù)據(jù)的積累、模型與生物物理原理的更深融合,我們有理由期待,定制具有任何我們所能想象功能的蛋白質(zhì),將不再是遙不可及的夢想。
論文鏈接:
https://www.science.org/doi/10.1126/science.aec8444
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.