![]()
近日,華中農(nóng)業(yè)大學(xué)胡學(xué)海教授、楊慶勇教授和嚴(yán)建兵教授交叉團(tuán)隊(duì)聯(lián)合崖州灣國家實(shí)驗(yàn)室在 Advanced Science 在線發(fā)表題為PlantGFM: A Genomic Foundation Model for Discovery and Creation of Plant Genes的研究論文。研究團(tuán)隊(duì)面向人工智能(AI)設(shè)計(jì)育種這一國際前沿問題,創(chuàng)新性地構(gòu)建了植物基因組基礎(chǔ)模型PlantGFM,并首次在植物體系中實(shí)現(xiàn)了由大語言模型設(shè)計(jì)序列的“DNA—RNA—蛋白質(zhì)”全鏈條實(shí)驗(yàn)驗(yàn)證,邁出了從“改良基因”到“創(chuàng)造基因”的關(guān)鍵一步,為AI驅(qū)動的植物合成生物學(xué)與分子設(shè)計(jì)育種提供了新的技術(shù)路徑。
![]()
糧食安全是21世紀(jì)人類面臨的核心挑戰(zhàn)之一。無論是應(yīng)對氣候變化帶來的極端干旱與高溫,還是抵御層出不窮的病蟲害威脅,培育更加高產(chǎn)、優(yōu)良、高效的農(nóng)作物品種始終是科學(xué)界和產(chǎn)業(yè)界的迫切需求。在現(xiàn)代育種技術(shù)中,科學(xué)家們通常依賴三條路徑對作物基因組進(jìn)行改造:傳統(tǒng)雜交育種、誘變育種以及近年來興起的CRISPR基因編輯技術(shù)。然而,這三種方法都面臨著一個共同的天花板——它們只能在自然界已有的基因序列范圍內(nèi)進(jìn)行修改,無法跨越進(jìn)化積累的變異邊界,真正從頭設(shè)計(jì)出全新的、具有定制功能的基因序列。
然而,真正意義上的“從頭設(shè)計(jì)”植物基因,一直面臨巨大挑戰(zhàn)。一方面,植物基因組結(jié)構(gòu)復(fù)雜,存在大量長距離調(diào)控元件、重復(fù)序列及復(fù)雜剪接結(jié)構(gòu);另一方面,傳統(tǒng)深度學(xué)習(xí)模型在超長DNA序列建模方面存在明顯瓶頸,難以同時兼顧長距離依賴關(guān)系與計(jì)算效率。為了攻克這一難題,華中農(nóng)業(yè)大學(xué)聯(lián)合崖州灣國家實(shí)驗(yàn)室,構(gòu)建了專為植物基因組設(shè)計(jì)的基礎(chǔ)模型PlantGFM,該模型不僅能讀懂植物的基因密碼,還能寫出全新的、自然界中完全不存在的基因序列,并且首次在實(shí)驗(yàn)中證明,這些AI寫出的"新基因"能夠在植物細(xì)胞里正常工作。
PlantGFM首次將Hyena長序列算子系統(tǒng)性引入植物基因組研究,在保持單堿基分辨率的同時,實(shí)現(xiàn)了長達(dá)64 kb基因組序列的長上下文建模能力。相較于傳統(tǒng)Transformer結(jié)構(gòu),Hyena架構(gòu)在超長序列處理時具有更高的計(jì)算效率,使模型能夠更有效地學(xué)習(xí)植物基因組中跨越數(shù)萬堿基的調(diào)控關(guān)系。為了訓(xùn)練這一“植物基因組基礎(chǔ)模型”,研究團(tuán)隊(duì)選取了12種代表性植物參考基因組,包括水稻、玉米、油菜、大豆、擬南芥等重要作物和模式植物,覆蓋單子葉、雙子葉及不同進(jìn)化分支植物,總訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到108億堿基。模型通過自監(jiān)督學(xué)習(xí)方式,自動學(xué)習(xí)植物基因組中的序列規(guī)律、基因結(jié)構(gòu)特征以及調(diào)控“語法”。研究結(jié)果表明,PlantGFM不僅能夠較準(zhǔn)確地完成基因結(jié)構(gòu)預(yù)測,還在多個調(diào)控基因組學(xué)任務(wù)中表現(xiàn)出較強(qiáng)競爭力,包括基因表達(dá)預(yù)測、染色質(zhì)開放性分析、轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別以及順式調(diào)控元件強(qiáng)度預(yù)測等,部分任務(wù)上的性能已達(dá)到或接近當(dāng)前國際基因組基礎(chǔ)模型的先進(jìn)水平。
![]()
圖1 PlantGFM自監(jiān)督預(yù)訓(xùn)練框架及三類下游應(yīng)用示意圖
不過,本研究最受關(guān)注的突破,并不只是“理解”植物基因組,而是進(jìn)一步實(shí)現(xiàn)了“創(chuàng)造”植物基因。研究團(tuán)隊(duì)利用PlantGFM對植物天然基因的結(jié)構(gòu)規(guī)律進(jìn)行學(xué)習(xí)后,從頭生成了3000條候選植物基因序列。這些序列大多數(shù)與天然基因不存在明顯同源性,但依然保留了植物基因的典型特征,包括合理的GC含量、潛在剪接位點(diǎn)以及編碼結(jié)構(gòu)等。隨后,研究團(tuán)隊(duì)進(jìn)一步提出“AI-HK(AI-Human Knowledge)”策略,將人工智能生成能力與人類已有生物學(xué)知識相結(jié)合,對候選序列進(jìn)行多輪篩選,最終選出7條最具潛力的序列進(jìn)入實(shí)驗(yàn)驗(yàn)證階段。
隨后,研究團(tuán)隊(duì)開展了本研究最關(guān)鍵的實(shí)驗(yàn)驗(yàn)證工作。他們將7條AI生成序列導(dǎo)入本氏煙草葉片細(xì)胞中,并利用RNA-seq、RT-qPCR、共聚焦顯微成像以及Western Blot等多種實(shí)驗(yàn)手段,對這些AI設(shè)計(jì)序列在植物細(xì)胞中的表達(dá)情況進(jìn)行系統(tǒng)分析。結(jié)果顯示,所有候選序列均能夠被植物細(xì)胞識別并轉(zhuǎn)錄生成RNA;更進(jìn)一步,其中2條序列實(shí)現(xiàn)了穩(wěn)定蛋白表達(dá)。
![]()
圖2利用煙草瞬態(tài)表達(dá)系統(tǒng)評估新基因的表達(dá)及其調(diào)控效應(yīng)
這一結(jié)果意味著,研究團(tuán)隊(duì)首次在植物系統(tǒng)中完成了由語言模型設(shè)計(jì)序列從DNA、RNA到蛋白質(zhì)翻譯的完整實(shí)驗(yàn)驗(yàn)證。換句話說,AI生成的DNA序列不再只是“理論上的序列組合”,而是真正具備被植物生命系統(tǒng)識別和運(yùn)行的能力。研究人員認(rèn)為,這標(biāo)志著人工智能在植物基因組研究中開始從“解析生命”邁向“設(shè)計(jì)生命”的重要一步。
在此基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步探索了PlantGFM在“功能導(dǎo)向型基因設(shè)計(jì)”中的潛力。研究人員以植物抗病相關(guān)的NLR基因家族為研究對象,利用超過8萬條植物NLR序列訓(xùn)練模型后,重新生成了1000條全新候選NLR基因。進(jìn)一步分析發(fā)現(xiàn),部分AI生成序列雖然在DNA水平與天然NLR基因差異較大,但依然能夠形成典型NLR蛋白結(jié)構(gòu)域,其預(yù)測三維結(jié)構(gòu)與天然抗病蛋白高度相似,部分候選序列TM-score超過0.8。
![]()
圖3 利用PlantGFM功能引導(dǎo)生成及結(jié)構(gòu)表征植物NLR基因
這意味著,PlantGFM不僅能夠生成“像基因一樣”的DNA序列,還可能進(jìn)一步學(xué)習(xí)特定功能基因家族的結(jié)構(gòu)“語法”,從而定向生成具有潛在功能的新型候選基因。這為未來人工智能輔助設(shè)計(jì)抗病、抗逆、高產(chǎn)等重要農(nóng)藝性狀相關(guān)基因提供了新的可能。
研究團(tuán)隊(duì)同時強(qiáng)調(diào),目前PlantGFM仍處于早期探索階段。盡管已有AI生成序列能夠穩(wěn)定表達(dá)蛋白,但其具體生物學(xué)功能仍需進(jìn)一步系統(tǒng)驗(yàn)證。此外,目前僅有部分序列實(shí)現(xiàn)穩(wěn)定蛋白積累,也說明真正實(shí)現(xiàn)“高效、穩(wěn)定、可控”的AI基因設(shè)計(jì)仍是長期挑戰(zhàn)。未來,團(tuán)隊(duì)還將繼續(xù)擴(kuò)大模型訓(xùn)練規(guī)模,引入更多植物物種數(shù)據(jù),并建立高通量植物實(shí)驗(yàn)驗(yàn)證體系,進(jìn)一步提升模型的泛化能力與功能設(shè)計(jì)能力。
總體來看,該研究不僅構(gòu)建了我國自主植物基因組基礎(chǔ)模型,也首次在植物體系中驗(yàn)證了語言模型設(shè)計(jì)基因的生物學(xué)可行性。相關(guān)成果展示了人工智能在植物科學(xué)、合成生物學(xué)與未來智能育種中的廣闊應(yīng)用前景。未來,隨著植物基因組基礎(chǔ)模型不斷發(fā)展,人工智能有望從傳統(tǒng)的“輔助分析工具”,逐步演變?yōu)橥苿又参锟茖W(xué)發(fā)現(xiàn)和新基因創(chuàng)造的重要研究平臺。
華中農(nóng)業(yè)大學(xué)信息學(xué)院博士生李昌昊、張啟哲,以及崖州灣國家實(shí)驗(yàn)室青年科學(xué)家陳漢臣為論文共同第一作者;華中農(nóng)業(yè)大學(xué)胡學(xué)海教授、楊慶勇教授和嚴(yán)建兵教授為論文共同通訊作者。研究工作獲得本研究獲得了國家重點(diǎn)研發(fā)計(jì)劃及國家自然科學(xué)基金等項(xiàng)目的資助,并依托作物遺傳改良全國重點(diǎn)實(shí)驗(yàn)室生物信息學(xué)計(jì)算平臺完成。
論文鏈接:
https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.75772
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.