![]()
植物在生長過程中時刻面臨著病毒、細菌、真菌和卵菌等多種病原體的威脅。為了抵御這些侵害,植物進化出了復雜的免疫系統(包括PTI和ETI),其核心依賴于各類抗病基因(如NLRs、RLKs、RLPs和TKPs)對病原體信號的精準識別。在全基因組水平上準確鑒定這些抗病基因,對于理解植物免疫機制和加速抗病作物的分子育種至關重要。然而,這些抗病蛋白中關鍵的富含亮氨酸重復序列結構域(LRR domain)具有極高的序列多樣性,且抗病基因的結構域拓撲排列復雜多樣。現有的注釋工具(如NLRtracker、DeepLRR等)往往局限于典型結構或特定受體類型,難以實現多類型抗病基因的高精度、全景式發掘,這成為了植物抗病基因組學研究的一大挑戰。
近日,中國熱帶農業科學院/中國農科院農業基因組所周永鋒團隊聯合墨爾本大學王怡雯助理教授在Plant Physiology發表了題為Machine learning empowers precise discovery of disease-resistance genes in plants的研究論文。該研究開發了一種基于深度蛋白質語言模型和機器學習模型的LRR domain注釋算法(ESM-LRR),并在此基礎上構建了全新的植物抗病基因高精度注釋框架(R-Predictor),顯著提升了各類抗病基因的挖掘效率與準確性,為作物抗病育種提供了強大的生物信息學工具。
![]()
研究團隊首先針對高度變異的LRR結構域,創新性地提出了ESM-LRR方法。該方法利用深度蛋白質語言模型ESM-1v提取輸入序列的高維特征,并結合機器學習模型(隨機森林回歸),精準捕捉LRR domain的連續特征變化。基準測試表明,ESM-LRR打破了傳統基于預定義序列模式(Motif)的方法局限,在識別LRR domain時獲得了最高的F1 score,優于現有主流方法(圖1)。
![]()
圖1|ESM-LRR基于高斯概率分布(μ=0,σ=0.2)為序列片段賦予連續得分,以此來量化給定序列代表真實LRR單元的可能性
基于這一核心突破,研究團隊進一步開發了抗病基因預測框架R-Predictor。該框架整合了ESM-LRR與信號肽、跨膜區、卷曲螺旋等結構域最優檢測工具,能夠同時注釋TKPs、RLKs、RLPs和NLRs等15種不同結構域拓撲類型。不僅能識別典型的抗病基因,還能精準捕獲缺乏典型結構域組合(如缺失或替換)的非典型抗病基因(圖2)。
![]()
圖2|R-Predictor框架
為了驗證R-Predictor的實際應用潛力,研究團隊在擬南芥、水稻、番茄和葡萄等多種代表性植物基因組中開展了全面的性能評估。結果表明,R-Predictor展現出卓越的跨物種通用性和全景式的注釋能力。與現有的主流專一性注釋工具相比,R-Predictor不僅能夠挖掘出更為豐富、完整的抗病基因庫(涵蓋TKPs、各類RLKs、RLPs及NLRs),同時維持了極高的注釋準確率。在基準測試中,該框架注釋RLK和NLR的F1 score分別高達0.89和0.88,為植物抗病基因的全基因組高精度注釋提供了可靠的方法支撐(圖3)。
![]()
圖3|R-Predictor識別與葡萄灰霉病和霜霉病相關的抗病基因
中國農科院農業基因組所博士研究生劉鎮亞、愛爾蘭都柏林大學博士研究生王旭與美國田納西大學博士研究生曹碩為論文共同第一作者,中國熱帶農業科學院周永鋒研究員和墨爾本大學王怡雯助理教授為共同通訊作者。周永鋒團隊其他成員也為本研究做出了重要貢獻。中國熱帶農業科學院陳程杰研究員對這項研究提供了寶貴的指導和幫助。本研究得到國家重點研發計劃及熱帶作物育種相關重點實驗室項目支持。
https://doi.org/10.1093/plphys/kiag276
Github:
https://github.com/zhouyflab/R-Predictor
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.