納米孔自適應測序通過Read Until功能能夠在DNA分子穿過納米孔時實時判斷并選擇性保留或排出目標分子,從而實現病原體富集或宿主背景去除。然而,現有的基于序列比對的方法計算量大、內存消耗高,難以在便攜設備上運行;而基于深度學習的監督模型則需要使用特定物種的標注信號數據進行訓練,一旦遇到未知病原體或測序芯片版本更新,模型就必須重新訓練,極大限制了其泛化能力和實用性。因此,開發一種不依賴實驗訓練數據、能夠僅憑參考基因組即可工作的通用分類方法,成為推動自適應測序技術廣泛應用的關鍵。
為了解決這些問題,2026年6月3日,東北師范大學任子林,軍事醫學科學院倪銘合作在《自然·通訊》上發表了一項題為“Genome-guided generative adversarial learning enables nanopore adaptive sequencing”的研究。研究團隊開發了一種名為GANBase的基因組引導無監督生成對抗學習框架,該框架完全不依賴真實的測序信號數據,僅使用參考基因組序列即可訓練出高效的實時分類器,從而在多種場景下實現目標富集和宿主去除。
![]()
在本研究中,作者提出了GANBase的無監督學習框架。它的核心思路是只依賴參考基因組序列來訓練,完全不需要真實的測序信號數據。這個框架包含一個生成器和一個判別器。生成器用LSTM網絡模擬產生目標物種的DNA序列,判別器用Transformer編碼器來判斷輸入的序列是來自真實參考基因組還是生成器偽造的。通過這種對抗訓練,判別器學會了目標序列的分布特征。但這里有個難點,DNA序列是離散的,傳統的GAN無法直接對離散輸出做梯度回傳。作者引入了基于蒙特卡洛樹搜索的Rollout策略,讓生成器在生成每個堿基時,通過模擬后續可能路徑來估算獎勵值,從而實現了對離散序列的有效訓練。在實際使用中,用戶只需要下載目標物種的參考基因組,就可以訓練出對應的分類器。測序時,實時讀取的電信號通過ONT官方的Basecaller(比如Bonito)轉換成堿基序列,然后送入GANBase的判別器判斷是否為目標。如果判斷是宿主或非目標分子,就觸發Read Until機制將其排出。
接下來看實驗結果。作者首先在八種微生物組成的Zymo模擬菌群數據上驗證了GANBase的富集能力。對每個物種單獨訓練一個二分類器,結果顯示GANBase的ROC-AUC中位數超過0.7,召回率在82%到93%之間,與Minimap2沒有顯著差異,但速度快了大約30倍,每讀僅需0.47毫秒。在人類宿主去除任務中,作者將GANBase與NanoDeep、SquiggleNet、DeepSelectNet三種監督學習模型進行了比較。用人類參考基因組訓練的GANBase在準確率、精確率、特異性、速度和模擬富集比上全面優于其他方法。而且當把人類個體換成不同的來源(NA12878和NA24385),或者把病原體換成SARS-CoV-1、埃博拉病毒、噬菌體時,GANBase的ROC-AUC依然保持在88.9%以上,富集比接近理論最大值2。這說明它對個體差異和不同病原體都有很好的泛化能力。
![]()
作者還測試了非人類宿主,比如蚊子、小鼠、蜱蟲、果蠅,分別針對寨卡病毒、鼠疫耶爾森菌、克里米亞-剛果出血熱病毒等組合。雖然蜱蟲數據集的分類AUC稍低,但特異性高達99.92%,富集比仍然達到1.56到1.96,說明能有效去除宿主背景。為了解釋模型學到了什么,作者做了t-SNE可視化,發現目標和非目標序列在嵌入空間中被明顯區分開。進一步的k-mer基序分析顯示,被分類為人類的序列A/T比例約為59.9%,與實際人類基因組一致;而被分類為非人類的序列A/T比例約49.9%,也符合微生物基因組的特征,表明模型學到了有生物學意義的序列模式。
最關鍵的驗證是真實的自適應測序實驗。作者用混合了人類DNA和Zymo微生物DNA的樣本,分別在R9.4.1和R10.4.1兩種流控芯片上運行。在R9芯片上,先運行SquiggleNet三小時,然后同一張芯片上再運行GANBase三小時。盡管此時活性納米孔已經減少了41%,GANBase仍然在所有三個混合比例下都取得了比SquiggleNet更高的富集比、召回率和精確率。在R10芯片上,差距進一步拉大:GANBase的富集比達到1.98到6.97倍,而SquiggleNet的富集比反而跌到1以下,即完全失效。這是因為SquiggleNet只在R9數據上訓練過,無法適應R10的信號特征。而GANBase依靠參考基因組訓練,并且使用了支持新芯片的Bonito basecaller,因此不受芯片版本限制。
READING
BioPeers
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.