![]()
編輯丨&
地球上的生命到底編碼了多少種蛋白質?隨著測序技術的飛速發展,我們正以前所未有的速度積累著答案:目前已知的蛋白質序列已超過 190 億條,而地球生物基因組計劃(Earth BioGenome Project)的目標——對180萬個真核物種進行測序——將把這個數字推至 270 億。
聚類——將相似的序列歸為一組——是建設有效組織的核心步驟。通過將相似序列歸入同一簇,可以構建蛋白家族、提取進化信息,并為結構預測等任務提供關鍵輸入。但現有方法,如 CD-HIT 或 MMseqs2 ,在面對跨物種、低相似度的大規模數據時,要么速度無法承受,要么敏感性顯著下降,成為整個流程的計算瓶頸。
來自德國馬克思·普朗克研究所等的團隊帶來了一個突破性的解決方案:DIAMOND DeepClust。它通過級聯聚類架構、多節點并行和創新的線性模式,首次實現了在合理時間內對 190 億條蛋白質序列進行敏感聚類,將數據壓縮至原來的 1/56,并在此過程中發現了超過 1 億個未被現有數據庫覆蓋的新蛋白質家族。
相關研究以「Clustering the protein universe of life using DIAMOND DeepClust」為題,于 2026 年 3 月 24 日發布在《Nature Methods》。
![]()
論文鏈接:https://www.nature.com/articles/s41592-026-03030-z
如何重新定義「聚類」
論文提出的方法名為DIAMOND DeepClust,其本質是一種級聯式(cascaded)的深度聚類算法,建立在高敏感蛋白比對工具 DIAMOND v2 之上。與傳統方法不同,它并不是簡單地做全局聚類,而是通過一個明確的計算流程來壓縮蛋白空間。
![]()
圖1:DIAMOND DeepClust、MMseqs2 和 FLSHclust 聚類性能的基準測試。
算法首先基于序列比對構建一個圖結構,其中每個節點代表一個蛋白序列,邊表示滿足閾值的相似性關系。隨后,通過一種「代表序列機制」,將聚類問題轉化為尋找一組最小覆蓋節點集合,使每個序列都能被某個代表序列覆蓋。
團隊利用雙向覆蓋標準對國家生物技術中心(NCBI)非冗余(NR)數據庫(含約 5.46 億條序列)進行了聚類。DIAMOND DeepClust 在單臺 64 核心服務器上,在 19.0 小時內解決了深度聚類問題,相較于 MMseqs2 快了 36 倍。
為了進一步提升規模能力,DeepClust 引入了多項關鍵優化,包括在種子搜索階段采用multiple spaced seeds 并通過真實比對數據學習其模式,在保證特異性的同時提升敏感性,并通過序列長度排序與覆蓋約束提前剪枝,大幅減少無效比對計算 。此外,算法被設計為可在多節點環境下并行運行,從而突破單機內存與計算限制。
百萬到百億級的跨越
在實驗中,研究團隊對約19億(去冗余后約19.4 billion)蛋白序列進行了聚類分析,并在27個計算節點上完成整個計算流程,總計約25萬CPU小時。
![]()
圖 2:DIAMOND DeepClust 在現有數據庫中對蛋白質群集的特征分析。
結果顯示,這些序列被組織為約17億個聚類,其中僅544百萬個非單元素簇就覆蓋了約94%的序列空間,表明蛋白宇宙可以被大幅壓縮為更小的代表集合 。進一步分析表明,僅約3.35億代表序列即可覆蓋92%的蛋白序列
團隊利用雙向覆蓋標準對國家生物技術中心(NCBI)非冗余(NR)數據庫(含約 5.46 億條序列)進行了聚類。DIAMOND DeepClust 在單臺 64 核心服務器上,在 19.0 小時內解決了深度聚類問題,相較于 MMseqs2 快了 36 倍。
在線性模式下,DIAMOND DeepClust 的線性模式運行時間為 3.9 小時,計算速度可進一步提升至百倍量級,同時仍維持可用的敏感性水平。
更重要的發現來自聚類結果本身。研究顯示,大規模聚類后可以識別出大量此前未被數據庫覆蓋的蛋白家族。例如,在與現有數據庫對比中,約有1.18 億個蛋白簇無法映射到已有資源,提示存在大量「未知蛋白空間」。
與此同時,這一聚類數據庫還可以直接提升結構預測性能。當將DeepClust生成的數據用于 AlphaFold2 的輸入時,可以為低覆蓋序列提供更豐富的進化信息,從而改善預測質量 。這說明聚類不僅是壓縮工具,更是下游 AI 模型性能的關鍵基礎。
蛋白組學的「底層重建」
DeepClust 為未來打開了諸多可能。它能支持地球生物基因組計劃,促進 AI 驅動的結構生物學,還可以催化比較基因組學。該算法通過對算法架構、并行策略和計算資源進行極致優化,將已有技術的邊界推向了前所未有的遠方。
DeepClust 提供的更大、更敏感的聚類數據庫,有望成為下一代結構預測模型的「燃料」。當數萬億條序列即將涌入科學家的硬盤時,這樣的工具正是當下迫切需要的基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.