泛基因組正在徹底改變人們解析復雜變異基因組區域的能力。然而,現有的人類泛基因組受到小樣本量的限制,為醫學和群體遺傳學應用提供了有限的效用。
2026年4月1日,西湖大學楊劍、溫州醫科大學沈賢共同通訊在Nature在線發表題為“The 1000 Chinese Pangenome empowers medical and population genetics”的研究論文。該研究基于1116名中國個體的高質量二倍體基因組組裝,構建了首個大規模中國人群泛基因組圖譜,系統揭示了此前未發現的遺傳多樣性,為精準醫學和群體遺傳學研究提供了關鍵數據資源。
![]()
自從第一個人類參考基因組發布以來,了解人類基因組的多樣性已經成為一項對人類健康和生物學具有深遠影響的基本任務。短閱讀測序成本的大幅降低使得對數百萬人類基因組的測序成為可能,這揭示了對推進基因組研究和相關應用至關重要的大量遺傳變異。然而,盡管短閱讀測序對于檢測小變異體是有效的,例如單核苷酸變異體(SNVs)和小插入和缺失(indels),但它在識別更大和更復雜的變異體(例如SVs和TRs)方面具有局限性。
長閱讀測序技術和組裝算法的最新進展使得高質量二倍體基因組組裝體的產生成為可能,這提供了復雜變異體的更全面的視圖,并增強了對其形成機制和功能結果的理解。為了有效地將人群中所有的遺傳變異整合到一個統一的框架中,研究人員轉向了泛基因組的概念。泛基因組是指一個群體中基因組序列的集合,通常由多個個體的二倍體組裝而成。人類泛基因組參考聯盟(HPRC)和中國泛基因組聯盟(CPC)最近的努力證明了泛基因組在解析人類基因組的結構差異區域方面的潛力。然而,目前人類全基因組相對較小的樣本量對其更廣泛的應用提出了挑戰。
![]()
1116個二倍體基因組組件的評估和注釋(圖源自Nature)
在這里,作為1000個中國泛基因組(1KCP)項目的一部分,研究人員生成了1,116個二倍體基因組裝配體(55個從頭合成,1,061個泛基因組形成),平均大小為2.98 Gb,平均質量值為46。在這些裝配的基礎上,構建了一個泛基因組,包含4.053億個堿基對的序列,這些序列在當前的參考文獻GRCh38和CHM13中不存在,包括2620萬個堿基對的功能基因和預測的調控元件。還編制了一個完整的遺傳變異譜,包括3540萬個小變異,110,530個結構變異(SV),485,575個串聯重復(TRs)和86萬個嵌入非參考序列的嵌套變異。這個廣泛的數據集能夠詳細描述與醫學遺傳學相關的多尺度基因變異,包括基因改變SVs、TR擴增、基因簇變異和HLA基因單倍型。
結合1KCP基因表達數據,進行了泛變異表達數量性狀位點(eQTL)作圖,以分析不同的變異類型。確定了3,256個涉及復雜變異體(SV,TRs和嵌套變異體)的eQTLs,并闡明了它們的調控復雜性。最后,開發了一個1KCP泛變異插補參考面板,它提供了多種類型的遺傳標記來提高未來關聯研究的分辨率。這種資源推進了人們對復雜變體及其功能含義的理解,為人類健康提供了新的見解。
西湖大學生命科學學院博士研究生王逸飛、助理研究員段忠取博士為本文的共同第一作者,楊劍教授為最后通訊作者。本研究得到了國家自然科學基金、國家重點研發計劃、浙江省“尖兵”“領雁”研發攻關計劃項目以及新基石科學基金會的經費支持。同時感謝西湖大學高性能計算中心對本研究的大力支持。
參考消息:
https://www.nature.com/articles/s41586-026-10315-y
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.