作者:奶樹
編輯:蝌蚪
過去一兩年的時間里,以大語言模型(LLM)為代表的人工智能(AI)技術無疑是最受公眾關注的話題。尤其涉及到美國對英偉達等芯片企業出口中國的限制,已然打響了又一輪無聲的“冷戰”。
在另一塊生物科技的“戰場”,中美雙方出現了新的矛盾:美國總統拜登簽署了《關于防止關注國家(countries of concerns)批量獲取美國個人及政府敏感信息的行政令》,“關注國家”自然包括中國,而敏感信息之一,則是人類基因組信息。
這個矛盾在剛剛過去的美國時間3月6日達到了“高潮”——美國參議院國土安全與政府事務委員會近日召開聽證會,以11比1的同意票數通過了參議院版的“生物安全法案”草案,目的在于禁止美國聯邦政府與某些與外國競爭對手有聯系的生物技術提供商簽訂合同。被“點名”的中國企業包括華大系、藥明系等。
事實上,這并不是國家之間首次限制彼此人類基因組信息的交流,2019年,我國出臺了《中華人民共和國人類遺傳資源管理條例》,并在其中多項條款規定限制外國對中國人類遺傳數據的使用。
對于大多數公眾來說,可能沒那么容易理解:基因組數據,至于要這么嚴格嗎?國家與國家之間,真的有必要相互封鎖嗎?
20多年前的約定
這個故事可能得從28年前的一場會議講起。
1996年,參與人類基因組計劃(Human Genome Project,HGP)的科研人員齊聚大西洋上的百慕大島嶼,共同商量一件過去科學家從來沒有想過的事情:基因組數據要怎么共享?
人類基因組計劃歷史 | 圖源:Microbe Notes
在上個世紀,生物學實驗相對簡單,不論結果再怎么多,往往一張表格就能放下。但是基因組測序不同,以最簡單的病毒、細菌、酵母或古菌為例,它們的基因組不大,但是打印出來少說也得幾十甚至上千頁。
而彼時已經開展了6年的人類基因組計劃,預計有3000000000個堿基,倘若發表出來,就是一本寫滿ATCG的超級大詞典。這在過去的生物研究歷史中,聞所未聞。
而且寫出來也看不懂
當時的人類基因組計劃是一項世界級的工程,來自美國、英國、法國、中國的科學家需要分工協作。只有及時更新數據庫,大家才能第一時間知道項目的進展。其他科學家也能盡快根據自己感興趣的內容,開展相關的研究。
基于此,這些科學家最終達成了一個即便放在今天,都是令人震撼和感慨的共識:數據產生的24小時內,就要分享到數據庫讓全世界看到,而且是完全免費開放。
2003年,隨著人類基因組計劃的初步完成與基因組數據的增多,新的“勞德代爾堡協議”達成,在過去“百慕大原則”的基礎上,進一步支持了合作項目間基因組數據的及時分享,并構建了一個更完善的責任制度,更好地支持基因組數據的產生與使用。二者被認為是基因組數據開放使用的開端,也深深影響了后來二十年間基因組研究的數據共享方式。
得益于“即時共享”的核心思想,本來預計需要15年完成的人類基因組計劃,整整提前了四年。時至今日,世界主流的幾個基因組數據庫,例如美國的國家生物技術信息中心(NCBI)、英國的生物銀行(UK BioBank),以及中國的國家基因組科學數據中心,都包含了成百上千萬的人類基因組信息,以及百萬物種的基因組數據。而且這些信息的訪問和獲取全部免費。
中國國家基因組科學數據中心的GSA數據2016年成立,短短幾年間數據量就是指數級的增長 | 圖源:Chen T,et al.
于是,一家單位發布了基因組,另一家單位就能快速下載下來,并在前人的基礎上補充更豐富的分析,或者添加更具體的實驗。基因組學,甚至說生物學的大廈,就是通過這種數據開放的方式在這20年里一磚一瓦搭建起來的。
基因組的發表已經大不相同
但隨著數據的增多,科研人員相互之間的競爭也越發激烈,基因組數據的發表方式逐漸發生了變化:
首先,考慮到文章發表的時效性,以及與其他研究者的沖突,第一時間給世界共享數據在今天已經很少見了,作者至少要確保自己的文章和成果成功發表,才會在數據庫上傳數據。
其次,很多大型的基因組數據不會簡單釋放開來,你想要使用的時候需要給負責人提交申請,而每一家負責單位對申請的考核標準都不一樣,很可能因為各種原因遭受拒絕。
另外,伴隨著測序費用的降低,基因組原始文件越來越大,個別單個大項目的數據已經不是以GB、TB為單位,而是以更高的PB為單位了(1024個TB)。研究人員為了“省事”,更樂意上傳一些中間文件數據,甚至只上傳部分他們覺得有必要的數據。至于其他原始數據和細節,你就得單獨想辦法去要了。
“共享遺傳信息”的做法曾加速生命科學的發展,但隨更多社會、政治等因素的介入,也不得不被踩下剎車。尤其到了最近幾年,國家開始干預基因組數據的分享,例如前面提及的美國、中國頒布的一系列法案條規。
國內人類遺傳數據對外提供申請的流程
如今在中國,一份人類遺傳學數據的產生到發布,你需要經歷:項目申請的審批,采樣前的審批,國外研究人員合作的審批(如有),數據提交的審批與備份……通過這樣一系列的過程,你的數據才能被“半公開”。海外科學家想要使用的話,需要向中國數據庫提交申請,獲批后方能獲取。
美國則是提出了一套更有“針對性”和“目的性”的法案——特定國家的科學家不能隨意使用其人類基因組信息。當然,是否執行、以及未來會如何執行,可能都還是未知數。
基因組泄露關鍵的問題在于個人安全
為什么國家要下場干預基因組數據的共享與開放?原本透明、公開、開放的信息體系不好嗎?一同搭建全人類的生物學研究“大廈”不好嗎?
美國政府官網是這樣說的:
總統的行政命令重點保護美國人最私密和最敏感的個人信息,包括基因組數據、生物特征數據、個人健康數據、地理位置數據、財務數據和某些類別的個人身份信息。不良行為者可以利用這些數據追蹤美國人(包括軍事人員),窺探他們的個人生活,并將這些數據傳給其他數據經紀人和外國情報機構。這些數據可能導致侵入性監視、詐騙、勒索和其他侵犯隱私的行為。
中國的《人類遺傳資源管理條例》第二十八條則是這樣說的:
二十八條 將人類遺傳資源信息向外國組織、個人及其設立或者實際控制的機構提供或者開放使用,不得危害我國公眾健康、國家安全和社會公共利益;可能影響我國公眾健康、國家安全和社會公共利益的,應當通過國務院科學技術行政部門組織的安全審查。
不難看出,雙方共同的關注重點在于個人/公眾安全。
這里的安全涉及到很多方面,最直接的問題是隱私安全問題。這也是我們每個人需要關注的問題——不論國家封不封鎖,我們都應該注重個人的基因組隱私,畢竟這可能比指紋或者面容信息都要重要。
可以想象一下,如果你的身高、體重、三圍和疾病史,在你不知情時,被千里之外一個奇怪的實驗室拿來研究、發表文章、被公開給全世界,甚至創造一個和你一樣的克隆人……這還是非常駭人聽聞的。
雖然科研人員在發表數據時會專門隱去志愿者的具體姓名信息,但從技術層面看,基于基因組溯源到個人身份信息是可行的,有一項研究就曾利用千人基因組項目的數據和網絡信息,找到了其中50個人的名字。
因此對數據庫設定層層訪問審查,保證提供數據的志愿者的全面知情同意,也都是必須的。
基因組數據產生與后續分析的基本流程,從樣本、比對、測序、數據釋放,每一步都有可能發生隱私泄露的風險
而另一個大家普遍擔心的問題,是人身安全,換言之則是生物武器的可能性,更具體點是基因武器。
小說《三體》里展示了這樣的一種技術:主角羅輯為了保護自己,藏身于軍方的地下基地,但卻還是被敵人設計的,專門只感染他的致命病毒感染,差點喪命。這樣的劇情在今天,可能實現嗎?
除了同卵雙胞胎,任意兩個人的基因組都是不一樣的,平均差異大約是0.1%,對于擁有30億個堿基的人類基因組來說,那就是300萬個堿基,這不是一個小數目。
即便是一個堿基的差異,都可能為生物武器提供“機會”。而如今伴隨著生物合成技術和生物信息分析方法的快速發展,一方面從頭合成制造病毒、支原體、細菌、酵母已經紛紛實現,另一方面AI設計、輔助生產特定蛋白質,基因組快速比對也已經是科研上的常規操作——二者一結合,小說里的情節就能照進現實。
這也是美國、中國急于頒布相關法規的原因之一了。而限制生物數據的訪問,以保護隱私與放權的做法,必然是未來的趨勢。
100%的“遺傳封鎖”并不可取
但是我們也不難發現,其實各國的“封鎖”并不是一種100%的限制,而是受控訪問。比如中國的《人類遺傳資源管理條例》強調的是加強監管,美國近期的法案草案也沒有完全限制中國全部科研單位。
因為相比20年前“人類基因組計劃”時期,今天數據產生的速度、技術迭代更新的速度都今非昔比,大量的數據產生、大量生物醫學問題得以解析——此時不能,也完全不應該限制不同國家科研人員之間的數據訪問。任何一方的限制,從科學研究與技術發展的角度考慮,都會成為極大的阻礙。
與之相應的是科學問題對數據的“如饑似渴”——人類基因組研究最常見的全基因組關聯分析(GWAS),動輒就需要上萬人的基因組數據,其產生、分析與數據存儲成本以“億元”為單位;人類疾病的診療往往涉及大量潛在的基因突變位點,想要研究清楚也需要海量數據的支持;而在未來想要實現個性化的精準醫療,對于個人的基因組分析也是必不可少的……
GWAS的分析原理是基于大樣本量的基因組比較,從30億個堿基位點里篩選出與某個表型性狀有關的基因,這就要求有足夠的樣本量結果才具有意義
面對這些問題,最有效、最具性價比的方式,就是展開合作與數據共享。因此,如何在“開放數據、促進科研”和“保護隱私、保護個人安全”之間取得平衡,就是如今生物醫學研究者繼續探討的問題。過去的“百慕大原則”與“勞德代爾堡協議”已經有些過時,我們需要一套更符合當下的制度。
但這也是一個涉及科學、倫理、道德、法律、政治、國家、社會、個人的復雜問題,單靠某個國家的政策其實并非長久之計。一方面需要各國各行各業的人們坐下來一起協商,像過去一同約定禁止生物武器一樣,通過一致的協定盡可能地規避基因組研究帶來的生物風險;另一方面,還應該進一步完善統一的審核與開放使用標準,提高數據的加密算法,讓研究者能以最快且最安全的方式開展科學研究。
令人振奮的是,已經有不少科研人員在嘗試這一方面的努力:2013年成立的全球基因組學與健康聯盟就在嘗試聯合全世界的基因組數據庫,讓數據共享的規定達成一致;不少國家的研究者也開發了多種加密算法,比如同態加密等方法,確保數據的安全和可用性……
未來的數據是共享還是封鎖?科學與技術的發展,社會與規定的完善,會給出答案。
參考資料:
●Powell K. The broken promise that undermines human genome research[J]. Nature, 2021, 590(7845): 198-202.
●Wang S, Jiang X, Singh S, et al. Genome privacy: challenges, technical approaches to mitigate risk, and ethical considerations in the United States[J]. Annals of the New York Academy of Sciences, 2017, 1387(1): 73-83.
●Chen T, Chen X, Zhang S, et al. The genome sequence archive family: toward explosive data growth and diverse data types[J]. Genomics, Proteomics and Bioinformatics, 2021, 19(4): 578-583.
●缺乏數據使用指導原則,基因組數據共享遇阻. 中國科學報
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.