網易首頁 > 網易號 > 正文 申請入駐

Science | 細菌比我們想的更“記仇”:AI發現85%的抗病毒武器從未被描述

0
分享至

細菌跟噬菌體打了三十多億年的仗,怎么可能就靠這兩百來種武器?事實是,每次有人認真去篩,總能發現新東西。最近一篇發表在Science上的工作干脆用深度學習把這個問題推到了極限,他們訓練了三個互補模型,在3.2萬個細菌基因組里掃了一遍,預測出超過2百萬個抗噬菌體蛋白,其中85%以上的蛋白家族從未被任何研究關聯到免疫上。


換句話說,我們對細菌免疫的了解,可能只是冰山浮出水面的那一小塊。

研究背景與目的

抗噬菌體防御系統有個讓人頭疼的特點:它們不怎么保守。不同細菌對付同一種病毒,可能拿出完全不同的蛋白質零件。這種多樣性一方面說明自然界解決問題的方案遠比實驗室里看到的豐富,另一方面也讓傳統的“靠同源性找基因”的方法頻頻失靈。

過去十年,研究者發現了一個規律:防御系統喜歡扎堆出現在基因組的特定區域,叫“防御島”。這就催生了一種“連帶定罪”策略:如果一個基因經常出現在已知防御基因旁邊,那它很可能也有防御功能。這個方法確實管用,過去五六年發現的系統大多靠這個思路。

但它的局限也很明顯:只認熟面孔附近的人,對那些單打獨斗或者藏在病毒基因組里的防御系統,基本抓瞎。而且它需要一個蛋白家族至少有5個同源序列才能算,直接把大量“孤兒蛋白”排除在外。所以這篇文章的作者換了個思路:不靠規則,靠模式識別。

三款模型,三種視角

他們搞了三套深度學習模型,每一套的“偏見”不一樣。


第一個叫ALBERTDF,是個基因組語言模型。你可以把它想象成一個學會了細菌“語法”的模型,給它看一段連續64個基因的序列,它要預測中間缺了哪個基因。訓練完之后,再拿它去判斷一個基因出現在某個上下文里是不是“可疑”(也就是像不像防御基因)。這個模型的優點是不看序列,所以哪怕一個蛋白長得跟所有已知防御系統都不像,只要它總出現在防御島里,模型就能抓到。缺點是詞匯量太大,整個細菌界的蛋白家族有800多萬個,模型根本裝不下,所以他們只在一個門(放線菌門)上跑了這個實驗。結果在10個預測的系統里驗證了6個,全是之前沒人知道有抗噬菌體功能的。

第二個叫ESMDF,思路完全反過來。它用的是蛋白語言模型ESM2,輸入是一串氨基酸,輸出是這個蛋白“像不像防御蛋白”。這種模型天然能捕捉遠程同源關系,兩個蛋白序列相似度很低,但三維結構或功能域有共性,ESM也能感受到。他們拿32萬個基因組里的已知防御系統做正樣本,拿核心看家基因和移動元件里的非防御基因做負樣本,然后把模型微調成二分類器。650M參數的大版本在測試集上表現不錯,尤其讓人意外的是,哪怕那些在訓練集里幾乎沒出現過的防御亞型(比如某些罕見的逆轉錄子),模型也給打了高分。

但最厲害的是第三個,GeneCLRDF。它是個雙通道模型,同時看兩樣東西:一個通道讀蛋白的氨基酸序列(用ESM-35M的預訓練嵌入),另一個通道讀這個蛋白周圍的64個基因的上下文。訓練目標很巧妙:讓模型學會把同一個蛋白的“序列視圖”和“上下文視圖”拉近,把不同蛋白的視圖推開。換句話說,模型被教會了一件事:一個蛋白長什么樣,應該跟它住在基因組哪個位置是一致的。

這個設計的好處顯而易見:如果一個蛋白的序列看起來不像任何已知防御系統,但它的鄰居全是防御基因,模型就能通過上下文通道給它打高分;反過來,如果一個蛋白的序列特征很像防御蛋白,但被塞進了一個看家基因的上下文里,模型也不會輕易上當。在測試集上,GeneCLRDF做到了99%的精確率和92%的召回率,這意味著每100個被標記為“防御蛋白”的基因里,只有1個是假陽性;而所有真正的防御蛋白里,它能抓住92%。

驗證:六個新系統從紙上走進培養皿

兩輪實驗驗證了20個候選系統,其中12個具有真實的抗噬菌體功能。


第一輪在放線菌中測試ALBERTDF的預測:10個候選里有6個有效,在Streptomyces albus中表達后使噬菌斑下降超過100倍。研究者給它們取了Ceres、Ukko等名字,其中既有帶核酸酶結構域的蛋白,也有僅幾十個氨基酸、功能完全未知的小蛋白。

第二輪在大腸桿菌中測試ESM-650MDF的預測:同樣是10個候選6個有效,包括一個攜帶DUF7946結構域的系統,沒有任何已知防御同源物,卻能同時抵抗長尾、肌尾、短尾三類噬菌體。

這些結果證明,模型學到的不是統計噪音,而是可實驗復現的真實生物學功能。

全景圖:1.5%的基因組,85%的未知家族

將GeneCLRDF應用于3.2萬個細菌基因組后,繪制出一張全新的免疫地圖。此前估計細菌約0.46%的基因為防御相關,新模型將這一比例拉高至1.53%,整整三倍。

多樣性更為驚人:三個模型共預測61.5萬個防御相關蛋白家族,其中93%僅能被GeneCLRDF識別。超過40萬個家族沒有任何Pfam結構域注釋,連功能猜測都無從下手,是真正的“暗物質”。操作子層面,2.3萬個家族中超一半與任何已知防御系統無關。


此外,新預測顯示防御系統與可移動遺傳元件的關聯更強(23.5% vs 之前的17.7%),約25%的整合子基因被標記為防御相關——細菌免疫系統是一個動態、流動的網絡,而非靜態防線。

總結

這項工作的價值不在于刷了幾個深度學習模型的分數,而在于它把“我們不知道細菌免疫到底有多復雜”這件事變成了一個可度量的、可操作的問題。61萬個蛋白家族、2.3萬個操作子家族、1.5%的基因組占比。這些數字給了一個明確的信號:過去三十年我們描述的那些系統,可能只是冰山浮出水面的尖尖。

當然,預測歸預測。一個基因被模型打了高分,不代表它一定就是抗噬菌體的;即便它是,也不代表我們知道了它的機制。接下來要做的,是從這幾十萬個候選里挑出有意思的,一個個拿到實驗室里去驗證、去拆解、去搞清楚它到底怎么工作。

好在作者把一切都開源了:分數、操作子家族、交互式圖譜,全部掛在DefenseFinder網站上。你不需要會寫代碼,也不需要懂深度學習,只要有一個感興趣的基因組或者一個好奇的結構域,就可以去里面翻一翻,說不定下一個被命名的防御系統就藏在里面。

來源:Mordret E, Hervé A, et al. Protein and genomic language models uncover the unexplored diversity of bacterial immunity. Science. 2026 Apr 2;392(6793):eadv8275. doi: 10.1126/science.adv8275.


主編微信

注:添加微信請備注昵稱+單位+研究

微信學科討論群:病毒學群,神經科學群、臨床醫學、腫瘤學科群、碩博交流群和醫藥投資交流群(微信群審核要求較高,請各位添加主編后主動備注單位研究方向)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方呼吁防止AI成為少數富國的游戲

中方呼吁防止AI成為少數富國的游戲

界面新聞
2026-05-06 13:59:39
中美正考慮啟動有關人工智能的官方討論?外交部回應

中美正考慮啟動有關人工智能的官方討論?外交部回應

澎湃新聞
2026-05-07 14:36:32
林詩棟:我一直在研究不犯規的發球,無論是高度還是遮擋

林詩棟:我一直在研究不犯規的發球,無論是高度還是遮擋

懂球帝
2026-05-06 22:34:08
外交部:中美雙方就特朗普總統訪華保持著溝通

外交部:中美雙方就特朗普總統訪華保持著溝通

新京報
2026-05-07 14:47:06
女子在四川華鎣瑪琉巖體驗瀑布秋千遇難,專業人士分析:放行掛鉤被提前松開

女子在四川華鎣瑪琉巖體驗瀑布秋千遇難,專業人士分析:放行掛鉤被提前松開

瀟湘晨報
2026-05-07 17:08:53
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
豆包,你這么垃圾,怎么好意思收費?

豆包,你這么垃圾,怎么好意思收費?

崇曉視界
2026-05-04 17:24:53
堅守油車的理由是啥?網友分享太真實了,但很多人不買賬!

堅守油車的理由是啥?網友分享太真實了,但很多人不買賬!

夜深愛雜談
2026-05-06 20:49:01
朝鮮援俄傷亡數據曝光,1.4萬精銳傷亡過半,紀念墻畫面慘烈

朝鮮援俄傷亡數據曝光,1.4萬精銳傷亡過半,紀念墻畫面慘烈

番外行
2026-05-04 14:47:50
杜鋒不再隱瞞!賽后回應廣東男籃輸球原因,原來傷病只是冰山一角

杜鋒不再隱瞞!賽后回應廣東男籃輸球原因,原來傷病只是冰山一角

阿纂看事
2026-05-07 16:44:46
可怕!開放性脫臼!比我們想象的還要嚴重啊!

可怕!開放性脫臼!比我們想象的還要嚴重?。?/a>

柚子說球
2026-05-06 23:15:23
華人注意:在新西蘭把這些倒進下水道,后果很嚴重!

華人注意:在新西蘭把這些倒進下水道,后果很嚴重!

發現新西蘭
2026-05-07 13:01:40
互聯網是有記憶的,她的黑歷史一大堆啊!

BenSir本色說
2026-04-15 22:38:07

老人財產轉給獨生子女:3個最佳時間,早知道少走彎路

老人財產轉給獨生子女:3個最佳時間,早知道少走彎路

小鹿姐姐情感說
2026-05-05 10:43:52
印尼倒向日本,讓日本人很高興,但是走得讓中國有點心寒

印尼倒向日本,讓日本人很高興,但是走得讓中國有點心寒

史智文道
2026-05-06 19:48:00
岳陽摩托車飆車后續,現場慘不忍睹2老人當場死亡,肇事者是慣犯

岳陽摩托車飆車后續,現場慘不忍睹2老人當場死亡,肇事者是慣犯

觀察鑒娛
2026-05-07 09:50:00
出事了,莫斯科遇襲,口頭?;鸪煽照?,烏幫手就位,普京下令撤僑

出事了,莫斯科遇襲,口頭?;鸪煽照劊瑸鯉褪志臀?,普京下令撤僑

黑鷹觀軍事
2026-05-07 16:07:18
奧運冠軍諶龍、陳若琳、昌雅妮、隋文靜等,擬獲評國家級教練職稱

奧運冠軍諶龍、陳若琳、昌雅妮、隋文靜等,擬獲評國家級教練職稱

新浪財經
2026-05-07 16:50:58
尷尬!家長因孩子膝蓋磕破責怪老師被回懟,“是五一假期磕破的”

尷尬!家長因孩子膝蓋磕破責怪老師被回懟,“是五一假期磕破的”

火山詩話
2026-05-06 06:39:14
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
2026-05-07 17:40:49
生命科學前沿 incentive-icons
生命科學前沿
生命科學前沿 主編
1032文章數 4459關注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

周喜安被判死緩:在兩省共受賄過億 被指學術成就豐富

頭條要聞

周喜安被判死緩:在兩省共受賄過億 被指學術成就豐富

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發生了

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

金融“風暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發

態度原創

房產
時尚
教育
本地
手機

房產要聞

負債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

教育要聞

武漢學院:復試第一!擁有5萬粉絲的她跨專業考研新傳成功!

本地新聞

用青花瓷的方式,打開西溪濕地

手機要聞

三星手機中國正常銷售背后:去年投放13款機型 銷量至少百萬

無障礙瀏覽 進入關懷版