撰文丨王聰
編輯丨王多魚
排版丨水成文
在生物醫(yī)學(xué)研究領(lǐng)域,科學(xué)家們一直夢(mèng)想能擁有一個(gè)“虛擬細(xì)胞”(Virtual Cell)——一個(gè)可以像計(jì)算機(jī)模擬天氣一樣,精準(zhǔn)模擬真實(shí)細(xì)胞狀態(tài)、并能預(yù)測(cè)細(xì)胞在藥物或基因擾動(dòng)下如何反應(yīng)的數(shù)字模型。如今,這個(gè)夢(mèng)想正被人工智能(AI)推向現(xiàn)實(shí)。
對(duì)細(xì)胞狀態(tài)進(jìn)行建模并預(yù)測(cè)其對(duì)干擾的反應(yīng),是計(jì)算生物學(xué)和虛擬細(xì)胞開發(fā)中的核心挑戰(zhàn)。現(xiàn)有的單細(xì)胞轉(zhuǎn)錄組學(xué)基礎(chǔ)模型提供了強(qiáng)大的靜態(tài)表示,但它們并未明確地對(duì)細(xì)胞狀態(tài)的分布進(jìn)行建模以用于生成模擬。
近日,阿里達(dá)摩院的研究團(tuán)隊(duì)在預(yù)印本平臺(tái) arXiv 上發(fā)布了題為:Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells 的研究論文。
該研究發(fā)布了生成式細(xì)胞世界模型——靈樞細(xì)胞(Lingshu-Cell),該模型能夠以前所未有的精度模擬細(xì)胞的轉(zhuǎn)錄組狀態(tài),并預(yù)測(cè)細(xì)胞在面對(duì)遺傳改變(例如基因擾動(dòng))或外界刺激(例如細(xì)胞因子藥物)時(shí)的整體反應(yīng),為藥物研發(fā)、疾病機(jī)制研究和個(gè)性化醫(yī)療打開了新大門。這項(xiàng)工作突破了靜態(tài)表征學(xué)習(xí),朝著細(xì)胞狀態(tài)分布和擾動(dòng)響應(yīng)的生成式建模邁進(jìn)了一步,向虛擬細(xì)胞邁進(jìn)了重要一步。
![]()
靈樞細(xì)胞的亮點(diǎn)——
提出了一種基于掩碼離散擴(kuò)散框架的單細(xì)胞轉(zhuǎn)錄組學(xué)生成式細(xì)胞世界模型。
可直接在與單細(xì)胞 RNA 測(cè)序數(shù)據(jù)的稀疏性和非連續(xù)性相兼容的離散標(biāo)記空間中對(duì)約 18000 個(gè)基因進(jìn)行全轉(zhuǎn)錄組建模,無(wú)需事先選擇基因。
在不同組織和物種中能夠準(zhǔn)確捕捉細(xì)胞狀態(tài)分布、標(biāo)記基因表達(dá)模式和細(xì)胞亞型比例。
在預(yù)測(cè)基因和細(xì)胞因子擾動(dòng)下的細(xì)胞反應(yīng)方面也表現(xiàn)出色。
從“拍照存檔”到“動(dòng)態(tài)模擬”:?jiǎn)渭?xì)胞研究的范式轉(zhuǎn)變
過(guò)去十年,單細(xì)胞 RNA 測(cè)序技術(shù)讓我們能夠以前所未有的分辨率窺見(jiàn)生命的基本單元——細(xì)胞內(nèi)部的基因活動(dòng)圖譜。然而,現(xiàn)有的分析方法大多停留在“拍照存檔”和分類描述的階段,缺乏預(yù)測(cè)和動(dòng)態(tài)模擬的能力。
傳統(tǒng)的 AI 模型,例如 scGPT、Geneformer 等,雖然能學(xué)習(xí)細(xì)胞的靜態(tài)特征,但無(wú)法生成新的、逼真的細(xì)胞狀態(tài),更難以預(yù)測(cè)“如果對(duì)細(xì)胞進(jìn)行某種操作,它會(huì)變成什么樣”。而一些生成模型,又受限于其連續(xù)數(shù)據(jù)的假設(shè),與單細(xì)胞數(shù)據(jù)本身稀疏、離散的特性不匹配,效果大打折扣。
該研究推出的靈樞細(xì)胞(Lingshu-Cell)的核心突破,在于它找到了一條更貼合生物學(xué)數(shù)據(jù)本質(zhì)的技術(shù)路徑。靈樞細(xì)胞是一種用于細(xì)胞狀態(tài)全轉(zhuǎn)錄組生成建模的掩碼離散擴(kuò)散模型。其通過(guò)通過(guò)離散基因表達(dá)詞元的掩碼和預(yù)測(cè)目標(biāo)進(jìn)行訓(xùn)練。這種設(shè)計(jì)能夠?qū)崿F(xiàn)全轉(zhuǎn)錄組譜的非自回歸雙向優(yōu)化,同時(shí)與單細(xì)胞 RNA 測(cè)序數(shù)據(jù)的稀疏性和非序列性相兼容。
技術(shù)核心:掩碼離散擴(kuò)散模型
就像教 AI 玩一個(gè)“基因填空”游戲,研究團(tuán)隊(duì)將單個(gè)細(xì)胞中約 1.8 萬(wàn)個(gè)基因的表達(dá)量(活躍程度)轉(zhuǎn)換成離散的“詞元”(Token)。然后,隨機(jī)遮蓋(掩碼)其中一部分基因,讓 AI 模型根據(jù)上下文去預(yù)測(cè)被遮蓋基因應(yīng)有的表達(dá)水平。通過(guò)海量數(shù)據(jù)的訓(xùn)練,模型逐漸學(xué)會(huì)了細(xì)胞內(nèi)部復(fù)雜的基因調(diào)控網(wǎng)絡(luò)和表達(dá)規(guī)律。
這種“掩碼離散擴(kuò)散模型”(masked discrete diffusion model)架構(gòu),完美契合了單細(xì)胞數(shù)據(jù)沒(méi)有固定順序、高度稀疏的特點(diǎn)。它無(wú)需事先篩選“重要基因”,而是直接在全轉(zhuǎn)錄組層面進(jìn)行建模,從而能更完整、更真實(shí)地捕捉細(xì)胞的異質(zhì)性。
![]()
靈樞細(xì)胞框架概述
兩大核心能力:創(chuàng)造與預(yù)測(cè)
1、高保真“創(chuàng)造”虛擬細(xì)胞
研究團(tuán)隊(duì)在涵蓋人類 8 種組織(包括大腦皮層、心臟、肺)和 4 個(gè)其他物種(小鼠、獼猴、斑馬魚、果蠅)的海量數(shù)據(jù)上測(cè)試了靈樞模型。結(jié)果表明,靈樞模型生成的虛擬細(xì)胞,不僅在整體基因表達(dá)分布上與真實(shí)細(xì)胞高度一致,還能精確復(fù)現(xiàn)不同細(xì)胞類型特有的“標(biāo)記基因”表達(dá)模式,以及各種細(xì)胞亞型的比例。這意味著 AI 模型已經(jīng)學(xué)會(huì)了生命在不同組織和物種中“設(shè)計(jì)”細(xì)胞的基本法則。
2、精準(zhǔn)預(yù)測(cè)細(xì)胞“應(yīng)激反應(yīng)”
更令人興奮的是它的預(yù)測(cè)能力。研究團(tuán)隊(duì)將細(xì)胞類型和擾動(dòng)信息(例如要敲除的基因、或要添加的細(xì)胞因子)作為條件輸入模型,靈樞細(xì)胞便能預(yù)測(cè)出細(xì)胞在擾動(dòng)后的全轉(zhuǎn)錄組表達(dá)變化。
在“虛擬細(xì)胞挑戰(zhàn)賽”的基因擾動(dòng)基準(zhǔn)測(cè)試中,靈樞細(xì)胞在 25 支頂尖團(tuán)隊(duì)中取得了最佳綜合排名,尤其在預(yù)測(cè)表達(dá)變化的絕對(duì)誤差和相關(guān)性上表現(xiàn)最優(yōu)。
在預(yù)測(cè)細(xì)胞因子對(duì)免疫細(xì)胞的影響時(shí),靈樞細(xì)胞同樣表現(xiàn)卓越,它能準(zhǔn)確預(yù)測(cè)不同供體的外周血單核細(xì)胞在 90 種不同細(xì)胞因子刺激下的反應(yīng),為理解免疫應(yīng)答和個(gè)人化用藥提供了強(qiáng)大工具。
![]()
靈樞細(xì)胞準(zhǔn)確預(yù)測(cè)細(xì)胞系對(duì)基因擾動(dòng)的單細(xì)胞轉(zhuǎn)錄組反應(yīng)
![]()
靈樞細(xì)胞準(zhǔn)確預(yù)測(cè)外周血單個(gè)核細(xì)胞(PBMC)對(duì)細(xì)胞因子干擾的單細(xì)胞轉(zhuǎn)錄組反應(yīng)
邁向“虛擬細(xì)胞”時(shí)代:無(wú)限的應(yīng)用想象
靈樞細(xì)胞的成功,標(biāo)志著單細(xì)胞生物學(xué)從“靜態(tài)圖譜”邁向“動(dòng)態(tài)模擬”的關(guān)鍵一步。它作為一個(gè)統(tǒng)一的細(xì)胞世界模型,為未來(lái)的生物醫(yī)學(xué)研究帶來(lái)了革命性的可能性:
加速藥物發(fā)現(xiàn):在計(jì)算機(jī)中大規(guī)模、低成本地模擬藥物對(duì)各類細(xì)胞的影響,快速篩選候選藥物,降低實(shí)驗(yàn)成本和失敗率。
揭示疾病機(jī)制:模擬疾病狀態(tài)下細(xì)胞的異常變化,或預(yù)測(cè)基因突變導(dǎo)致的后果,從而深入理解癌癥、自身免疫病等復(fù)雜疾病的根源。
個(gè)性化醫(yī)療:結(jié)合個(gè)人的細(xì)胞數(shù)據(jù),預(yù)測(cè)其對(duì)特定治療方案的反應(yīng),實(shí)現(xiàn)真正的精準(zhǔn)醫(yī)療。
“靈樞”一詞,源自中醫(yī)經(jīng)典《黃帝內(nèi)經(jīng)》,意指生命活動(dòng)的關(guān)鍵與樞紐。達(dá)摩院以此命名,寓意其模型旨在捕捉細(xì)胞生命活動(dòng)的核心規(guī)律。靈樞細(xì)胞不僅是 AI 在計(jì)算生物學(xué)領(lǐng)域的一次技術(shù)勝利,更是我們向理解生命復(fù)雜性、并最終駕馭它來(lái)改善人類健康邁出的堅(jiān)實(shí)一步,也標(biāo)志著虛擬細(xì)胞的時(shí)代正在到來(lái)。
論文鏈接:
https://arxiv.org/abs/2603.25240
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.