![]()
來源:ScienceAI
編輯:&
單細(xì)胞轉(zhuǎn)錄組已經(jīng)把「細(xì)胞有多復(fù)雜」這件事推到了前所未有的尺度。但除開它為人們帶來的理解上的改變,跨物種比較仍卡在一個(gè)問題之上:不同物種往往共享很少的直系同源基因,傳統(tǒng)整合方法越來越難把遠(yuǎn)緣物種放到同一坐標(biāo)系里。
來自美國斯坦福大學(xué)、Biohub 等的研究團(tuán)隊(duì)正是為了補(bǔ)上這一缺口而來。他們把 12 個(gè)物種、最多 1.12 億個(gè)細(xì)胞、覆蓋約 15 億年的進(jìn)化歷史一起送進(jìn)模型里,試圖讓模型自己學(xué)會(huì)「細(xì)胞表達(dá)的語法」。
相關(guān)研究以「TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution」為題,于 2026 年 5 月 7 日發(fā)布在《Science》。
![]()
論文鏈接:https://www.science.org/doi/10.1126/science.aec8514
生成式細(xì)胞引擎
TranscriptFormer 的誕生旨在解決跨物種比較轉(zhuǎn)錄程序這一長期挑戰(zhàn)。它不是傳統(tǒng)的單細(xì)胞表征模型,而是一個(gè)自回歸生成模型。
該模型將基因表達(dá)譜視為「細(xì)胞語言」,通過自監(jiān)督學(xué)習(xí)捕捉基因間的復(fù)雜關(guān)聯(lián)與表達(dá)分布。這種大規(guī)模、多物種的數(shù)據(jù)策略,使模型能夠?qū)W習(xí)到跨越物種界限的通用生物學(xué)表征,而非僅局限于單一物種的特征提取。
![]()
圖 1:TranscriptFormer概覽。
模型輸入包括來自 ESM-2 的蛋白嵌入和測(cè)序技術(shù)標(biāo)記,并通過 expression-aware multi-head self-attention、causal masking 和 count likelihood 處理轉(zhuǎn)錄本計(jì)數(shù)的變化。團(tuán)隊(duì)訓(xùn)練了三個(gè)版本:TF-Metazoa、TF-Exemplar 和 TF-Sapiens,三者架構(gòu)一致,但訓(xùn)練語料分別覆蓋 12 個(gè)物種、5 個(gè)代表物種以及純?nèi)祟悢?shù)據(jù)。
在性能測(cè)試中,TranscriptFormer 在細(xì)胞類型分類任務(wù)上達(dá)到了領(lǐng)域領(lǐng)先水平。研究中,該模型表現(xiàn)出極強(qiáng)的跨物種遷移能力,即使對(duì)于在進(jìn)化上與人類相隔 6.85 億年的物種(如刺胞動(dòng)物門的珊瑚),它依然能夠?qū)崿F(xiàn)精準(zhǔn)的細(xì)胞分類。
![]()
圖 2:未見物種的泛化與跨物種遷移學(xué)習(xí)。
此外,模型在人類細(xì)胞的疾病狀態(tài)識(shí)別中展現(xiàn)了出色的「零樣本(Zero-shot)」能力,即在未接觸特定疾病標(biāo)注數(shù)據(jù)的情況下,仍能通過對(duì)正常生理狀態(tài)的深刻理解來識(shí)別異常的病理表征。
生物學(xué)結(jié)構(gòu)感
TranscriptFormer 的嵌入并不只是能分類,它們還自發(fā)呈現(xiàn)出發(fā)育軌跡、系統(tǒng)發(fā)育關(guān)系和細(xì)胞層級(jí)。
在研究中,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:contextualized gene embeddings 會(huì)按細(xì)胞種類聚類,而且這種結(jié)構(gòu)在不同組織里都能看到。
![]()
圖 3:上下文基因嵌入與跨物種分析。
這種發(fā)育軌跡、系統(tǒng)發(fā)育關(guān)系以及細(xì)胞層級(jí)結(jié)構(gòu)在 TranscriptFormer 的表征空間中自然涌現(xiàn)的現(xiàn)象,代表著該模型無需人工標(biāo)注或元數(shù)據(jù)引導(dǎo)。這意味著模型自發(fā)掌握了生命的組織原則。
TranscriptFormer 還可作為一種「虛擬實(shí)驗(yàn)儀(Virtual Instrument)」,通過模擬轉(zhuǎn)錄因子的擾動(dòng)來預(yù)測(cè)目標(biāo)基因的反應(yīng)。團(tuán)隊(duì)用 TranscriptFormer 的生成接口做了提示式推斷,去預(yù)測(cè)轉(zhuǎn)錄因子與其他蛋白編碼基因的功能關(guān)聯(lián),并用 point-wise conditional mutual information(PMI)找出高置信度配對(duì),再拿 STRING 數(shù)據(jù)庫交叉驗(yàn)證。
除此之外,團(tuán)隊(duì)還用細(xì)胞類型條件化的提示重建了與 Tabula Sapiens 相似的轉(zhuǎn)錄因子熱圖,讓模型自己說出哪些因子更像普遍表達(dá),哪些更偏向細(xì)胞類型特異。
這種生成式模擬能力為研究人員提供了一個(gè)交互式知識(shí)庫,能夠在計(jì)算機(jī)上預(yù)先測(cè)試復(fù)雜的生物實(shí)驗(yàn)方案,從而加速藥物發(fā)現(xiàn)與細(xì)胞工程的研究進(jìn)程。
可調(diào)用的知識(shí)系統(tǒng)
TranscriptFormer 訓(xùn)練時(shí)沒有用細(xì)胞類型標(biāo)簽、發(fā)育階段標(biāo)簽或系統(tǒng)發(fā)育注釋,卻仍然學(xué)出了跨層級(jí)的生物學(xué)結(jié)構(gòu):基因、細(xì)胞、組織、物種都被串進(jìn)了同一套表示里。
它的價(jià)值不只是分類更準(zhǔn),而是把單細(xì)胞數(shù)據(jù)變成一種可以查詢、可以遷移、還可以做虛擬實(shí)驗(yàn)的生成式基礎(chǔ)模型。
團(tuán)隊(duì)表示:多物種預(yù)訓(xùn)練更利于跨物種泛化,單物種訓(xùn)練則可能在純?nèi)祟惣膊∪蝿?wù)上更有優(yōu)勢(shì);未來還將繼續(xù)擴(kuò)展物種、加入更多模態(tài),并改進(jìn)提示策略。
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識(shí)庫”
![]()
未來知識(shí)庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來知識(shí)庫”精選的百部前沿科技趨勢(shì)報(bào)告
(加入未來知識(shí)庫,全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.