![]()
最初相同的 DNA,為何最終有的長成神經元,有的成為血細胞,有的是胰島細胞?
數十年來,生物學家理解細胞會分化,但一個長期來很難準確預測的問題是:如果改動一個關鍵基因,細胞命運將發生怎樣的改變?
現在,一個新型AI 模型開始嘗試回答這個問題:作為可操作的計算機模擬“細胞模型”,模擬調控擾動并生成可驗證、解釋細胞命運決定機制的假說。
近期,德國亥姆霍茲慕尼黑中心 Fabian J. Theis 教授和英國牛津大學 Tatjana Sauka-Spengler 教授團隊合作,開發了一種端到端的深度學習模型 RegVelo(Regulatory Velocity),首次將神經網絡與細胞動態變化過程融合在同一框架中。
具體而言,研究人員通過結合微分方程和神經網絡建模細胞內部的調控方式,對細胞的動態表達數據進行擬合,這樣可以通過計算機模擬改變基因調控關系(例如敲除某個轉錄因子、下調調控特定回路),來預測細胞的命運將如何改變。
值得關注的是,研究團隊將 RegVelo 應用于多個復雜的多譜系分化系統,無論在小鼠胰腺內分泌發育、人類造血分化,還是斑馬魚神經嵴發育,該模型都表現出穩定且相對準確的終端狀態識別能力。
![]()
(來源:受訪者)
可以這樣來理解這項研究:RegVelo 從觀測細胞運動的軌跡,同時推斷驅動運動的內在調控邏輯,并用這個邏輯預測干預調控后的新軌跡。
該論文第一作者、亥姆霍茲慕尼黑中心博士生汪偉旭的研究方向是從調控網絡預測細胞的分化的構建過程,他對 DeepTech 解釋道:“這就像我們考駕照科目三時,不同的考生(目標基因)和考官(轉錄因子)的組合會有不同的行車結果,我去理解考官去調控考生的機制,最后可以告訴你,如果換一個考官或干脆不要考官了,科目三能不能過(即你的行車軌跡是滿分)。”
電腦模擬實驗是 RegVelo 的應用方向之一。汪偉旭認為,更令人興奮的場景是類器官研究。類器官領域最大的瓶頸并非能否長出細胞,而是分化效率不穩定、細胞成熟度不夠、某些關鍵細胞類型難以誘導出現,這三個問題背后都指向同一個核心問題:哪些轉錄因子在哪個時間窗口驅動了正確的分化,而這恰好適合 RegVelo 來回答的問題。
具體來說,可在現有類器官單細胞數據上建模調控動態,然后在計算機預測“如果在某個發育窗口激活或抑制某個轉錄因子情況下,最終的細胞組成會如何變化”,再把最有希望的幾個預測進行實驗驗證,把分化協議的優化從純粹的實驗試錯壓縮到計算引導的定向驗證。
更進一步,對于類器官疾病模型,可以用患者來源的誘導多能重編程干細胞(iPSC)建立模型,在計算機里模擬不同的基因干預,預測哪些干預能把異常的細胞命運糾正回正常軌道,這讓 RegVelo 有潛力成為藥物靶點篩選的前端計算平臺。
總體來說,這項技術為發育生物學、再生醫學和疾病機制研究提供了一種具有預測擾動和分析擾動后結局的工具,有望顯著減少功能篩選實驗的盲目性,通過優先驗證計算預測排名靠前的候選因子,進而加速關鍵調控因子的發現進程。
![]()
圖丨相關論文(來源:Cell)
近日,相關論文以《RegVelo:基于基因調控信息的單細胞動態變化建模》(RegVelo: Gene-regulatory-informed dynamics of single cells)為題發表在 Cell[1]。亥姆霍茲慕尼黑中心博士生汪偉旭和武漢大學胡致遠教授,紀念斯隆-凱特林癌癥中心 Philipp Weilier 博士是共同第一作者,姆霍茲慕尼黑中心 Fabian J. Theis 教授和牛津大學 Tatjana Sauka-Spengler 教授擔任共同通訊作者。
細胞命運,究竟是誰決定的?
要理解用最基礎的功能單元做虛擬細胞的意義,我們要先從虛擬細胞的歷史演進講起。1943 年,埃爾溫·薛定諤(Erwin Schrodinger)在都柏林高等研究院期間的演講,后來被總結成一本書《生命是什么》。
很多人不知道的是,這本書的副標題是《活細胞的物理學方面》(The physical aspect of the living cell),這也是最早思考活細胞底層的物理學原理:細胞作為最小功能單元是有序的,而彼時統計熱力學正探討如何從無序產生有序。
這與格雷戈爾·約翰·孟德爾(Gregor Johann Mendel)豌豆雜交實驗揭示的遺傳決定論存在沖突,即存在“有序到有序”的過程。薛定諤提出兩個推測:一是遺傳物質如果要穩定并儲存信息,必須是非周期性晶體;二是生命依靠負熵而活,即我們通過外界的食物和其他負熵體來維持自身的有序性。
此外他還推測,應該有新物理或新理論解釋遺傳秩序(即基因里的秩序)如何放大到整個有機體。這套想法為現代分子生物學和生物信息學奠定了重要的基礎,他較早將信息概念引入生物學,并為細胞觀提供了一種機械論視角。
非周期性晶體的思想啟發了科學家,最終促成了 DNA 雙螺旋的發現,“從有序到有序”的認識則為弗朗西斯·克里克(Francis Crick)提出中心法則(central dogma)提供了重要的思想基礎。
但細胞尺度的有序性如何建立仍待回答:相同遺傳物質如何決定不同細胞類型?DNA 序列改變如何產生新細胞類型?外部信號能否轉換細胞狀態?2024 年,斯坦福大學教授、著名研究機構陳-扎克伯格倡議(Chan Zuckerberg Initiative, CZI)的科學主管斯蒂芬·奎克(Stephen Quake)將此稱為“細胞法則”,它被看作虛擬細胞的真正母題,而并非簡單的擾動預測。
1957 年,英國發育生物學家康拉德·沃丁頓(Conrad Waddington)提出了著名的景觀隱喻模型 Waddington 景觀:細胞發育的過程就像小球(細胞)從山頂滾入山谷,其中山頂分化勢能最高,最終進入山谷并分化成當不同的終末細胞類型。他認為,景觀之所以被塑造是復雜的遺傳物質之間的調控網絡塑造決定了細胞分化的方向。
該理論也啟發了系統生物學家們從 21 世紀初開始研究基因調控回路問題,但受限于理論和硬件方面的約束,當時由于缺乏解數千個基因的動力學方程模型的數值求解器,只能用經典動力學研究相關過程。
隨著 2010 年代單細胞測序技術(scRNA-seq)成熟,首次為全基因組尺度觀測數據提供了支持。并且 GPU 和深度學習技術也開始發展,出現了混合模型(hybrid model):常微分方程提供動力學骨架,神經網絡從數據中學習未知調控關系,GPU 求解器使高維計算可行。
因此,從“細胞作為信息處理單元”的歷史發展演進來看,Waddington 的景觀提供了隱喻,系統生物學把它變成方程,而混合模型則將其進一步發展為可以從數據學習的計算問題。
為什么之前的模型會“看反”
如何檢驗模型真實有效,并在生物數據中具備一定泛化能力,這是 AI for Biology 的常見問題之一。RegVelo 想要解決的核心問題是:細胞的分化是如何被基因調控回路確定下來的?
如果從目前的 AI 系統去看,不難發現其最擅長的是有明確信息流動的,即“從有序到有序”的過程。比如蛋白質折疊問題,從一級氨基酸序列到三維空間結構,有著明確的帶邊界的狀態空間。
所以,對于 AI 系統來說要在生物數據中能走通,有時候問題能否被解決,不只取決于數據規模或模型架構,更根本的是問題本身是否被正確地表達——能否找到一個有明確信息流動方向的有序框架來定義輸入和輸出。特別是當問題的輸出并不是有序時,能否放在一個有序的框架下進行檢驗。
![]()
(來源:Cell)
在這項研究中,RegVelo 在得到速度場后,研究人員可以預測細胞分化的終態在哪,從對分化終態的預測中來判斷模型好壞。汪偉旭表示:“在這項研究中我最滿意的設計,是結合我們課題組建立的一套描述細胞命運的框架CellRank。”
該框架提供了在給定速度場下描述細胞命運的分化概率,可以研究在擾動后不同細胞命運的概率變化,以得到最終去往某個狀態的可能性高低的改變,甚至是估計最終成熟的細胞狀態細胞密度的變化。在得到一個有序的、可被實驗去直接檢驗的統計量之后,可直接和 Perturb-seq 實驗對齊,來判斷模型是否有效。
“所以,AI for Biology 在未來很長時間內的真正邊界,可能不是算力,不是數據量,而是生命過程中有多少東西可以被合法地表達為有序到有序的映射。”汪偉旭指出,這也是他認為目前 AI in life science 的研究者該做的事情,不是換一個模型架構,也不是 scale up 到更大的數據集,而是結合 AI 知識和對生物學實驗的理解,判斷出一個合適且可放在實驗體系下證偽的問題,優先級高于前兩者。
11 次敲除實驗,AI 預測準確率接近翻倍
傳統的 RNA 速度模型假設轉錄速率是恒定的或只有一次“開關”,但該假設在造血系統等場景下不成立。
在造血場景中,由于轉錄速率并非恒定不變,而是與細胞狀態密切相關,因此經常會出現一種反常現象:當許多基因實際上處于極強的轉錄誘導狀態時,模型卻錯誤地判斷它們處于抑制狀態。這導致最終推斷出的速度場與已有的生物學認知完全相反。
RegVelo 之所以能夠改善這一問題主要基于兩點:一是嘗試擬合更靈活的動力學軌跡 ;二是認為每個基因的轉錄速率受上游的轉錄因子的影響,即建模每個基因的轉錄速率并非恒定,且表示成由轉錄調控網絡介導的上游調控因子的作用,也可以理解為當前細胞狀態來決定轉錄速率。
汪偉旭進一步補充道:“但是,在一些造血系統的數據集中,RegVelo 也不能完全解決,這背后可能是說轉錄速率不光受調控網絡本身的影響,還有一些其他未能觀測的部分。”
![]()
圖丨RegVelo 的核心模型(來源:Cell)
研究團隊在斑馬魚上做了 11 種轉錄因子敲除,RegVelo 的預測結果與實際實驗數據的斯皮爾曼相關性達到 0.52,而其他方法都低于 0.25。
由于不同方法定義擾動輸出的形式不同,研究人員提出了“密度變化似然”,以將所有的方法用同一種統計量來對其 Perturb-seq 實驗的結果。在該實驗中,他們通過觀察終末分化細胞類型中擾動前和擾動后細胞密度的變化,來判斷是否存在消耗或者富集。
具體而言,假如在模擬中有擾動前和擾動后的速度場,可以在計算機中模擬一個細胞如何沿著這個速度場,最終抵達終末分化的細胞類型,同時重復模擬該過程多次。
汪偉旭指出,這就像有多個細胞不斷遷移最終抵達終末的細胞類型,可以直接統計最終終末細胞類型中成功抵達的細胞數量在擾動前后的變化,這樣能和實驗統計的結果在定義上具備了可比的條件。
談及能夠實現接近翻倍準確率提升的原因,他坦言,“這要得益于我們的合作者胡致遠教授和 Sauka-Spengler 教授在實驗環節的巨大貢獻。我們做的斑馬魚實驗是真正意義上在斑馬魚體內發育過程的擾動,這使得實驗本身和 RegVelo 的計算模擬是對齊的。”
![]()
(來源:受訪者)
在研究實驗中,RegVelo 有個有意思的預測現象:它能識別發育過程中早期高表達、但在終末狀態已經下調的譜系驅動因子。這類因子通常只在較早的發育窗口中表達,等到細胞抵達終末狀態時,其 mRNA 信號可能已經減弱甚至消失。因此,依賴終末細胞類型高表達關系的方法容易將它們漏掉,或把其誤歸為早期或中間狀態的標志基因。例如,ets1、nr2f5、sox9b 和 twist1b 等顱面間充質相關轉錄因子在神經嵴板和脫層階段高表達,在終末狀態中顯著下調。
相關性方法和部分擾動預測方法將這些因子指向 mNC hox34 等狀態; RegVelo 則通過基因調控網絡(GRN)約束下的前向模擬,將它們識別為顱面間充質譜系的早期驅動因子。
![]()
圖丨RegVelo 的擾動預測流程(來源:Cell)
但另一個問題是,生命體有復雜的冗余機制來維持其系統穩定。例如,研究人員在實驗中觀測到,有些轉錄因子在過去報道中與第二咽弓細胞的發育有關,但他們實驗上發現,敲除這些轉錄因子并不會影響第二咽弓的發育。
“這背后一種解釋是,會存在其他功能類似的轉錄因子通過復雜的反饋調節機制,來提高其產物豐度從而繼續維持功能。”汪偉旭表示。
當外部信號來敲門:CellFlow
在單細胞計算領域,Fabian Theis 課題組早期做了一系列奠基工作:從單細胞數據設計的數據結構標準 AnnData,到 Python 單細胞分析主流的基礎工具庫之一 Scanpy,再到單細胞深度學習 scGen 等。
在虛擬細胞方向,除了從物理細胞層面出發的 RegVelo,研究團隊還有另一項從生成模型出發的研究 CellFlow[2],這也是首個基于流匹配的生成框架做表達擾動問題的方法。
“CellFlow 主要是回答我所提到細胞學說(cellular dogma)的第三點:外部的一些信號刺激下,細胞狀態能否實現轉換。”汪偉旭表示。實際上,這正是當下虛擬細胞問題主流的定義,即給定形態因子(例如 CRISPR、細胞因子或藥物)后,細胞的表達狀態如何從 A 變成 B。
![]()
圖丨一種用于探索細胞表型空間的工具 CellFlow(來源:bioRxiv)
虛擬細胞領域中最早的擾動模型,可以追溯到 Theis 課題組 2019 年發表在 Nature Methods 的 研究 scGen[3],這也是最早關于擾動問題的定義。但它是基于 VAE 的簡單架構,且并未直接對外源的形態因子的信息作為輸入直接建模。
隨著單細胞測序技術通量越來越高,圍繞大規模的擾動實驗成為可能后,研究團隊希望通過強大的生成模型,從擾動數據中學到擾動效應和形態因子的表征之間的統計關聯。
應用流匹配模型的優勢在于:首先,它具有可擴展性,能夠進行十億級別數據的訓練;其次,在目前已知的很多場景中,它的生成效果優于很多其他模型。未來,可基于該生成模型做類似類器官的分化方案設計,或直接給定生成目標,基于該模型逆向地合成形態發生素,即用怎樣的 CRISPR 來引導細胞去生成目標狀態。
距離真正的虛擬細胞,還有多遠?
目前,RegVelo 仍存在一些局限性:首先,RegVelo 對全局潛在時間的處理仍可能無法覆蓋所有基因特異性的時間動態;其次,雖然模型可利用來自多組學數據的先驗 GRN,但當前調控模型仍較簡化,對 TF 活性、染色質可及性和更復雜非線性調控的直接建模仍然有限;此外,對 GRN 調控邊穩定性的重采樣評估通常需要多次重復訓練模型,計算成本較高。
未來如果進一步整合代謝標記 RNA、染色質可及性、TF 活性、RNA 結合蛋白互作和蛋白層面的信息,RegVelo 對細胞狀態變化的模擬維度還可進一步擴展。另一個重要的問題是,現階段 RegVelo 尚未形成整合空間轉錄組數據的能力,而空間組織恰恰是類器官的核心特征之一。
在本次研究中僅考慮細胞內部調控機制,但并未回答當存在外部信號輸入時,比如空間上的微環境或加藥后如何修改內部的調控邏輯。在未來的研究階段中,研究團隊計劃繼續探索這些問題。
目前,該課題組與谷歌、英偉達等大型企業在 AI 科學家、虛擬細胞等方面進行項目合作。RegVelo 和 AI 科學家的交叉點在于:RegVelo 提供的是一個有物理約束的專有模型,它生成的預測是結構化的、可解釋的假設;而 AI 科學家提供的是對這些假設進行推理和優先級排序的能力。
兩者的結合,正好對應了 AI for Science 最合理的分工方式:將模擬細胞功能的各種專有模型部署到智能體中,通過這些專有模型生成假設,同時通過智能體的推理能力,來判斷這些假設是否和已知的知識沖突,從而生成可信的新假設進行驗證。
這里涉及到一個更根本的問題:學界和工業界在 AI for Science 中應該如何分工?在汪偉旭看來,學界需要做的是在細胞的尺度上,找到并定義一些特定的場景,對應了某種有序到有序、信息流動方向明確的問題;而工業界可以通過更強的算力和新模型框架,從工程上把這個問題解決。
“不同的專有模型,就像在樂團中扮演不同的角色,有人彈鋼琴、有人吹小號、還有人唱歌,進而各司其職去執行模擬細胞不同功能。智能體就像一個指揮家來協調不同的功能,來創造優美的旋律:通過產生合理的假設,引導后續的實驗設計。”
另一個重要的問題是,RegVelo 所代表的細胞模型與目前 Evo 以及 AlphaGenome 代表的基因組學模型長期脫節。因此,未來研究團隊希望能關聯兩者,直接耦合從基因組到細胞命運調控。希望屆時 RegVelo 可以回答細胞學說的關鍵問題:當引入一些基因組上的突變,特別是調控元件上的突變后,最后如何影響細胞的命運。
參考資料:
1.https://www.cell.com/cell/fulltext/S0092-8674(26)00457-5
2.https://doi.org/10.1101/2025.04.11.648220
3.https://doi.org/10.1038/s41592-019-0494-8
排版:胡巍巍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.