![]()
編輯丨&
在精準醫學研究中,一個核心問題是:如何從大量已有的組織樣本數據中,解析出其中的細胞類型組成?反卷積算法為此提供了低成本、高通量的解決方案。
不過可惜的是,現有方法大多為單一組學「量身定制」——轉錄組有 CIBERSORTx、蛋白組有 scpDeconv,而代謝組甚至還沒有專用工具。這種「各自為戰」的格局,使得跨組學、跨隊列的比較充滿系統性偏差,嚴重制約了大規模多組學研究的發展。
來自哈爾濱工業大學等的團隊帶來了一個名為 DECODE 的通用反卷積框架。它通過精巧的深度學習架構,首次實現了對轉錄組、蛋白組和代謝組數據的統一、高精度反卷積,并能在參考單細胞數據不完整的情況下依然穩健工作,為充分利用海量多組學組織數據提供了強大工具。
相關研究內容以「DECODE: deep learning-based common deconvolution framework for various omics data」為題,于 2026 年 3 月 2 日發表在《Nature Methods》。
![]()
論文鏈接:https://www.nature.com/articles/s41592-026-03007-y
通用反卷積框架
目前的反卷積工具遵循「針對化」發展路徑。轉錄組工具基于特定分布假設(如泊松分布),蛋白組工具則有不同的數學模型,而代謝組反卷積仍是空白。當研究者想比較不同組學層、不同隊列的細胞豐度時,方法的異質性引入了無法量化的系統偏差,破壞了整合分析的可靠性。
而在當下的組學研究中,不同組學數據在尺度、分布、稀疏性和特征維度上差異巨大。并且,單細胞參考數據往往無法覆蓋組織中存在的所有細胞類型,參考數據與組織目標數據通常來自不同供體、技術和健康狀態,生理和技術變異引入的批次效應會嚴重干擾真實生物學信號的識別。
這就要求反卷積模型架構需要高度靈活、自適應力強,且必須能在參考數據缺失某些細胞類型(即存在未知細胞類型)的情況下,依然準確估計已知細胞類型的相對豐度。這也就成為了 DECODE 的基礎設計需求。
![]()
圖 1:DECODE 框架。
DECODE 框架主要包含了四個階段,這些階段共同確保對不同組學數據的精確且可靠的解卷:
- 第一階段:構建「偽組織」訓練集:從單細胞數據中隨機抽取細胞,根據隨機生成的比例向量進行聚合,模擬出具有已知細胞組成的「偽組織」樣本。這為模型提供了無限且帶有真實標簽的訓練數據。
- 第二階段:消除批次效應(對抗訓練):這是 DECODE 的關鍵創新之一。框架引入了一個編碼器、一個鑒別器和一個反卷積器。編碼器提取特征,鑒別器試圖判斷這些特征來自偽組織還是真實目標組織,而反卷積器則專注于學習細胞組成信息。
- 利用對抗訓練,迫使鑒別器無法區分數據來源,從而在保留生物學信號的同時,有效消除了訓練數據與目標數據之間的批次效應。此階段完成后,編碼器參數被固定。
- 第三階段:提升穩健性(對比學習與降噪):為了應對各種噪聲和組學數據差異,DECODE 對每個偽組織樣本隨機添加不超過 10% 的噪聲,構建成對訓練數據。
- 一個注意力機制降噪器將嵌入特征分離為噪聲特征和純化特征。同時,對比學習策略拉近同一組織樣本不同噪聲版本的特征表示,推遠不同樣本的表示,從而增強模型對噪聲的抵抗力。
- 第四階段:推理與應用:DECODE 提供兩條路徑——當單細胞參考數據能完全覆蓋目標組織細胞類型時,走「標準反卷積」路徑;當存在未知細胞類型時,走帶有降噪器的「相對反卷積」路徑,確保依然能準確估計已知細胞類型的比例。
性能超越
研究團隊設計了極其嚴苛的驗證方案,在 15 個數據集上構建了 7 大測試場景,涵蓋了轉錄組、蛋白組、代謝組,以及空間轉錄組數據。
![]()
圖 2:DECODE 轉錄組學和蛋白質組學數據解卷積性能概述。
在跨供體、跨疾病狀態、跨健康狀態、跨數據集、空間轉錄組、多細胞類型等幾乎所有場景中,DECODE 的一致性相關系數均排名第一。即使在部分方法的「原問題設定」下,DECODE 的表現也優于它們。在真實組織數據上,DECODE 同樣展現出卓越的準確性。
![]()
圖 3:DECODE 代謝組學數據解卷積性能概述。
最為亮眼的是,DECODE 完成了代謝組學反卷積的突破。研究首次在三個單細胞代謝組數據集(小鼠肝臟、骨髓和人類結直腸癌)上驗證了反卷積的可能性。在跨細胞類型、跨疾病狀態、跨平臺的測試中,DECODE 均取得了極高的預測精度。
經過四種擾動場景下的分析與在偽多組學和真實多組學隊列中的應用,DECODE 在缺少模擬數據的情況下依然發表現出遠超其他模型的精度。在批次效應干擾實驗中,DECODE的表現也最為穩定。
通用化范式躍遷
DECODE 是一種能夠處理轉錄組學、蛋白質組學和代謝組學數據的去卷積算法,它首次將反卷積從「組學專屬」的工具箱,升級為跨組學的「通用」框架。
它不僅填補了代謝組學反卷積的空白,更重要的是,它為整合海量、異質的現有組學數據提供了統一的分析平臺。有了 DECODE,研究者可以更可靠地比較不同疾病隊列、不同組學層次的細胞組成變化,從而獲得對復雜生物系統更完整的分子層面理解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.