近日,微軟旗下虛擬細胞項目組Project Ex Vivo在期刊《Nature Methods》上發表了一篇題為:“Evaluating the role of pretraining dataset size and diversity on single-cell foundation model performance”的論文。
![]()
論文在對400個單細胞基礎模型開展了6400組實驗評測后得出了一個顛覆行業認知的結論:
虛擬細胞似乎并不適用傳統大語言模型“擴充數據-提升性能”的數據縮放規律,也就是說行業從100萬卷到上億的數據集規模大戰,可能都走了彎路!
實驗使用了一個包含2220萬個細胞的大型數據集,結果顯示僅使用當前海量訓練數據中的一小部分(僅1%~10%),模型性能就會進入增長瓶頸。
單純擴增數據規模、粗放增加數據多樣性,都無法提升模型效果,部分復雜模型效果甚至不如傳統簡易算法,僅少量模型在數據小幅擴容時存在微弱提升。
也就是說,在AI虛擬細胞的研發中,一味擴大模型、數據與算力或許都是無用功,而細胞行為與狀態的多樣性才是模型訓練核心!
![]()
虛擬細胞的下一程該怎么走?
該研究負責人之一Lorin Crawford博士指出:“研究者應當在一個平衡的‘計算-數據-參數量’前沿上尋找最優配置,而非不計成本地擴大數據規模。”
![]()
不同數據集中的學習飽和點
論文在最后寫到,虛擬細胞或許需要精細化的研發思路:在平衡數據集規模與多樣性的同時,兼顧模型架構、訓練策略與評測體系的優化。
另外兩位作者Peter S. Winter和Ava P. Amini分別補充到:“業內普遍認為只要不斷擴大數據規模就能解決所有問題,但事實上,數據所涵蓋的細胞狀態多樣性才是核心關鍵。”
“簡單的嵌入方法(如PCA)往往被嚴重低估。在許多實際任務中,它們足以媲美甚至超越耗資巨大的Transformer模型。”
![]()
MIT+哈佛 用虛擬細胞攻克癌癥難題
本研究隸屬于微軟旗下的虛擬細胞項目組Project Ex Vivo,由該公司與麻省理工和哈佛共建的博德研究所(Broad Institute)聯合開展,并得到全美最大癌癥研究中心丹娜-法伯癌癥研究所(DFCI)的支持。
![]()
項目建立于2022年,旨在將細胞狀態納入癌癥分型與治療體系,實現藥物與患者的精準匹配,改善癌癥患者預后。
團隊利用計算模型開展虛擬細胞實驗,先通過運算驗證科研假設,再進行實體實驗,還通過AI預測藥物引發的細胞狀態變化,以及不同癌種中細胞狀態的演變規律。
團隊認為,實驗室培育的癌細胞以及類器官這樣的微型腫瘤模型,無法完全復刻人體內腫瘤的真實狀態,這是導致許多在培養皿中表現亮眼的候選藥物,最終在臨床試驗中折戟的關鍵因素。
他們把研究重心放在細胞狀態上,這直接決定腫瘤的藥物敏感度、耐藥性產生速度以及惡性侵襲能力,一方面有利于現有療法的患者匹配方案,另一方面也能為藥物研發開辟新方向。
研究人員不再局限于靶向基因突變,還可研發針對細胞狀態的療法,甚至通過調控細胞狀態,讓惡性腫瘤轉變為更易治療的類型。
—The End—
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.