![]()
作者 | 燧人物質大模型團隊
編輯丨ScienceAI
在藥物研發與新材料設計領域,相對微觀的 3D 構象動力學與相對宏觀的物化性質之間,長期存在著難以貫通的尺度斷層。一個候選藥物能否成藥,不僅取決于其靜態的二維拓撲結構,更取決于其在溶液中千變萬化的三維構象系綜;根據玻爾茲曼分布,分子在室溫下可能同時存在數十種乃至上百種低能構象,而宏觀的溶解度、熔點、毒性等關鍵性質,正是這些構象的系綜平均結果。
然而,傳統的 AI 分子模型陷入了尷尬的二元割裂:3D 分子模型雖然具備量子精度的微觀表征能力,卻困于幾何空間的「信息孤島」,缺乏跨化學空間的泛化性,從而無法有效預測宏觀性質;2D 分子模型雖能通過自監督等方法學習二維拓撲信息,卻無法有效感知構象分布,成為「構象盲人」,在預測與立體化學緊密相關的性質時頻頻失效。這種微觀與宏觀的割裂,迫使研發人員必須在「昂貴的量子計算」與「粗粒度的統計近似」之間做出痛苦抉擇。
![]()
為此,上海科學智能研究院(下稱上智院)于近日發布并開源18 億參數的燧人分子基礎大模型 ——Suiren-1.0,首次在算法層面架起了從微觀三維構型到宏觀統計性質之間的橋梁。由此,燧人物質科學系列模型的基座層、功能層、應用層整體建成并打通,并將由上智院孵化企業「格物智研」負責產業化落地。
Suiren-1.0 的技術報告已發布,模型權重及評估基準全面開放。這不僅意味著化學家、材料科學家與藥物研發人員可免費獲得這一橫跨微觀量子力學與宏觀實驗性質的統一基座模型,也使分子科學中從微觀量子態到宏觀性質的建模任務,首次得以在同一框架下進行統一處理與比較分析,從而為多尺度分子建模(如原子尺度的電子云分布、反應釜尺度的物質性質)提供了新的基礎工具。
![]()
- Suiren 1.0 技術報告:https://arxiv.org/abs/2603.21942
- 3D 構象模型開源地址:https://github.com/golab-ai/Suiren-Foundation-Model
- 2D 構象平均模型開源地址:https://github.com/golab-ai/Suiren-Property-Prediction
作為燧人物質大模型的基座層,Suiren-1.0 并非單一的預測工具,而是一個「多位一體的分子智能系統」,由三個專精模型組成:Suiren-Base(18 億參數 3D 等變基礎模型,專攻有機小分子微觀量子表征)、Suiren-Dimer(專攻分子間相互作用與溶劑化效應)以及 Suiren-ConfAvg(通過擴散蒸餾獲得的輕量化宏觀性質預測專家)。通過創新的「構象壓縮蒸餾」技術,Suiren-1.0 在業界首次實現了從 3D 量子力學空間到 2D 分子拓撲空間的知識遷移,在涵蓋藥物、材料、能源、化工等 8 大科學領域的 40 余項分子性質預測任務中均達到 SOTA(State-of-the-Art)水平,并在其中 20 余項任務上實現超過 20% 的性能提升,部分熱力學性質預測誤差降低高達 67%。
Suiren-1.0 技術路線:三階段建模框架,橋接三維構象與綜合表征
第一階段:微觀基礎預訓練(Suiren-Base & Suiren-Dimer)
Suiren-Base是一個擁有 18 億參數的大型 SO (3)/SE (3) 等變圖神經網絡,采用稠密混合專家架構(MoE),集成 20 個 S2Activation 專家與 20 個 EST(Equivariant Spherical Transformer)專家。該模型在 7000 萬組 DFT(密度泛函理論)第一性原理數據(Qo2mol 數據集)上進行有監督和 EMPP(Equivariant Masked Position Prediction)自監督混合預訓練,精準捕捉單分子 3D 構象的量子力學特征。模型在原子級能量預測上達到 0.258 meV 的 MAE,力場預測達到 0.510 meV/?,較傳統模型大幅降低了誤差。
![]()
針對藥物設計中的分子間相互作用難題,團隊進一步推出Suiren-Dimer,在 1350 萬組分子二聚體數據上繼續預訓練(Continue Pre-Training),專門攻克長程相互作用、溶劑化效應與蛋白 - 配體結合等復雜場景,填補了單體模型在描述真實生理環境時的空白。
第二階段:從 3D 到 2D 的構象壓縮蒸餾(Suiren-ConfAvg)
這是 Suiren-1.0 最具革命性的技術創新。團隊提出了構象壓縮蒸餾(Conformation Compression Distillation, CCD) 的全新方法,并構建了一個基于擴散模型的特征蒸餾框架。該框架巧妙地解決了「一對多」的分子 - 構象映射難題:通過將 Suiren-Base 作為教師模型,凍結其權重,訓練一個輕量化的 2D 圖神經網絡(GAT)作為學生模型。在擴散過程中,首先通過接受二維拓撲的圖神經網絡提取分子宏觀嵌入,再將這種嵌入與構象能量作為條件輸入給擴散模型,逐步去噪重構出 Suiren-Base 的 3D 構象表征與原子坐標。
這一過程如同將復雜的 3D 構象系綜「蒸餾」為一瓶濃縮的精華,Suiren-ConfAvg也由此誕生。它不僅繼承了 Suiren-Base 的量子力學直覺,更具備從 SMILES 或分子圖直接生成構象平均表征的能力,實現了從「分子圖紙」到「真實物性」的直接映射,而無需耗時的 3D 構象采樣。
![]()
第三階段:雙圖神經網絡微調(DGNN)
在下游任務微調中,Suiren-1.0 采用了雙圖神經網絡(Dual Graph Neural Network, DGNN)架構。該架構包含兩個并行子網:凍結的 Suiren-ConfAvg 提供預訓練的宏觀結構先驗,隨機初始化的任務特定 GNN 負責學習領域特異性特征。這種「凍結 + 微調」的雙塔結構既防止了災難性遺忘,又保證了足夠的任務適配容量,使得模型可以被應用到僅有少量標注數據的場景。
實戰能力:跨尺度分子性質預測與外推泛化表現
為系統驗證 Suiren 1.0 的整體能力,研究團隊構建了 MoleHB(Molecular Handbook Benchmark)綜合基準測試集,涵蓋40 余項分子性質預測任務,覆蓋安全性質、表面性質、熱性質、溶解性質等八大領域。該基準在任務設計與評測指標上充分對齊當前分子機器學習領域的通行設置與主流評價體系。
在MoleHB 基準測試中,Suiren-ConfAvg 在39/42 項性質上取得最佳 MAE(平均絕對誤差),展現出了「跨尺度」實戰能力,子任務示例:
- 臨界與飽和性質:臨界體積預測誤差降低 48.88%,臨界溫度降低 28.47%;
- 熱力學與能量性質:生成焓預測誤差降低 46.04%,吉布斯自由能降低 44.21%;
- 安全與物性:閃點預測提升 17.33%,液體熱容降低 28.43%,固體熱容更是實現 67.40% 的大幅提升;
在TDC 基準的藥物 ADMET測試上:Suiren-ConfAvg 在8/18 項達到 SOTA,包括人體腸道吸收率(HIA)、P - 糖蛋白抑制等成藥性關鍵指標。其它任務也表現出與 SOTA 非常接近的水準。
在所有任務上,研究團隊使用完全一致的訓練超參和架構,沒有經過任何超參搜索。這種結果更強調了 Suiren-ConfAvg 的穩定性。研究團隊也將所有微調訓練腳本開源,在單張 RTX 4090 顯卡就可以完成微調,供社區在自己的數據集上使用。
![]()
MoleHB 評測結果對比,涵蓋了常見化學領域的性質
為了驗證模型的真實泛化能力,團隊在 MoleHB 尺寸拆分 (Size-Stratified Split) 設置下進行了測試 —— 該設置將訓練集與測試集按分子尺寸大小分離,使得驗證集包含大量 OOD 的數據。結果顯示,Suiren-ConfAvg 展現出分布外泛化能力:在生成焓預測上,相比最佳基線提升 90.98%;在亥姆霍茲自由能上提升 91.20%;在臨界溫度上提升 69.07%。這組外推實驗證明了 Suiren-ConfAvg 預訓練模型學到的并非表面的幾何特征,而是深層的原子間相互作用規律。
結語:面向分子科學的科研智能基礎設施
作為燧人物質科學系列模型的重要成員,Suiren-1.0 并非孤立存在。作為模型家族的基座層,它為分子生成、多尺度性質預測等功能模型提供了對原子結構、分子行為及電子軌道等物理特征的統一表征能力,從而支撐從分子設計到性質預測的完整建模流程,并與其他功能模型一起成為支撐化學、材料等不同領域創新應用的關鍵引擎。
在微觀與宏觀相互交織的分子世界中,燧人團隊嘗試將科學機理與人工智能系統相結合,深入理解化學世界,拓展研究者的探索空間。隨著 Suiren-1.0 的開源,這一體系也正進入更廣泛的科研社區,在生物醫藥與合成生物學等方向中提供可直接使用的多尺度建模工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.