![]()
編輯丨&
發現與開發新分子效能是現代化學的重要研究事業之一。從新藥的開發到更可持續材料的創造,一切都依賴于尋找具有有用性質的新原子組合。分子生成之所以難,不只是因為「要新」,而是因為化學空間太大、規則太硬。
2026 年 5 月 4 日,Universitat Rovira i Virgili(URV)的團隊提出了 CoCoGraph——一個協作式、受約束的離散圖擴散模型,目標不是只「生成像分子」的圖,而是生成保證化學有效、同時又盡可能接近真實分布的分子。
在這篇發表于《Nature Machine Intelligence》上的「A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules」中,CoCoGraph不僅實現了100% 的化學有效性,還把模型參數量砍到了同類頂尖水平的1/10。
![]()
論文鏈接:https://www.nature.com/articles/s42256-026-01229-5
雙邊交換約束機制
在 CoCoGraph 出現之前,主流的圖擴散模型(如 DiGress)雖然能生成分子,但存在兩個致命傷。
AI 可能會給碳原子連上 5 個鍵,或者讓氫原子孤懸。這些在數學上成立但在化學上「非法」的結構,極大地浪費了后續篩選的算力;而模型為了捕捉分子內部復雜的原子關聯,往往需要數百萬甚至上千萬的參數,這讓訓練和推理變得異常沉重。
所以 CoCoGraph 的思路非常硬核。與其在生成后去剔除錯誤的分子,不如在生成的每一步都加入物理約束,讓模型只能生成正確的分子。
![]()
圖 1:受限協作圖擴散模型,CoCoGraph。
這就是 CoCoGraph 的核心設計:把分子擴散過程定義成一種離散的「雙邊交換」(double edge swapping, DES)操作。每一步不再隨意加噪聲,而是隨機選取兩條化學鍵并刪除,再重連成兩條新鍵,從而在 noising 和 denoising 的每個階段都保持原子數、分子式和度序列,也就是價態約束。
作者強調,這樣做的結果是,凡是不滿足化學約束的圖根本不會進入生成空間,模型也不需要學會化學規則本身,只需要學習真實分子更細微的結構模式。為了讓這個過程既穩又小,BASE 版只需要約 534K 參數,遠少于對比模型 JTVAE 的 5.3M 和 DiGress 的 4.6M。
對于生成過程,特殊的協作機制發揮了它的作用。擴散模型預測下一步應撤銷哪一組雙邊交換,時間模型則估計當前圖離原始分子還有多遠。前者接收分子圖特征和擴散時刻,輸出所有可能 DES 的概率;后者輸入當前分子圖,回歸一個 0 到 1 之間的歸一化時間值。
![]()
圖 2:基于GuacaMol基準的模型對比。
得益于這兩種設計,BASE 版和 FPS 版都達到了100% chemical validity,而且沒有犧牲多樣性:兩者的 uniqueness 都是99.9%,novelty 分別為98.6%和98.5%。
更真實的化學,而不只是某類化學
作者隨后把評價尺度擴展到 36 個化學性質,涵蓋分子大小、拓撲、電子性質和藥物相似性等指標。結果顯示,CoCoGraph 在 36 項里有23 項優于 DiGress,33 項優于 JTVAE;在選出的 10 個代表性屬性中,它對 heavy atom count、valence electrons 等多項性質的分布擬合都更接近原始分子。
![]()
圖 3:對 36 種化學性質子集進行詳細性能比較。
此外,因為模型足夠輕,CoCoGraph 能在單塊中端 GPU 上每小時生成成千上萬條有效分子。團隊據此構建了一個包含8.2 million條合成分子的數據庫,其中只有7.1%是冗余,換言之大約7.6 million條是新穎且有效的分子結構。
為了驗證這些結構是否真的「像化學」,團隊還做了一個分子版圖靈測試:把真實分子和 CoCoGraph 生成分子配成同分子式的對照對,交給 102 位有機化學相關背景的參與者判斷。總共 2040 次判別中,專家平均準確率只有62%;本科背景者是59%,研究生背景者是64%。
更微妙的是,對于無環分子和以脂肪族鍵為主的分子,參與者表現甚至接近50%的隨機猜測水平,說明這類生成結果已經相當接近真實分子的視覺與結構直覺。
![]()
圖 4:在圖靈類測試中表現。
挑戰真實分子生成
研究團隊明確表示這只是開始。中期到長期的主要目標是能夠向人工智能請求具有特定性質的分子;例如,請求一種可溶性、無毒且適用于特定應用的分子。他們將目標鎖定在分子生成上,并期望著能將特定目標應用于這一過程。
對藥物開發、材料設計、催化和環境分子發現來說,這意味著分子生成不必先在無效空間里空轉,而可以直接在可行化學空間里做高密度探索。該研究給出的 8.2 million 分子數據庫,也因此不只是一個結果展示,而是一張能繼續被下游任務調用的化學地形圖。
https://phys.org/news/2026-05-chemistry-aware-ai-generate-millions.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.