網易首頁 > 網易號 > 正文申請入駐

CoCoGraph用534K級參數把分子生成推向真實化學分布

2026-05-06 13:01:12　來源: ScienceAI

天津舉報

分享至

編輯丨&

發現與開發新分子效能是現代化學的重要研究事業之一。從新藥的開發到更可持續材料的創造，一切都依賴于尋找具有有用性質的新原子組合。分子生成之所以難，不只是因為「要新」，而是因為化學空間太大、規則太硬。

2026 年 5 月 4 日，Universitat Rovira i Virgili（URV）的團隊提出了 CoCoGraph——一個協作式、受約束的離散圖擴散模型，目標不是只「生成像分子」的圖，而是生成保證化學有效、同時又盡可能接近真實分布的分子。

在這篇發表于《Nature Machine Intelligence》上的「A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules」中，CoCoGraph不僅實現了100% 的化學有效性，還把模型參數量砍到了同類頂尖水平的1/10。

論文鏈接：https://www.nature.com/articles/s42256-026-01229-5

雙邊交換約束機制

在 CoCoGraph 出現之前，主流的圖擴散模型（如 DiGress）雖然能生成分子，但存在兩個致命傷。

AI 可能會給碳原子連上 5 個鍵，或者讓氫原子孤懸。這些在數學上成立但在化學上「非法」的結構，極大地浪費了后續篩選的算力；而模型為了捕捉分子內部復雜的原子關聯，往往需要數百萬甚至上千萬的參數，這讓訓練和推理變得異常沉重。

所以 CoCoGraph 的思路非常硬核。與其在生成后去剔除錯誤的分子，不如在生成的每一步都加入物理約束，讓模型只能生成正確的分子。

圖 1：受限協作圖擴散模型，CoCoGraph。

這就是 CoCoGraph 的核心設計：把分子擴散過程定義成一種離散的「雙邊交換」（double edge swapping, DES）操作。每一步不再隨意加噪聲，而是隨機選取兩條化學鍵并刪除，再重連成兩條新鍵，從而在 noising 和 denoising 的每個階段都保持原子數、分子式和度序列，也就是價態約束。

作者強調，這樣做的結果是，凡是不滿足化學約束的圖根本不會進入生成空間，模型也不需要學會化學規則本身，只需要學習真實分子更細微的結構模式。為了讓這個過程既穩又小，BASE 版只需要約 534K 參數，遠少于對比模型 JTVAE 的 5.3M 和 DiGress 的 4.6M。

對于生成過程，特殊的協作機制發揮了它的作用。擴散模型預測下一步應撤銷哪一組雙邊交換，時間模型則估計當前圖離原始分子還有多遠。前者接收分子圖特征和擴散時刻，輸出所有可能 DES 的概率；后者輸入當前分子圖，回歸一個 0 到 1 之間的歸一化時間值。

圖 2：基于GuacaMol基準的模型對比。

得益于這兩種設計，BASE 版和 FPS 版都達到了100% chemical validity，而且沒有犧牲多樣性：兩者的 uniqueness 都是99.9%，novelty 分別為98.6%和98.5%。

更真實的化學，而不只是某類化學

作者隨后把評價尺度擴展到 36 個化學性質，涵蓋分子大小、拓撲、電子性質和藥物相似性等指標。結果顯示，CoCoGraph 在 36 項里有23 項優于 DiGress，33 項優于 JTVAE；在選出的 10 個代表性屬性中，它對 heavy atom count、valence electrons 等多項性質的分布擬合都更接近原始分子。

圖 3：對 36 種化學性質子集進行詳細性能比較。

此外，因為模型足夠輕，CoCoGraph 能在單塊中端 GPU 上每小時生成成千上萬條有效分子。團隊據此構建了一個包含8.2 million條合成分子的數據庫，其中只有7.1%是冗余，換言之大約7.6 million條是新穎且有效的分子結構。

為了驗證這些結構是否真的「像化學」，團隊還做了一個分子版圖靈測試：把真實分子和 CoCoGraph 生成分子配成同分子式的對照對，交給 102 位有機化學相關背景的參與者判斷。總共 2040 次判別中，專家平均準確率只有62%；本科背景者是59%，研究生背景者是64%。

更微妙的是，對于無環分子和以脂肪族鍵為主的分子，參與者表現甚至接近50%的隨機猜測水平，說明這類生成結果已經相當接近真實分子的視覺與結構直覺。

圖 4：在圖靈類測試中表現。

挑戰真實分子生成

研究團隊明確表示這只是開始。中期到長期的主要目標是能夠向人工智能請求具有特定性質的分子；例如，請求一種可溶性、無毒且適用于特定應用的分子。他們將目標鎖定在分子生成上，并期望著能將特定目標應用于這一過程。

對藥物開發、材料設計、催化和環境分子發現來說，這意味著分子生成不必先在無效空間里空轉，而可以直接在可行化學空間里做高密度探索。該研究給出的 8.2 million 分子數據庫，也因此不只是一個結果展示，而是一張能繼續被下游任務調用的化學地形圖。

https://phys.org/news/2026-05-chemistry-aware-ai-generate-millions.html

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.