網易首頁 > 網易號 > 正文申請入駐

MLIPs 邁入自主設計與演化時代

2026-05-26 15:24:44　來源: 化學加網

廣東舉報

分享至

MLIPs 邁入自主設計與演化時代

AutoResearch-MLIP：讓每一個假設、每一次失敗，都成為下一輪研究的依據

Paper: Agentic, autonomous design evolution of machine-learned interatomic potentials

文章預印：https://chemrxiv.org/doi/full/10.26434/chemrxiv.15003852/v1

代碼開源：https://github.com/pic-ai-robotic-chemistry/Agentic-auto-designed-MLIPs

一句話概括：AutoResearch-MLIP 以機器學習力場為研究對象，構建了一套自主科研閉環——智能體持續提出設計假設、修改代碼、運行評估、記錄失敗，并以此指導下一步，整個演化過程有據可查、可以回溯。

自主科研的關鍵：讓每一步都留下可追溯的記錄

已有的科研智能體工作大多聚焦在工具調用、代碼生成和自動運行實驗上。AutoResearch-MLIP 關注的是更進一步的問題：智能體能否形成真正意義上的研究過程——持續提出假設、修改代碼、運行評估、讀取結果、記錄失敗，并把這些記錄帶入下一輪？

評價這類系統，不能只看最終模型的分數。一個高分候選可能來自偶然的搜索；一次暫時的失敗，往往反而為下一輪嘗試提供靈感。真正需要檢查的是完整的研究過程：每個想法怎么落到代碼，評估結果如何影響了后續決策，哪些失敗被記錄，又改變了什么。

為什么選 MLIP 作為試驗場

機器學習原子間勢（machine-learned interatomic potentials，MLIPs）是一個理想的測試對象。一個 MLIP 由多個可以獨立實現、組合和繼承的設計模塊構成——包括局域相互作用、讀出層與組成建模、特征表示方式、長程能量項、周期圖構造和訓練目標。

這些模塊不僅可以寫成代碼，還可以在分子動力學和周期性晶體任務上被定量評估。MLIP 開發天然對應一個"提出假設 → 實現代碼 → 評估結果 → 繼承或放棄"的研究循環，是檢驗自主科研系統能否產生可追溯設計演化的合適試驗場。

系統設計：讓每個候選都來自受控的代碼修改

AutoResearch-MLIP 的運行依托一套預定義的技能約束框架（skill-programmed harness），明確規定智能體的操作范圍和行為邊界。其中，MLIP-Evidence 負責將論文、代碼倉庫和代碼分析轉化為結構化的設計證據；MLIP-Autoresearch 負責試驗調度、評估對接、錯誤修復和繼續決策。關鍵約束是：智能體只能修改候選 MLIP 的代碼，不能更改評估器、數據劃分或指標定義。

這套機制的核心作用是把"生成一個候選想法"變成"完成一次受控評估"。每個候選必須先被實現為代碼修改，通過固定評估器，得到明確的結果記錄，才進入繼承、延遲或拒絕的后續流程——這是它進入可追溯研究軌跡的前提。

圖 1｜AutoResearch-MLIP 的基本流程。左側是傳統的一次性候選生成流程；右側是 AutoResearch-MLIP：設計樹、證據與失敗記錄、評估規則共同約束智能體的全部操作，構成有邊界的自主科研運行框架。

從一個近零 MLP 出發：40 代、280 個候選

實驗從一個刻意設計得很弱的初始模型出發——基于原子間距的近零 MLP，可以運行、可以微分，同時作為整個演化過程的評分基準。

此后進行了 40 代演化，每代提出 10 個方向，通常選擇 8 個候選實現并評估，共積累 280 個已評估候選。圖 2 展示了整體演化軌跡：灰點是每代所有已評估候選，藍線是每代最高分候選，橙線是實際被選為下一輪起點的候選。

兩條線并不總是重合——這正是 AutoResearch-MLIP 的核心設計之一：最高分候選和研究延續方向是兩個獨立的決策。前者作為證據保留，后者可以選擇分數較低但借鑒意義更強的分支繼續展開。

圖 2｜40 代評估軌跡。藍線為每代最高分候選，橙線為實際選為下一輪起點的候選；虛線標出周期材料評估模塊加入的位置。

設計模塊在代際傳承中逐步積累

圖 3 展示的不是分數，而是被選為延續起點的代碼中實際保留了哪些設計模塊。

演化路徑從初始 pair-distance MLP 出發，依次加入局域消息傳遞、讀出層與組成建模、角度/高階/張量特征、長程能量項，最后在周期性晶體訓練階段引入包含鏡像偏移信息的周期性結構。藍色方塊標注某個模塊首次加入或發生實質變化的位置；淺色單元表示該模塊在后續延續起點的代碼中被繼續保留。

設計元素的積累不是線性的——高分候選可以留存為證據，而延續方向未必是當前最高分的那條分支。

圖 3｜被選為下一輪起點的代碼中實際攜帶的模型組件。淺色單元為被繼承的模塊，藍色方塊為新增或有實質改動的模塊。

失敗不只是低分——它是下一步的邊界

AutoResearch-MLIP 中，失敗不等于低分，而是一類包含約束信息的結果記錄。每次失敗、對照實驗或局部改進，都會被明確標注，并限制下一輪探索可以嘗試什么、需要繞開什么。

幾個典型例子：早期部分生成分支劣于保留的父代候選；中期某些單一模塊的改進沒能提升總分；周期材料階段，單純調整訓練日程、截斷半徑或殘差尾項，均無法讓分子模型遷移到周期材料。這些失敗記錄進入系統記憶，直接改變了后續的搜索方向。

正因如此，系統采用非貪心延續策略：高分候選留存為證據，實際展開的分支可以是分數更低但研究價值更高的方向。

周期材料階段：驗證實現路徑，而非重新發現物理規律

周期邊界條件本身不是新知識。這一階段真正要檢驗的是：從分子任務演化出來的模型，是否把晶胞和周期鏡像信息正確傳入了圖結構。

G026 到 G034 的系列嘗試均未產生穩定的周期性信號——調整訓練參數、截斷平滑和殘差項都不奏效。G035 的圖修復改變了圖的構造方式：將周期鏡像作為獨立鄰邊保留，并讓鏡像偏移信息參與消息傳遞。修復后，周期性材料相關的指標出現明顯躍升。

隨后，系統并未把 G038 的高分直接視為原因明確的進步。G039 批次的所有子代均未超過 G038，對照重訓的得分也有所下降。系統因此保留 G038 作為當前最優證據，同時選擇分數略低但歸因更清晰的 G039 分支繼續展開。G040 從這一分支出發，最終達到當前評估下的新前沿。

圖 4｜周期圖修復與歸因驗證后的性能恢復。上圖展示 G035 之后周期材料指標的躍升；下圖展示 G039 歸因驗證如何將證據保留與延續方向的選擇分開處理。

外部基準：演化結果不只適用于內部評估

內部評估器僅用于指導演化方向，不代表通用性。為此，研究對第 40 代候選進行了獨立的外部驗證，與 NequIP、Allegro、CHGNet、MatGL-M3GNet 在相同短訓練條件下進行對比，且外部基準的結果未參與任何延續決策。

在 MD22（大分子動力學遷移性測試）上，最終候選的能量誤差接近 NequIP，力誤差低于 NequIP 和 Allegro。在 Sub-OMat24（周期結構外部子集）上，力誤差優于所有對比基線，但能量校準不如專為材料預訓練設計的 MatGL-M3GNet——這在預期之內。

AutoResearch-MLIP 不聲稱演化出了通用勢函數。這組結果說明的是：通過連續演化得到的候選，在不針對外部基準做優化的前提下，也能在多項外部指標上表現出競爭力。

圖 5｜外部基準對比。紅色為 AutoResearch-MLIP 最終候選（第 40 代），灰色為外部基線；結果均基于相同短訓練協議。

下一步：從分數優化到表征演化

目前的評估器以能量誤差和力誤差為核心。一個自然的下一步是把評估目標推進到表征層：不只是讓模型在某個基準上得分更高，而是演化出更可復用、更具可解釋性的內部表示。

近期關于 MLIP 表征空間的研究發現，不同架構的模型在經過錨點投影后，原子環境在隱空間呈現出相近的幾何結構。這提示未來的評估器可以進一步納入跨模型的表征對齊、結構不變性的診斷信號。

如果這一方向走通，AutoResearch-MLIP 的自主演化循環就不再只是搜索高分模型，而是朝著科學上更可復用、更可遷移的設計原則推進。

總結

AutoResearch-MLIP 在機器學習力場這一真實科學建模問題上，構建了一套有跡可循的自主演化研究框架：智能體在固定評估規則下，將假設提出、代碼實現、結果評估、失敗記錄和分支決策，連接成一套完整、可回溯的研究過程。

AutoResearch-MLIP 由中國科大機器化學家團隊與華為 MindSpore Science 團隊聯合開發，已可通過"靈境造物"科研平臺使用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.