MLIPs 邁入自主設計與演化時代
AutoResearch-MLIP:讓每一個假設、每一次失敗,都成為下一輪研究的依據
Paper: Agentic, autonomous design evolution of machine-learned interatomic potentials
文章預印:https://chemrxiv.org/doi/full/10.26434/chemrxiv.15003852/v1
代碼開源:https://github.com/pic-ai-robotic-chemistry/Agentic-auto-designed-MLIPs
一句話概括:AutoResearch-MLIP 以機器學習力場為研究對象,構建了一套自主科研閉環——智能體持續提出設計假設、修改代碼、運行評估、記錄失敗,并以此指導下一步,整個演化過程有據可查、可以回溯。
自主科研的關鍵:讓每一步都留下可追溯的記錄
已有的科研智能體工作大多聚焦在工具調用、代碼生成和自動運行實驗上。AutoResearch-MLIP 關注的是更進一步的問題:智能體能否形成真正意義上的研究過程——持續提出假設、修改代碼、運行評估、讀取結果、記錄失敗,并把這些記錄帶入下一輪?
評價這類系統,不能只看最終模型的分數。一個高分候選可能來自偶然的搜索;一次暫時的失敗,往往反而為下一輪嘗試提供靈感。真正需要檢查的是完整的研究過程:每個想法怎么落到代碼,評估結果如何影響了后續決策,哪些失敗被記錄,又改變了什么。
為什么選 MLIP 作為試驗場
機器學習原子間勢(machine-learned interatomic potentials,MLIPs)是一個理想的測試對象。一個 MLIP 由多個可以獨立實現、組合和繼承的設計模塊構成——包括局域相互作用、讀出層與組成建模、特征表示方式、長程能量項、周期圖構造和訓練目標。
這些模塊不僅可以寫成代碼,還可以在分子動力學和周期性晶體任務上被定量評估。MLIP 開發天然對應一個"提出假設 → 實現代碼 → 評估結果 → 繼承或放棄"的研究循環,是檢驗自主科研系統能否產生可追溯設計演化的合適試驗場。
系統設計:讓每個候選都來自受控的代碼修改
AutoResearch-MLIP 的運行依托一套預定義的技能約束框架(skill-programmed harness),明確規定智能體的操作范圍和行為邊界。其中,MLIP-Evidence 負責將論文、代碼倉庫和代碼分析轉化為結構化的設計證據;MLIP-Autoresearch 負責試驗調度、評估對接、錯誤修復和繼續決策。關鍵約束是:智能體只能修改候選 MLIP 的代碼,不能更改評估器、數據劃分或指標定義。
這套機制的核心作用是把"生成一個候選想法"變成"完成一次受控評估"。每個候選必須先被實現為代碼修改,通過固定評估器,得到明確的結果記錄,才進入繼承、延遲或拒絕的后續流程——這是它進入可追溯研究軌跡的前提。
![]()
圖 1|AutoResearch-MLIP 的基本流程。左側是傳統的一次性候選生成流程;右側是 AutoResearch-MLIP:設計樹、證據與失敗記錄、評估規則共同約束智能體的全部操作,構成有邊界的自主科研運行框架。
從一個近零 MLP 出發:40 代、280 個候選
實驗從一個刻意設計得很弱的初始模型出發——基于原子間距的近零 MLP,可以運行、可以微分,同時作為整個演化過程的評分基準。
此后進行了 40 代演化,每代提出 10 個方向,通常選擇 8 個候選實現并評估,共積累 280 個已評估候選。圖 2 展示了整體演化軌跡:灰點是每代所有已評估候選,藍線是每代最高分候選,橙線是實際被選為下一輪起點的候選。
兩條線并不總是重合——這正是 AutoResearch-MLIP 的核心設計之一:最高分候選和研究延續方向是兩個獨立的決策。前者作為證據保留,后者可以選擇分數較低但借鑒意義更強的分支繼續展開。
![]()
圖 2|40 代評估軌跡。藍線為每代最高分候選,橙線為實際選為下一輪起點的候選;虛線標出周期材料評估模塊加入的位置。
設計模塊在代際傳承中逐步積累
圖 3 展示的不是分數,而是被選為延續起點的代碼中實際保留了哪些設計模塊。
演化路徑從初始 pair-distance MLP 出發,依次加入局域消息傳遞、讀出層與組成建模、角度/高階/張量特征、長程能量項,最后在周期性晶體訓練階段引入包含鏡像偏移信息的周期性結構。藍色方塊標注某個模塊首次加入或發生實質變化的位置;淺色單元表示該模塊在后續延續起點的代碼中被繼續保留。
設計元素的積累不是線性的——高分候選可以留存為證據,而延續方向未必是當前最高分的那條分支。
![]()
圖 3|被選為下一輪起點的代碼中實際攜帶的模型組件。淺色單元為被繼承的模塊,藍色方塊為新增或有實質改動的模塊。
失敗不只是低分——它是下一步的邊界
AutoResearch-MLIP 中,失敗不等于低分,而是一類包含約束信息的結果記錄。每次失敗、對照實驗或局部改進,都會被明確標注,并限制下一輪探索可以嘗試什么、需要繞開什么。
幾個典型例子:早期部分生成分支劣于保留的父代候選;中期某些單一模塊的改進沒能提升總分;周期材料階段,單純調整訓練日程、截斷半徑或殘差尾項,均無法讓分子模型遷移到周期材料。這些失敗記錄進入系統記憶,直接改變了后續的搜索方向。
正因如此,系統采用非貪心延續策略:高分候選留存為證據,實際展開的分支可以是分數更低但研究價值更高的方向。
周期材料階段:驗證實現路徑,而非重新發現物理規律
周期邊界條件本身不是新知識。這一階段真正要檢驗的是:從分子任務演化出來的模型,是否把晶胞和周期鏡像信息正確傳入了圖結構。
G026 到 G034 的系列嘗試均未產生穩定的周期性信號——調整訓練參數、截斷平滑和殘差項都不奏效。G035 的圖修復改變了圖的構造方式:將周期鏡像作為獨立鄰邊保留,并讓鏡像偏移信息參與消息傳遞。修復后,周期性材料相關的指標出現明顯躍升。
隨后,系統并未把 G038 的高分直接視為原因明確的進步。G039 批次的所有子代均未超過 G038,對照重訓的得分也有所下降。系統因此保留 G038 作為當前最優證據,同時選擇分數略低但歸因更清晰的 G039 分支繼續展開。G040 從這一分支出發,最終達到當前評估下的新前沿。
![]()
圖 4|周期圖修復與歸因驗證后的性能恢復。上圖展示 G035 之后周期材料指標的躍升;下圖展示 G039 歸因驗證如何將證據保留與延續方向的選擇分開處理。
外部基準:演化結果不只適用于內部評估
內部評估器僅用于指導演化方向,不代表通用性。為此,研究對第 40 代候選進行了獨立的外部驗證,與 NequIP、Allegro、CHGNet、MatGL-M3GNet 在相同短訓練條件下進行對比,且外部基準的結果未參與任何延續決策。
在 MD22(大分子動力學遷移性測試)上,最終候選的能量誤差接近 NequIP,力誤差低于 NequIP 和 Allegro。在 Sub-OMat24(周期結構外部子集)上,力誤差優于所有對比基線,但能量校準不如專為材料預訓練設計的 MatGL-M3GNet——這在預期之內。
AutoResearch-MLIP 不聲稱演化出了通用勢函數。這組結果說明的是:通過連續演化得到的候選,在不針對外部基準做優化的前提下,也能在多項外部指標上表現出競爭力。
![]()
圖 5|外部基準對比。紅色為 AutoResearch-MLIP 最終候選(第 40 代),灰色為外部基線;結果均基于相同短訓練協議。
下一步:從分數優化到表征演化
目前的評估器以能量誤差和力誤差為核心。一個自然的下一步是把評估目標推進到表征層:不只是讓模型在某個基準上得分更高,而是演化出更可復用、更具可解釋性的內部表示。
近期關于 MLIP 表征空間的研究發現,不同架構的模型在經過錨點投影后,原子環境在隱空間呈現出相近的幾何結構。這提示未來的評估器可以進一步納入跨模型的表征對齊、結構不變性的診斷信號。
如果這一方向走通,AutoResearch-MLIP 的自主演化循環就不再只是搜索高分模型,而是朝著科學上更可復用、更可遷移的設計原則推進。
總結
AutoResearch-MLIP 在機器學習力場這一真實科學建模問題上,構建了一套有跡可循的自主演化研究框架:智能體在固定評估規則下,將假設提出、代碼實現、結果評估、失敗記錄和分支決策,連接成一套完整、可回溯的研究過程。
AutoResearch-MLIP 由中國科大機器化學家團隊與華為 MindSpore Science 團隊聯合開發,已可通過"靈境造物"科研平臺使用。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.