網易首頁 > 網易號 > 正文申請入駐

LeetCode C++近滿分！Autogenesis要給智能體裝上自進化操作系統

2026-05-31 19:50:42　來源: 機器之心Pro

天津舉報

分享至

大模型智能體正在快速演進。從工具調用、網頁瀏覽、多智能體協作，到 MCP、A2A 等協議的出現，Agent 系統似乎已經擁有了越來越強的外部連接能力。

但一個核心問題仍然懸而未決：如果智能體不僅要調用工具，還要在運行過程中安全地修改自己、優化自己、進化自己，現有協議真的夠用嗎？

近日，來自南洋理工大學、斯坦福大學和普林斯頓大學等機構的一個聯合團隊提出了一個面向智能體自我進化的雙層協議架構Autogenesis Protocol（AGP），并基于該協議構建了Autogenesis System（AGS）。

AGS 可以在執行任務過程中動態注冊、檢索、修改和復用智能體內部資源，包括 Prompt、Agent、Tool、Environment 和 Memory，實現可追蹤、可回滾、可審計的閉環自進化。

論文標題：Autogenesis: A Self-Evolving Agent Protocol
論文鏈接：https://arxiv.org/abs/2604.15034
GitHub：https://github.com/DVampire/Autogenesis

本文第一作者是南洋理工大學張文濤，斯坦福大學趙哲和香港城市大學溫海斌，主要研究方向包括智能體自進化、強化學習，大語言模型等，通訊作者為普林斯頓大學王夢迪教授，南洋理工大學安波教授和普林斯頓大學尹明研究員。

從 “會用工具” 到 “會進化自己”

當前的智能體系統已經具備較強的任務執行能力，但很多系統仍然高度依賴事先預定好的工具、固定的工作流等。

這帶來了三個關鍵問題：

第一，系統組件高度耦合。Prompt、工具、記憶、環境和 Agent 邏輯通常被寫死在同一個框架中。一旦任務變化，系統往往需要人工修改代碼或重寫工作流。

第二，缺少生命周期和版本管理。智能體如果在運行過程中修改 Prompt、工具代碼或記憶內容，如何知道智能體到底改了什么？為什么改？改壞了能不能回滾？

第三，自進化仍然偏 “經驗主義”。很多系統所謂的自我改進，本質上是讓模型反思一下、改一下 Prompt 或代碼。但這種改動缺乏統一接口、缺乏審計機制，也難以復現和安全擴展。

換句話說，現有智能體生態已經有了 “連接協議”，但還缺少真正面向自進化的協議。

核心理念

把 “什么能進化” 和 “如何進化” 解耦

Autogenesis Protocol（AGP）的核心設計非常清晰：

將自進化拆成兩層：

Resource Substrate Protocol Layer（RSPL）資源基底協議層負責定義 “什么東西可以被進化”。
Self-Evolution Protocol Layer（SEPL）自進化協議層則負責定義 “如何安全地進化”。

過去的智能體系統往往把 Prompt、工具、Agent 代碼、記憶和環境直接混在執行邏輯里。AGP 則把它們全部抽象成協議注冊資源，并為每個資源配備顯式狀態、生命周期、版本接口和可演化標記。論文將五類資源作為 RSPL 的核心實體：Prompt、Agent、Tool/MCP/Skill、Environment、Memory。

也就是說，在 AGP 中，這些智能體的必要組件都變成了可以被注冊、檢索、更新、回滾和審計的協議級資源。

這讓智能體系統從 “代碼工程” 邁向了 “資源治理”。

RSPL：讓智能體內部資源變得可管理、可復用、可回滾

在 Autogenesis 中，RSPL 相當于智能體自進化的 “操作系統底座”。

它為每類資源提供統一的上下文管理器和服務接口，支持注冊、調用、版本管理、回滾、合約生成、執行追蹤等操作。

論文中強調，RSPL 的資源本身是 “被動” 的：它們不會自己偷偷修改自己。所有狀態變化都必須通過更高層的 SEPL 接口完成。這樣一來，系統既能進化，又不會變成不可控的黑箱。

這也是 AGP 區別于普通工具協議的關鍵：它不是只讓模型 “調用工具”，而是讓整個智能體系統的內部組件都進入可治理、可審計、可演化的狀態。

SEPL：把自我改進變成閉環控制

如果說 RSPL 定義了 “哪些資源可以進化”，那么 SEPL 就定義了 “進化應該遵循怎樣的標準”。

Autogenesis 將自進化形式化為一個閉環操作流程：

Reflect → Select → Improve → Evaluate → Commit

更重要的是，每一次修改都不是直接寫進系統，而是通過 RSPL 的版本化接口完成。也就是說，Autogenesis 的自進化不是一句 “請你改進自己” 的 Prompt，生成的不是一個簡陋的 patch, 而是一套可組合、可追蹤、可回滾的協議操作。

此外，SEPL 并不綁定某一種優化方法。Reflection Optimizer、TextGrad、Reinforce++、GRPO 等不同優化策略，都可以被映射到同一個 SEPL 操作接口中。

這意味著 AGP 不只是一個系統實現，而更像是一個面向未來自進化 Agent 的通用協議框架。

AGS：基于 AGP 構建的自進化多智能體系統

在協議之上，論文還進一步構建了一個多智能體系統Autogenesis System（AGS）。

AGS 是一個自進化多智能體系統，Planning Agent 和多個子智能體都作為一等參與者注冊，通過標準化消息進行通信。這樣每個智能體都可以被替換、更新或進化，而不會破壞整個系統。

AGS 中包含多個典型子智能體，包括 Planning Agent，Deep Researcher Agent，Browser-use Agent ，Deep Analyzer Agent，Vibe Coding Agent

AGS 的工作流可以概括為：先規劃，再并行執行；邊執行，邊記錄軌跡；發現失敗后觸發自進化；進化成功后，新能力立刻進入資源注冊表，并被后續任務復用。

性能突破：GAIA Validation 達到 93.33%

重新刷新通用智能體上限

在 GAIA 基準測試中，AGS 展現出非常強的通用任務解決能力。論文報告顯示，在 GAIA Validation 上，AGS 的 Agent-Evo 版本達到93.33%平均準確率；在 GAIA Test 上達到89.04%，相比 Vanilla baseline 的 79.07% 提升了12.61%。其中 Level 3 難題提升尤其顯著，從 61.22% 提升到 81.63%，相對提升33.34%。

在 HLE（Humanity’s Last Exam）全量測試中，AGS 也取得了59.6%的成績，論文圖表顯示其排名第二，僅次于 Claude Mythos Preview。

數學與科學推理

在 GPQA-Diamond、AIME24 和 AIME25 等科學與數學推理任務中，AGS 進一步驗證了自進化的普適性。

代碼能力：LeetCode 五語言全面提升

C++ 接近滿分

為了評估推理期自進化在代碼任務中的效果，論文還構建了一個基于 LeetCode 的算法編程 Benchmark，包含 100 道近期發布的問題，并在 Python3、C++、Java、Go、Kotlin 五種語言上進行測試。

結果非常亮眼：

其中 C++ 和 Java 的表現尤其突出，接近 “刷滿” 100 題。

更關鍵的是，自進化不只是提高通過率，還顯著減少了編譯錯誤、運行錯誤、超時和錯誤答案等執行阻塞問題。論文指出，Solution-Evo 在五種語言中均帶來 pass rate 提升，C++、Java、Go、Kotlin 等編譯型語言還獲得明顯運行時優化。

這表明 Autogenesis 不只是會 “想得更好”，也會 “寫得更穩、更快”。

下一代 Agent 的關鍵

是可治理的進化能力

Autogenesis 的意義，不只在于刷新了某些 Benchmark 分數，而在于它把 Agent 系統中一個更底層的問題提了出來：當智能體不再只是執行任務，而是開始修改 Prompt、調用或生成 Tool、更新 Memory、調整 Agent 行為時，這些變化應該如何被管理？

如果缺少統一機制，所謂 “自我改進” 很容易變成一次次臨時 patch：改了什么不清楚，為什么改不清楚，效果是否真的變好不清楚，出錯后也難以回滾。

Autogenesis 給出的答案是把自進化納入協議化治理。

通過 AGP，智能體的各個組件被統一注冊為可管理資源，通過 RSPL，系統明確 “哪些資源可以被演化”；通過 SEPL，系統把自我修改納入表中的反思、選擇、改進、評估、提交的閉環流程。

因此，Autogenesis 真正強調的不是讓 Agent 擁有更多工具，而是讓 Agent 擁有一套能夠安全管理自身變化的機制。

未來的通用智能體，可能不只是 “工具更多、上下文更長、模型更強”，還需要具備一種更重要的能力：知道自己哪里不夠好，并能以可控、可審計、可回滾的方式持續變得更好。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.