无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

LeetCode C++近滿分!Autogenesis要給智能體裝上自進化操作系統

0
分享至



大模型智能體正在快速演進。從工具調用、網頁瀏覽、多智能體協作,到 MCP、A2A 等協議的出現,Agent 系統似乎已經擁有了越來越強的外部連接能力。

但一個核心問題仍然懸而未決:如果智能體不僅要調用工具,還要在運行過程中安全地修改自己、優化自己、進化自己,現有協議真的夠用嗎?

近日,來自南洋理工大學、斯坦福大學和普林斯頓大學等機構的一個聯合團隊提出了一個面向智能體自我進化的雙層協議架構Autogenesis Protocol(AGP),并基于該協議構建了Autogenesis System(AGS)。

AGS 可以在執行任務過程中動態注冊、檢索、修改和復用智能體內部資源,包括 Prompt、Agent、Tool、Environment 和 Memory,實現可追蹤、可回滾、可審計的閉環自進化。



  • 論文標題:Autogenesis: A Self-Evolving Agent Protocol
  • 論文鏈接:https://arxiv.org/abs/2604.15034
  • GitHub:https://github.com/DVampire/Autogenesis

本文第一作者是南洋理工大學張文濤,斯坦福大學趙哲和香港城市大學溫海斌,主要研究方向包括智能體自進化、強化學習,大語言模型等,通訊作者為普林斯頓大學王夢迪教授,南洋理工大學安波教授和普林斯頓大學尹明研究員。

從 “會用工具” 到 “會進化自己”

當前的智能體系統已經具備較強的任務執行能力,但很多系統仍然高度依賴事先預定好的工具、固定的工作流等。

這帶來了三個關鍵問題:

第一,系統組件高度耦合。Prompt、工具、記憶、環境和 Agent 邏輯通常被寫死在同一個框架中。一旦任務變化,系統往往需要人工修改代碼或重寫工作流。

第二,缺少生命周期和版本管理。智能體如果在運行過程中修改 Prompt、工具代碼或記憶內容,如何知道智能體到底改了什么?為什么改?改壞了能不能回滾?

第三,自進化仍然偏 “經驗主義”。很多系統所謂的自我改進,本質上是讓模型反思一下、改一下 Prompt 或代碼。但這種改動缺乏統一接口、缺乏審計機制,也難以復現和安全擴展。

換句話說,現有智能體生態已經有了 “連接協議”,但還缺少真正面向自進化的協議。

核心理念

把 “什么能進化” 和 “如何進化” 解耦

Autogenesis Protocol(AGP)的核心設計非常清晰:

將自進化拆成兩層:

  1. Resource Substrate Protocol Layer(RSPL)資源基底協議層負責定義 “什么東西可以被進化”。
  2. Self-Evolution Protocol Layer(SEPL)自進化協議層則負責定義 “如何安全地進化”。



過去的智能體系統往往把 Prompt、工具、Agent 代碼、記憶和環境直接混在執行邏輯里。AGP 則把它們全部抽象成協議注冊資源,并為每個資源配備顯式狀態、生命周期、版本接口和可演化標記。論文將五類資源作為 RSPL 的核心實體:Prompt、Agent、Tool/MCP/Skill、Environment、Memory。

也就是說,在 AGP 中,這些智能體的必要組件都變成了可以被注冊、檢索、更新、回滾和審計的協議級資源。

這讓智能體系統從 “代碼工程” 邁向了 “資源治理”。

RSPL:讓智能體內部資源變得可管理、可復用、可回滾

在 Autogenesis 中,RSPL 相當于智能體自進化的 “操作系統底座”。

它為每類資源提供統一的上下文管理器和服務接口,支持注冊、調用、版本管理、回滾、合約生成、執行追蹤等操作。

論文中強調,RSPL 的資源本身是 “被動” 的:它們不會自己偷偷修改自己。所有狀態變化都必須通過更高層的 SEPL 接口完成。這樣一來,系統既能進化,又不會變成不可控的黑箱。

這也是 AGP 區別于普通工具協議的關鍵:它不是只讓模型 “調用工具”,而是讓整個智能體系統的內部組件都進入可治理、可審計、可演化的狀態。

SEPL:把自我改進變成閉環控制

如果說 RSPL 定義了 “哪些資源可以進化”,那么 SEPL 就定義了 “進化應該遵循怎樣的標準”。

Autogenesis 將自進化形式化為一個閉環操作流程:

Reflect → Select → Improve → Evaluate → Commit

更重要的是,每一次修改都不是直接寫進系統,而是通過 RSPL 的版本化接口完成。也就是說,Autogenesis 的自進化不是一句 “請你改進自己” 的 Prompt,生成的不是一個簡陋的 patch, 而是一套可組合、可追蹤、可回滾的協議操作。

此外,SEPL 并不綁定某一種優化方法。Reflection Optimizer、TextGrad、Reinforce++、GRPO 等不同優化策略,都可以被映射到同一個 SEPL 操作接口中。

這意味著 AGP 不只是一個系統實現,而更像是一個面向未來自進化 Agent 的通用協議框架。

AGS:基于 AGP 構建的自進化多智能體系統

在協議之上,論文還進一步構建了一個多智能體系統Autogenesis System(AGS)。

AGS 是一個自進化多智能體系統,Planning Agent 和多個子智能體都作為一等參與者注冊,通過標準化消息進行通信。這樣每個智能體都可以被替換、更新或進化,而不會破壞整個系統。

AGS 中包含多個典型子智能體,包括 Planning Agent,Deep Researcher Agent,Browser-use Agent ,Deep Analyzer Agent,Vibe Coding Agent

AGS 的工作流可以概括為:先規劃,再并行執行;邊執行,邊記錄軌跡;發現失敗后觸發自進化;進化成功后,新能力立刻進入資源注冊表,并被后續任務復用。

性能突破:GAIA Validation 達到 93.33%

重新刷新通用智能體上限

在 GAIA 基準測試中,AGS 展現出非常強的通用任務解決能力。論文報告顯示,在 GAIA Validation 上,AGS 的 Agent-Evo 版本達到93.33%平均準確率;在 GAIA Test 上達到89.04%,相比 Vanilla baseline 的 79.07% 提升了12.61%。其中 Level 3 難題提升尤其顯著,從 61.22% 提升到 81.63%,相對提升33.34%。



在 HLE(Humanity’s Last Exam)全量測試中,AGS 也取得了59.6%的成績,論文圖表顯示其排名第二,僅次于 Claude Mythos Preview。



數學與科學推理

在 GPQA-Diamond、AIME24 和 AIME25 等科學與數學推理任務中,AGS 進一步驗證了自進化的普適性。



代碼能力:LeetCode 五語言全面提升

C++ 接近滿分

為了評估推理期自進化在代碼任務中的效果,論文還構建了一個基于 LeetCode 的算法編程 Benchmark,包含 100 道近期發布的問題,并在 Python3、C++、Java、Go、Kotlin 五種語言上進行測試。

結果非常亮眼:



其中 C++ 和 Java 的表現尤其突出,接近 “刷滿” 100 題。

更關鍵的是,自進化不只是提高通過率,還顯著減少了編譯錯誤、運行錯誤、超時和錯誤答案等執行阻塞問題。論文指出,Solution-Evo 在五種語言中均帶來 pass rate 提升,C++、Java、Go、Kotlin 等編譯型語言還獲得明顯運行時優化。

這表明 Autogenesis 不只是會 “想得更好”,也會 “寫得更穩、更快”。

下一代 Agent 的關鍵

是可治理的進化能力

Autogenesis 的意義,不只在于刷新了某些 Benchmark 分數,而在于它把 Agent 系統中一個更底層的問題提了出來:當智能體不再只是執行任務,而是開始修改 Prompt、調用或生成 Tool、更新 Memory、調整 Agent 行為時,這些變化應該如何被管理?

如果缺少統一機制,所謂 “自我改進” 很容易變成一次次臨時 patch:改了什么不清楚,為什么改不清楚,效果是否真的變好不清楚,出錯后也難以回滾。

Autogenesis 給出的答案是把自進化納入協議化治理。

通過 AGP,智能體的各個組件被統一注冊為可管理資源,通過 RSPL,系統明確 “哪些資源可以被演化”;通過 SEPL,系統把自我修改納入表中的反思、選擇、改進、評估、提交的閉環流程。

因此,Autogenesis 真正強調的不是讓 Agent 擁有更多工具,而是讓 Agent 擁有一套能夠安全管理自身變化的機制。

未來的通用智能體,可能不只是 “工具更多、上下文更長、模型更強”,還需要具備一種更重要的能力:知道自己哪里不夠好,并能以可控、可審計、可回滾的方式持續變得更好。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
明天鄭麗文正式訪美,隨團名單曝光,六大行程曝光,不簡單

明天鄭麗文正式訪美,隨團名單曝光,六大行程曝光,不簡單

DS北風
2026-05-31 14:02:04
研究發現:吃一根香蕉,就等于給血脂添一次堵,真的假的

研究發現:吃一根香蕉,就等于給血脂添一次堵,真的假的

健康之光
2026-05-30 17:59:58
廣西壯族自治區人民政府原副秘書長,辦公廳原黨組成員、副主任唐寧接受審查調查

廣西壯族自治區人民政府原副秘書長,辦公廳原黨組成員、副主任唐寧接受審查調查

界面新聞
2026-05-31 17:03:23
黃仁勛:AI時代無需過度糾結“應該學什么專業”,工作中所需的“人性”部分無法被AI取代

黃仁勛:AI時代無需過度糾結“應該學什么專業”,工作中所需的“人性”部分無法被AI取代

每日經濟新聞
2026-05-31 19:10:24
訪華結束,武契奇帶著遺憾離京:簽了幾十份大單,唯獨沒有殲10CE

訪華結束,武契奇帶著遺憾離京:簽了幾十份大單,唯獨沒有殲10CE

素衣讀史
2026-05-30 21:26:52
豪賭兩岸統一!黃仁勛這招"暗度陳倉",直接把美國政客看傻了

豪賭兩岸統一!黃仁勛這招"暗度陳倉",直接把美國政客看傻了

地球記
2026-05-31 00:23:43
A股:周末突發兩大重磅利好!下周一要變天?會反彈還是誘多?

A股:周末突發兩大重磅利好!下周一要變天?會反彈還是誘多?

風風順
2026-05-31 12:29:29
胖東來:重大失誤,將停售

胖東來:重大失誤,將停售

觀察者網
2026-05-31 11:02:05
沈陽開始“收房子了”,二環以內建面70㎡以下房源可參與!

沈陽開始“收房子了”,二環以內建面70㎡以下房源可參與!

棟察樓市
2026-05-31 13:30:36
張嘉倪已復婚!買超微博仍是張嘉倪老公,疑似張嘉倪為熱度假離婚

張嘉倪已復婚!買超微博仍是張嘉倪老公,疑似張嘉倪為熱度假離婚

八卦王者
2026-05-31 14:18:47
為什么往死里掃黃?網友分享太真實了,一次說透

為什么往死里掃黃?網友分享太真實了,一次說透

另子維愛讀史
2026-05-27 20:16:03
你的公積金是什么段位?

你的公積金是什么段位?

職場資深秘書
2026-05-26 16:25:54
王玉雯布達佩斯看球好嗨,陳星旭幫拎包,16年青梅竹馬太好嗑

王玉雯布達佩斯看球好嗨,陳星旭幫拎包,16年青梅竹馬太好嗑

蒂蒂茱家
2026-05-31 16:25:53
重大損失!蔡元元在澳門去世

重大損失!蔡元元在澳門去世

南方都市報
2026-05-31 09:06:40
“太帥啦” 樊振東戴上發帶引全場女球迷歡呼!0-6后火速回擊質疑

“太帥啦” 樊振東戴上發帶引全場女球迷歡呼!0-6后火速回擊質疑

風過鄉
2026-05-31 08:20:47
倒反天罡,AI開始給人類打分!Claude評分標準曝光: 優秀人類得7.5分

倒反天罡,AI開始給人類打分!Claude評分標準曝光: 優秀人類得7.5分

新智元
2026-05-30 15:07:01
不聽大陸勸告執意訪美,鄭麗文人未啟程,就遭美方公開敲打!

不聽大陸勸告執意訪美,鄭麗文人未啟程,就遭美方公開敲打!

阿傖說事
2026-05-31 01:06:09
是否會代表菲律賓參加亞運會?哈珀:最重要的還是眼下的總決賽

是否會代表菲律賓參加亞運會?哈珀:最重要的還是眼下的總決賽

懂球帝
2026-05-31 15:06:48
“張雪機車”西班牙阿拉貢站第二回合獲第8名

“張雪機車”西班牙阿拉貢站第二回合獲第8名

新京報
2026-05-31 20:37:13
2026-05-31 21:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13126文章數 142656關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

媒體:印度多個領域面臨嚴重問題 莫迪發出罕見的號召

頭條要聞

媒體:印度多個領域面臨嚴重問題 莫迪發出罕見的號召

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

房產
手機
旅游
教育
軍事航空

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

手機要聞

下半年最值得期待的5款旗艦新機,配置規格均清晰,誰最值得期待

旅游要聞

西嶺雪山聯合喇叭河啟動“大綠季” 重構川西文旅全季發展新邏輯

教育要聞

看我怎么來做這道題目,很難嗎?

軍事要聞

解放軍代表質問日防衛大臣:日本何時道歉

無障礙瀏覽 進入關懷版