網易首頁 > 網易號 > 正文申請入駐

首篇自進化智能體系統技術報告出爐：Token成本直降近10倍，省錢又高效！

2026-04-22 16:39:37　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

當 AI 智能體不再只是「一次性工具」，而是能夠持續學習、自我進化的「數字伙伴『數字同事』，會發生什么？自進化智能體應該采取怎樣的設計原則？

全球首個基于「上下文信息密度最大化」設計原則的自進化智能體系統 ——GenericAgent（GA），正式發布其技術報告。

報告顯示，GA 能在保持任務準確率前提下，比同類競爭對手節省近 10 倍 Token。報告深度解讀了 GA 的核心設計理念，介紹了自進化智能體的評測基準，并給出了評測數據，全面剖析 GA 的自進化能力以及智能體設計的可靠思路！

整個報告長達 47 頁，今天大家可以一睹為快！

Github 實時更新版本鏈接：https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdf
arxiv 版本鏈接：https://arxiv.org/abs/2604.17091

GA 是什么？

GenericAgent（GA）是復旦大學知識工場實驗室旗下 A3 實驗室（Advantage AI Agent 實驗室，與深圳夸夸菁領科技有限公司合作）構建的一個通用型、自進化 LLM 智能體系統。

GA 是下一代自組織、自學習、自進化的通用智能體的代表之一，是一個擁有「生命感」，能夠在用戶使用調教下快速學習與成長的數字生命。GA 技術的商業應用版是 DinTal Claw，旨在將這一自進化架構深度應用于政企場景，打造低成本、高效率、安全可控的「數智員工」實戰標桿。

GA 自 2026 年 1 月 11 日開源以來，一度在 github trending python 編程語言登頂第一。力壓OpenAI、Google 等頭部AI企業的開源系統。

先上結論：GA 強在哪？

任務完成率更高：在多個基準測試中，GA 實現 100% 準確率，全面領先主流智能體系統；
Token 消耗更低：相同任務下，Token 消耗僅為主流智能體系統的 15%-35%，省錢又高效；
越用越聰明：重復執行相同任務時，Token 消耗可降低高達 89.6%，真正實現「經驗復用」；
網頁瀏覽更強：在復雜多跳搜索任務中，準確率是基線系統的 3 倍，同時消耗更少資源。

GenericAgent 整體架構圖

為什么你需要關注 GA？

最近，從 Claude Code、OpenAI Codex 到 Openclaw，AI 正在從被動的文本生成器，轉變為能夠主動操作終端、文件系統、瀏覽器的「目標導向型代理」。但是，一個直接的問題擺在用戶面前：「他們真的好用嗎？」

智能體「記性差」，聊著聊著就忘了

傳統智能體隨著交互增多，上下文越來越長，即「上下文爆炸」。關鍵信息反而被淹沒。結果就是：步驟越多，出錯率越高。

每次任務都從零開始，經驗無法積累

今天總結的經驗，明天換個會話就沒了。智能體一直在「重復造輪子」。Token 消耗隨任務數量線性增長，但有效能力卻保持停滯，形成一個沒有累積交互回報的「停滯循環」。

核心洞見：信息密度才是關鍵

面對這些問題，研究團隊提出了一個重磅觀點：

長周期性能的決定因素，不是上下文長度，而是在有限的上下文預算內能夠維持多少與決策相關的信息。

換句話說，上下文信息密度才是核心。通過最大化上下文信息密度可以保證：決策信息不遺漏、冗余信息被消除、上下文可讀性高（次要但重要）。

GenericAgent：四大機制打造自進化智能體

基于「上下文信息密度最大化」這一核心原則，GA 通過四個緊密關聯的組件實現了 Agent：

機制一：最小原子工具集

工具最小化不是限制，而是 GA 在減少交互開銷的同時保持通用能力的核心機制。

GA 只保留了 9 個原子工具，分為五類能力：文件操作、代碼執行、網頁交互、記憶管理、人在回路。并且，這幾個原子工具能夠通過組合泛化，造出新的工具來解決復雜任務。

有趣的是，僅「code_run」這一個工具在理論上就是圖靈完備的，可以復制所有其他工具的功能。那為什么還要保留其他 8 個工具？答案是：最小原子工具集可以降低任務的決策成本。

上表為長程復雜任務結果。五項任務涵蓋文檔生成（PDF/PPT 創建）、SQL 協作查詢生成、實驗分析報告撰寫、結合網絡檢索的采購決策，以及研究論文復現可行性分析，本表報告的是長程任務集上的平均結果。

機制二：分層按需記憶

記憶的核心是按需存取。GA 的關鍵設計是默認僅注入元記憶和 L1 索引層，遵循 L1→L2/L3 路由鏈，僅在需要時檢索更深層的事實或程序知識。這樣，記憶不會穩步擠占當前任務所需的活躍上下文預算。

GA 將記憶組織為四層架構

L1 索引層：緊湊指針，包括高頻入口點、關鍵詞映射和少量硬約束；
L2 事實層：經過驗證且穩定的事實信息，長期有效；
L3 SOP 層：可復用的程序性知識，包括任務工作流、前置條件、關鍵執行步驟、常見失敗案例及相應調試 / 恢復策略；
L4 原始會話存檔層：歷史執行會話，用于持久化和可追溯性。

更巧妙的是，隨著 L2 和 L3 增長，L1 保持有界。每個 L1 條目僅記錄知識類別的「存在性」—— 而非其內容。

這種極端壓縮之所以可行，是因為 LLM 本身充當解碼器：一旦它識別出相關能力或事實存在，就可以通過工具調用從更深層檢索完整內容。

上表為 GA 等在 LoCoMo 上的長期事實記憶評估。GA 基于自身優越的記憶架構設計，確保了記憶的高效召回。

機制三：自進化機制

GA 將自進化是一個顯式且可檢查的流程。

什么在進化？解決任務的策略，而非原子工具。工具接口和用戶交互是任務無關的，在運行時保持不變。相反，所有任務特定能力都編碼在 SOP 文件和可復用腳本中。

知識如何積累？通過分層記憶，GA 確保在一個會話中獲得的知識在后續會話中立即可用。

進化的質量如何控制？ GA 在低記憶層級（L4）保留原始行動軌跡，但不允許它們直接向上傳播。L3 的可復用程序僅通過顯式整合步驟創建，在子目標完成或成功從失敗中恢復等有意義的時間點觸發。

在相同任務五次重復運行中，只有 GenericAgent 隨著任務經驗的積累不斷提升工作效率。

機制四：上下文截斷與壓縮

GA 聚焦于壓縮而非擴展 —— 將更高密度的信息打包到更小的窗口中，優于將稀釋的內容輸入更大的窗口。

GA 使用四種不同粒度的上下文修剪機制：

工具輸出截斷：控制單個消息的大小；
標簽級壓縮：從舊消息中移除低價值片段；
消息驅逐：當整體預算超出時移除最舊內容；
工作記憶錨點提示詞：確保任務關鍵信息在驅逐后保持可見。

這四種機制協同工作，確保活躍上下文不隨交互輪數線性增長。

在安裝 20 個技能并經過高強度使用后，只有 GA 有效防止了上下文膨脹。

評估結果：效率與性能的雙重勝利

研究團隊在多個基準測試上對 GA 進行了全面評估。

核心結論：性能更強，成本更低

先來看最硬核的評測結果。在 SOP-bench、Lifelong AgentBench 和 RealFinBench 三大基準測試中，GA 的表現堪稱驚艷。

在 SOP-bench 和 Lifelong AgentBench 上，GA 以 100% 的準確率全面領先；在更貼近真實場景的 RealFinBench 上，GA 以 65% 的準確率登頂行業第一。

同等任務下，GA 的 Token 消耗僅為其它主流智能體系統的 15% 到 35%，真正做到了「花小錢辦大事」。

任務完成率與 Token 效率對比圖

越用越聰明：重復執行效率躍遷

GA 自進化能力保證了它的高效。

當其他系統在重復執行同類任務時，耗時和 Token 消耗基本是一條直線，只有 GA 越用越好用。5 次重復運行后，運行時間從 102 秒降至 66 秒，Token 消耗從 20 萬直接腰斬至 10 萬。

這不是簡單的緩存復用，而是GA 把第一次試錯的經驗，自動提煉成了可復用的標準操作流程，讓后續任務真正實現了「站在肩膀上出發」。

重復運行效率提升曲線圖

這種進化能力還能跨任務泛化。在 8 個不同網頁任務的重復測試中，GA 后續執行的 Token 消耗平均下降 79.3%，最高單任務節省達 92.4%。任務越復雜、依賴鏈條越長，節省效果越顯著。

相比之下，主流智能體系統在多次運行中數據波動不定，仍在重復探索，而GA 展現出清晰的「冷啟動→快速收斂」模式，真正學會了如何學習。

跨任務 Token 收斂對比圖

長期進化：從「學徒」到「專家」的蛻變

長期進化的性能更高。第一輪執行時，GA 需要 7 分 30 秒、調用 32 次大模型、消耗 22.2 萬 Token；而到了第九輪，僅需 1 分 38 秒、5 次調用、2.3 萬 Token 即可完成同等任務，Token 消耗減少 89.6%，調用次數減少 84.4%。

這種從探索到執行、從文本 SOP 到可執行代碼的進化，不是人工干預的結果，而是系統自主完成的。

九輪進化軌跡數據圖

網頁瀏覽：在混亂中保持清醒

網頁是智能體的「終極考場」，一個網頁的訪問動輒為 Agent 引入上百萬 token 開銷，而 GA 在這里同樣表現出色。

在最具挑戰的 BrowseComp-ZH 多跳推理任務中，GA 準確率達到 0.60，是主流智能體系統 0.20 的整整 3 倍，同時 Token 消耗僅為其三分之一；在真實網頁任務中，GA 以 0.26M Token 獲得 0.577 分，主流智能體系統消耗 0.76M Token 僅得 0.50 分。

面對海量 HTML 噪聲和動態 DOM 元素，GA 的上下文壓縮與分層記憶機制展現出壓倒性優勢，真正做到「在復雜環境中不迷路」。

網頁瀏覽性能對比圖

關鍵發現：重新思考智能體設計

從 GenericAgent 的開發中，研究團隊提煉出五個關鍵發現，這些發現對 LLM 智能體系統的設計具有廣泛相關性。

發現一：上下文信息密度是結構性約束

上下文信息密度不是「可選」的優化目標，而是每個智能體系統必須通過設計面對的結構性約束。只要智能體使用 LLM 作為其推理引擎，每個決策步驟的質量最終在單次前向傳播內確定，無論工具、記憶容量或工作流復雜度如何，都無法規避此約束。

發現二：存在智能體系統的最小完備能力集

在信息密度的結構性約束下，智能體只需實現三種能力。任何不服務于這三種能力之一的設計都在引入額外復雜度，從而降低信息密度。

工具接口：智能體與外部世界交互的唯一通道；
上下文管理：對應于語言模型的輸入，任務狀態、中間結果、工具輸出和所有其他內容在進入上下文前必須主動過濾；
記憶形成：對應于跨任務知識積累，如果不將交互中驗證的內容保留為可復用記憶，每個任務都從頭開始。

發現三：更低 Token 消耗對應更好任務性能

這一發現違反直覺，因為普遍假設是更長的推理鏈和更多交互輪次反映更徹底的深思熟慮，因此應產生更好結果。然而，實驗結果在長周期智能體執行設置中系統地指向相反結論。

在 Lifelong AgentBench 上，GA 僅消耗 Claude Code 輸入 Token 的 27.7% 和 OpenClaw 的 15.5%，同時實現更高的 100% 任務完成率。

超過某個點后，額外 Token 不會引入更多有用信息，反而通過位置偏差、注意力稀釋和有效窗口收縮降低推理質量。消耗更多 Token 的智能體更是上下文管理的系統性失效導致的，通過額外交互補償每步決策質量的退化，而非改進它。

發現四：權限定義智能體能力的上限

智能體能接觸多少環境，就能獲得多少智能。

智能體能感知什么、能作用于什么、能從什么反饋中學習，直接決定它能發展的推理鏈復雜度和能解決的任務難度。一個小規模沙箱中的 agent，不論他多么安全，他的智能水平是極其有限的。在智能體探索階段鎖定行動邊界，等同于在系統設計階段預先封頂其能力上限。縮小探索邊界不是構建有用智能體的路徑，其終點是一個安全但無用的系統。

發現五：最小架構是智能體自主進化的必要前提

開發團隊提出一個新的、更長遠意義的「自進化」三個維度：

技能整合
自主探索
架構自更新

因此，當架構足夠精簡時，Agent 可以審視和修改自身，最終實現 Agent 的自進化。一個擁有數十萬行代碼的系統對智能體是不透明的 —— 它既無法理解也無法修改。相比之下，幾千行的核心代碼庫是可讀、可理解、可修改的。在 GA 的最小架構中，作為原生執行面的自托管 CLI 自然使子智能體能夠讀取和修改核心代碼庫，使架構自更新成為實際的、可實現的。

結語：智能體的可靠方向

GenericAgent 的技術報告拆解出了一套全新的智能體架構設計框架，它揭示了大量現有 Agent 的設計是盲目的。GenericAgent 僅用 3000 多行核心代碼實現的能力，充分展示了智能體未來發展的無限前景。

GenericAgent 自 2026 年 1 月 11 日起已經開源，目前在 Github 已獲超過 5.2K+ Star，進入 Github 趨勢榜。歡迎大家一起見證智能體的進化時刻！

開源鏈接：https://github.com/lsdefine/GenericAgent
GA 小白使用指南（圖文版本）: https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb
GA 官方教程：https://github.com/datawhalechina/hello-generic-agent

敬請關注 GenericAgent 的商業落地版本，更智能、更省錢、更安全、更穩定的 Dintal Claw 的最新動態！

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.