无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Agent的自演進,被剛剛開源的AReaL 2.0按下了加速鍵

0
分享至



編輯|杜偉

當 Agent 從演示視頻中的炫技片段開始走進真實工作流與生產環境,下一階段的「何去何從」成為業界關注的焦點。

最近,Claude Code 創造者 Boris Cherny 在一次訪談節目中透露,「在 Anthropic 內部,幾乎 100% 的工程師都在同時運行 100 多個帶有自我改進循環的 Agent【1】。這樣的能力讓它們在每次運行中不斷變得更好」。此外 Anthropic 也發布了名為《When AI builds itself》的深度報告,其中提到當前 AI 正在接管自身的研發流程,未來將邁向遞歸自我改進【2】。

種種跡象表明,Agent 正面臨著又一次關鍵的節點:從「會使用工具并完成任務」轉向「在使用中學習并改進完成任務的方法」

但現實是,Agent 可以在軟件工程、客服、科研助理等真實場景任務中運行,卻很難在運行中變強。它們每天都會產生大量交互軌跡,包括成功路徑、失敗步驟、用戶修正、工具調用結果等。可問題在于這些數據與經驗大多只被當作日志或監控信息,用于排查問題,很少被系統化地轉化為下一輪能力提升。

這背后暴露出的,是 Agent 進入生產階段后的一大缺口。破局點在什么地方?由螞蟻聯合香港科技大學、清華大學組成的 AReaL 團隊認為,自演進的障礙不只停留在單一 RL 算法層面,而在于缺少一套面向真實智能體服務的在線強化學習系統基礎設施。

作為一個開箱即用的 Agentic RL 訓練底座,3 月初發布的 AReaL v1.0 解決的重點是如何高效進行大規模異步 RL 訓練以及讓 Agent 一鍵接入 RL 訓練。而今天上線的 AReaL 2.0,將問題邊界進一步推到了 Agent 服務側:真實部署中的 Agent 如何通過「會話式交互、軌跡采集、獎勵綁定和異步訓練」進入一個在線學習閉環

AReaL 2.0 給出了自己的答案,「既不要求開發者重寫 Agent,也不需要現有業務系統推倒重來」。

它的核心思路是:將原本服務于 Rollout 和訓練的計算單元重組為可部署、可接入、可替換的 Agent-compute 微服務組件。這樣一來,只要將 Agent 原本的 LLM 推理后端切換到 AReaL 2.0 管理的入口,就可以在盡量少改動原有規劃、工具調用、沙箱和記憶模塊的前提下,把真實交互流引入在線 RL 閉環。

目前,AReaL 2.0 的技術報告已經放出。

  • 論文標題:Next-Generation Agentic Reinforcement Learning Systems Enable Self-Evolving Agents
  • 論文地址:https://arxiv.org/pdf/2607.01120
  • 項目主頁:https://github.com/areal-project/AReaL

Agent 自演進,首先要有學習閉環

要讓 Agent 真正從使用中學習,首先要解決一個基礎的問題:真實工作流里發生的一切如何被轉化為可學習、可治理、可回放的經驗。

在 AReaL 2.0 的系統構想中,自演進 Agent 需要三根支柱:Agent Trajectory Data Protocol、Agentic Data Proxy 以及 Agent Evolution Control Plane。

首先來看第一根支柱 ——Agent Trajectory Data Protocol(ATDP),也就是面向學習的智能體軌跡協議。

普通日志通常會記錄用戶問了什么、模型答了什么、調用了哪個工具、有沒有報錯、延遲多少、花了多少 token。對調試來說,這些信息有用;但對訓練一個要從經驗中變強的 Agent 來說,還遠遠不夠。

在 AReaL 團隊看來,一個真正可學習的軌跡需要以步驟為單位記錄完整決策過程:當時 Agent 觀察到了什么,內部狀態或 harness 是什么,選擇了什么動作以及動作產生了什么結果,獎勵或反饋在什么時候到達以及模型版本、工具版本、租戶、成本、權限、治理狀態等元數據。

總之,一次復雜任務被拆分為可追責、可回放、可歸因的學習樣本。只有這樣,系統才能回答更關鍵的問題:到底是哪一次檢索、哪一個工具調用、哪條 prompt 片段、哪段記憶影響到了任務成敗?

接下來是第二根支柱 —— 企業級 Agentic Data Proxy。ATDP 定義了「應該記錄什么」,而 Data Proxy 解決的是「在真實生產系統里如何記錄」。

Agent 往往同時連接模型、工具、檢索系統、記憶系統、人類反饋渠道、文件系統和瀏覽器動作。并且不同團隊可能使用不同 Agent 框架,不同租戶有不同數據權限,不同業務線也有不同合規邊界。如果只是把所有軌跡先堆成日志,再事后補充治理,風險會非常高。

Data Proxy 正是部署在這些關鍵邊界上的學習數據層,它同時負責攔截、采集、脫敏、權限控制、軌跡持久化、獎勵收集和回放管理。更關鍵的是,數據進入訓練隊列之前,治理就要先完成:哪些字段可見或需要脫敏,哪些軌跡具備訓練資格,哪些數據只能用于調試或審計,都要在這一層處理清楚。

這也是 Agent 自演進進入企業場景后必須面對的現實問題。

最后到了第三根支柱 ——Agent Evolution Control Plane,即智能體演進控制平面。自演進不能簡單理解成「一出錯就立刻拿失敗軌跡訓練模型」。一個真實 Agent 由模型、prompt harness、記憶、工具、路由策略和安全規則共同組成,不同類型的失敗對應不同的修復入口。

如果問題來自缺少某個事實,寫入記憶可能更合適;如果問題出在工具路由,調整 tool schema 或 harness 可能更有效;如果某類失敗跨租戶、跨任務、跨工具配置持續出現,才可能需要通過 RL、偏好優化、過程獎勵學習或蒸餾來更新策略模型。

控制平面的價值就在于把「是否更新、更新哪里」變成可治理的系統性決策,其根據軌跡統計、用戶修正率、工具失敗簇、評估器得分、成本信號、安全約束和分布漂移,判斷本次演進應落在哪個層面。在企業級系統里,每一次更新還要經過回放評估、離線回歸測試、租戶級安全檢查、灰度發布和版本化追蹤。

一個無法解釋「改了什么、為什么改、影響哪些用戶、出問題后如何退回」的 Agent, 很難被稱為真正可用的自演進系統。

三根支柱的共同作用,構成了 Agent 自演進的基本閉環。真實工作流中的經驗,才有可能穩定、安全地轉化為下一次變強的能力。

Online RL,被做成 Agent 微服務運行時

理解了自演進 Agent 的三根支柱,我們再來看 AReaL 2.0 的工程設計,會更容易看清它的定位。

正如 AReaL 團隊所說,AReaL 2.0 并沒有實現完整的自演進智能體基座。這一基座的實現涉及方方面面,AReaL 2.0 選擇先從其中一條關鍵且具有代表性的路徑切入,即基于真實部署軌跡的在線策略模型更新

因此,遵循 AReaL 2.0 的核心思路,其工程重心放在了將原有 RL 基礎設施改造成可以承接 Agent 服務流量的在線系統上。它要解決的問題也更具體:一個已經上線的 Agent,如何在更少改動業務代碼的前提下,將 LLM 推理請求接入 AReaL 2.0?

為了實現這一目標,AReaL 2.0 將訓練、推理、權重更新等能力拆分為可獨立使用、可組合、可擴展的服務組件,并通過「解耦再組合」的方式打通 Agent 應用與后訓練系統之間的連接。每個組件又由統一的系統模塊構建而成:

Gateway作為鏈路的入口,在不同服務組件中承擔著不同的角色:對于智能體服務來說,它面向外部承接請求,支持 HTTP/WebSocket 等訪問方式,也可以通過 OpenResponses bridge 提供兼容 /v1/responses 風格的接口;對于推理服務來說,它承接來自智能體服務轉接來的會話,交由大模型服務進行推理,產生軌跡信息;對于訓練服務來說,它是訓練數據的入口,把準備好的軌跡導入到訓練服務中去。在 AReaL 2.0 內部,Gateway 是在線 RL 運行時數據流轉的第一道關口。

請求進入各組件后,接著由Router負責分配和維持會話關系。Agent 執行任務通常不會只發生在單輪對話里,伴隨多輪交互、工具調用和中間狀態變化。 如果同一個任務的不同輪次被隨機分散到不同后端,就很容易破壞上下文連續性。因此,Router 會維護 session 與 Data Proxy 之間的綁定關系,讓同一會話在后續交互中持續落到對應的數據代理上,同時也為多個 Data Proxy 與 Worker 組合的橫向擴展提供基礎。

Data Proxy承擔的是會話狀態和軌跡管理。在智能體服務中,它會保存每個 session 的歷史信息,把新的用戶輸入、已有上下文、隊列模式和相關元數據整理成 AgentRequest,再發送給后端 Worker;在推理服務中,它負責記錄來自同一會話的軌跡存儲信息;訓練服務通過它可以拿到對應的訓練數據信息并加載。它位于線上服務和訓練數據之間,負責把一次次普通 Agent 調用整理成后續能夠被訓練系統消費的經驗軌跡。

真正執行計算的是Agent-Compute Worker,它同樣在不同的微服務組件中承擔著不同的角色:它接收來自 AgentRunnable 協議的請求,每次調用都對應一次單輪執行,包括調用 Agent 的運行邏輯,并通過 emitter 收集生成增量、工具調用、工具返回等過程事件;在推理服務中,它通過實例化 SGLang、vLLM 等推理后端,執行推理、采樣等任務;在訓練服務中,它通過 Megatron、FSDP 等后端進行訓練計算。

在訓練任務中,每個組件由各自的Controller負責調度:包括啟動 guard worker,創建 Router、Worker 與 Data Proxy 組合,完成注冊和服務啟動,并處理擴容、縮容、流量排空和健康檢查等運行時管理任務。

在 Controller 指揮下,微服務的每個獨立模塊作為一個整體運行起來,進而支撐 AReaL 2.0 從線上請求接入、會話保持、軌跡采集到訓練更新的完整鏈路。



AReaL 2.0 的 Online RL 工作流

過去做 Agentic RL,常見的路徑是重構訓練環境或者把線上 Agent 行為抽象為一個離線仿真任務。這樣做雖然便于訓練,但離線訓練環境與線上真實行為之間往往存在差距。AReaL 2.0 就是要盡可能彌合這種差距,通過微服務化降低 Agent 接入 Online RL 的工程門檻。在盡量保持原有 Agent loop 不變的情況下,真實服務軌跡本身成為可采集、訓練與持續優化的可靠數據來源。

通過這樣的改造,AReaL 2.0 的角色也發生了變化:從面向離線后訓練的 RL 框架,進一步延伸為連接 Agent 在線服務、軌跡采集、訓練更新和運行時管理的可擴展系統。

從 Hermes 到 Claude Code:Agentic RL 有了可復用路徑

AReaL 2.0 的價值已經開始在具體實踐中得到驗證。團隊為我們展示了多類 Online RL 范例,覆蓋已有熱門 Agent 接入、軟件工程智能體訓練等應用場景。

其中,在面向 Hermes Agent 的范例中,AReaL 2.0 展示了一種低侵入式接入方式。當開發者手里有一個可以正常運行的 Agent,希望讓它進入強化學習閉環時,不必從頭重寫規劃邏輯、工具調用、沙箱環境或記憶模塊。

有了 AReaL 2.0,解決方案變得簡單直接,把標準推理后端替換為 AReaL 2.0 管理的 Agent-Compute Worker,就可以將真實交互納入強化學習閉環。從此,開發者不用再為了訓練 Agent 重搭一個離線環境或者把線上業務流程復制成一套仿真系統。

這套范例的價值還在于可替換與復制。Hermes Agent 只是演示載體,真正可復用的是背后的接入范式:把演示中的 Agent 換成自己的任務環境和智能體,復用 AReaL 2.0 的解耦接入、會話化交互與異步訓練架構,則可以搭建起面向自身業務的 Agent Online RL 流程。

代碼實例地址:https://github.com/areal-project/AReaL/tree/main/examples/hermes

Hermes Agent 范例展示的是接入方式,而接下來的 Claude Code Agent RL 方向的范例,更接近一套面向軟件工程智能體的端到端實踐參考。用一句話總結,AReaL 2.0 在該方向上提供了一套可復現的算法與基礎設施范例,覆蓋數據處理、Agent Infra 建設和算法訓練等環節

數據側,團隊會先篩選訓練樣本,只保留至少有一個外部模型能夠解出的問題;同時改寫種子 issue 描述,讓問題表述更清晰,也更貼近對應的 golden patch。Agent Infra 側基于底層大規模并發 sandbox,并結合分布式調度、毫秒級 fork 啟動和鏡像預熱能力,支撐起幾萬個環境實例并發運行,在 RL 過程中盡量減少臟數據生成,并保證長時間訓練的穩定性。算法側引入 KPop 等穩定化策略,針對訓練引擎和推理引擎之間可能出現的 logp diff 問題,進行 token 級自適應過濾,降低 RL 訓練后期突然崩潰的風險。

此外,針對模型可能通過 git 查答案的 reward hacking 情況,AReaL 2.0 在 harness 側禁用了部分 git 操作。同時考慮到 Claude Code 這類黑盒 Agent 訓練,系統采用了 token-in-token-out 的對齊方式。

最終效果顯著,模型在經過 800 步訓練后實現了穩定漲分,為開發者復現 Claude Code Agent RL、替換自定義任務環境、構建自己的軟件工程 Agent 訓練流程提供了完整參考。

代碼實例地址:https://github.com/areal-project/AReaL/tree/main/examples/swe

這些范例說明,當一套 Online RL 工程路徑跑得越來越順,Agent 自演進不再是少數團隊的定制化工程,開始具備被更多開發者復用、遷移和擴展的基礎。

Agent 下一步:從執行閉環走向學習閉環

從發展來看,Agent 行業的熱點看起來很分散:coding agent 從 IDE 延伸到云端沙盒,處理 issue、修復代碼、生成 PR;MCP、A2A 等協議讓模型、工具、數據源和其他智能體更容易連接;skills、subagents 和 workflow 讓復雜任務被拆解、復用和編排。

與此同時,企業開始認真面對一系列現實問題,包括 token 成本控制、工具權限收口以及 Agent 出錯后的審計、追責和回滾。

這些變化共同指向了一個趨勢:Agent 正從單個智能體應用變成生產系統的一部分。核心矛盾也隨之發生變化,早期關心 Agent 能否調用工具、完成任務、跑通工作流,而現在更迫切的問題是它執行過的任務以及產生的軌跡、反饋和錯誤能不能成為后續能力提升的「養料」。

AReaL 瞄準的正是這一薄弱環節,補上了 Agent 當前缺失的一段鏈路:從執行閉環走向學習閉環。在這場面向生產的 Agent 基礎設施競爭中,越能把真實使用過程轉化為持續改進機制,就能「越用越強」。

當然,這條路仍在早期,更完整的自演進路徑有待 AReaL 后續版本的探索。并且,為了適配不同團隊、不同算力平臺,AReaL 堅持開源以融入主流強化學習基礎設施生態,在今年 5 月從螞蟻 inclusionAI 孵化成為獨立社區并加入 PyTorch 基金會 Ecosystem 項目。

依托 AReaL,社區伙伴持續補齊不同生產環境中的關鍵能力,比如華為云團隊為社區提供了 AReaL 在國產昇騰 NPU 上的端到端適配工作【3】,MindLab 提供了基于 LoRA 面向低算力規模場景下的端到端智能體強化學習服務化解決方案【4】。所有這些都將進一步豐富 AReaL 作為 Agentic RL 基礎設施的生態邊界。

未來,AReaL 的探索會與開源社區的兩條生態路線緊密結合。一方面,降低社區用戶使用 RL infra 的門檻。團隊計劃研究 AReaL-AutoPilot,讓智能體參與 RL 方案的自動部署,包括自動生成訓練與推理一體化 kernel、搜索訓練過程中的最優并行策略,以及監控 RL 訓練曲線的健康狀態。另一方面,為不同芯片廠商提供更統一的 RL infra 適配標準與接口,包括算子精度對齊、權重傳輸統一格式,以及標準化測試樣例。

1.https://x.com/0xMovez/status/2067642452991717790

2.https://www.anthropic.com/institute/recursive-self-improvement

3.https://areal-project.github.io/AReaL/en/tutorial/installation_npu.html

4.https://github.com/areal-project/AReaL-MinT

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯頭號水貨!葡萄牙世一中隱身全場!C 羅全隊險些被他坑慘了

世界杯頭號水貨!葡萄牙世一中隱身全場!C 羅全隊險些被他坑慘了

瀾歸序
2026-07-03 09:48:01
FIFA官方證實克羅地亞絕平球無效 球員承認:我頭發蹭球+確實越位

FIFA官方證實克羅地亞絕平球無效 球員承認:我頭發蹭球+確實越位

我愛英超
2026-07-03 12:12:42
詹姆斯下家范圍縮小,勇士騎士二選一,7月9日公布“決定四”

詹姆斯下家范圍縮小,勇士騎士二選一,7月9日公布“決定四”

奕辰說球
2026-07-03 13:36:04
C羅收獲淘汰賽首球,葡萄牙絕殺克羅地亞晉級世界杯16強

C羅收獲淘汰賽首球,葡萄牙絕殺克羅地亞晉級世界杯16強

澎湃新聞
2026-07-03 09:12:27
韓紅要崩潰了!央視重溫播放《天路》,是原唱巴桑版本,評論炸鍋

韓紅要崩潰了!央視重溫播放《天路》,是原唱巴桑版本,評論炸鍋

火山詩話
2026-07-03 08:34:47
奧運冠軍莊曉巖曝丑聞:遼足訓練中心教練劉某學,睡隊員家長

奧運冠軍莊曉巖曝丑聞:遼足訓練中心教練劉某學,睡隊員家長

南海浪花
2026-07-02 19:00:39
春水堂正式發布仿真人形伴侶機器人 1.5萬元級把具身陪伴帶回家

春水堂正式發布仿真人形伴侶機器人 1.5萬元級把具身陪伴帶回家

科技說說
2026-07-02 18:25:55
神劇情!41歲C羅進球被吹后點射扳平,終獲淘汰賽首球+破20年魔咒

神劇情!41歲C羅進球被吹后點射扳平,終獲淘汰賽首球+破20年魔咒

我愛英超
2026-07-03 08:34:24
干了八年的電工,完全想不通,風扇輸入功率22W,而輸出功率卻是4.4W,啥情況?

干了八年的電工,完全想不通,風扇輸入功率22W,而輸出功率卻是4.4W,啥情況?

新浪財經
2026-07-01 12:38:36
清華大學畢業照首排坐小孩 官方只默默刪除卻無回應

清華大學畢業照首排坐小孩 官方只默默刪除卻無回應

封面新聞
2026-07-02 17:12:41
伊拉克開展反腐敗行動,在女議員家中繳獲5700萬美元現金、27公斤純金和一套黃金內衣

伊拉克開展反腐敗行動,在女議員家中繳獲5700萬美元現金、27公斤純金和一套黃金內衣

大風新聞
2026-07-02 19:16:12
74歲老人被脫落的400斤大門砸進ICU,全身多處骨折,家屬:商家說是我媽的錯

74歲老人被脫落的400斤大門砸進ICU,全身多處骨折,家屬:商家說是我媽的錯

大風新聞
2026-07-03 13:48:03
日企員工偷運稀土案調查升級!日媒宣稱:多名中國籍人員涉嫌幫助

日企員工偷運稀土案調查升級!日媒宣稱:多名中國籍人員涉嫌幫助

半身Naked
2026-07-03 11:34:14
領袖!C羅沖出替補席擁抱絕殺功臣:摟著他摸頭 狂喜對手絕平被吹

領袖!C羅沖出替補席擁抱絕殺功臣:摟著他摸頭 狂喜對手絕平被吹

風過鄉
2026-07-03 09:19:10
世界杯太刺激了:隨著阿爾及利亞0-2出局,16強僅剩最后3席

世界杯太刺激了:隨著阿爾及利亞0-2出局,16強僅剩最后3席

側身凌空斬
2026-07-03 12:57:45
知名連鎖餐飲品牌,深圳門店全部關閉!很多人都吃過;上海門店正常營業

知名連鎖餐飲品牌,深圳門店全部關閉!很多人都吃過;上海門店正常營業

上觀新聞
2026-07-03 12:37:06
中央網信辦開展“清朗?網絡娛樂團播亂象整治”專項行動

中央網信辦開展“清朗?網絡娛樂團播亂象整治”專項行動

界面新聞
2026-07-03 09:05:20
重磅:烏克蘭首枚彈道導彈攻擊莫斯科!空襲正在飽和

重磅:烏克蘭首枚彈道導彈攻擊莫斯科!空襲正在飽和

項鵬飛
2026-07-02 20:51:10
西安賽格事件升級!消費者曬票據:7000送7000,會員都參與拆分單

西安賽格事件升級!消費者曬票據:7000送7000,會員都參與拆分單

火山詩話
2026-07-03 07:30:41
長江:你“禁漁”讓我歇十年,我把活化石從地底下刨出來送給你

長江:你“禁漁”讓我歇十年,我把活化石從地底下刨出來送給你

啟迪你的思維
2026-07-03 04:38:23
2026-07-03 14:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13421文章數 142686關注度
往期回顧 全部

科技要聞

特斯拉交付超預期7.4萬輛,股價卻大跌7.5%

頭條要聞

齊達內兒子被梅西打穿后一度崩潰 淘汰賽又被灌進2球

頭條要聞

齊達內兒子被梅西打穿后一度崩潰 淘汰賽又被灌進2球

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

黃曉明深夜約會美女,分手原因曝光

財經要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

極氪9X五座版官宣,如圖!

態度原創

家居
健康
本地
游戲
公開課

家居要聞

傳奇筑 日常詩

這4類消化病患者 吃粘食管住嘴

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

PS5越獄破解搜索量暴漲90%!索尼反噬:玩家尋找盜版

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版