无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

解鎖Agent Swarm新潛力,openJiuwen又一力作:多智能體流網絡

0
分享至



多智能體協作對于解決復雜問題雖然具有巨大優勢,但是其架構本質上易出現錯誤傳播,因為由不正確的工作流生成或單智能體幻覺輸出引起的錯誤會沿著協作鏈蔓延,影響最終結果。

從 CAMEL、AutoGen、MetaGPT 等依賴人工配置的多智能體框架,到 ADAS、AFlow、AgentSquare、AgentSwift 等自動化工作流生成系統,多智能體技術正在從 “人工設計” 邁向 “自主優化”。然而,現有方法大多基于啟發式策略搜索,其性能上限往往受到搜索策略與規則設計的限制。如何讓智能體能夠自主發現更優協作模式,仍然是推動多智能體系統邁向更高智能水平的關鍵挑戰。

為此,openJiuwen 研究人員提出了 MANGO(Multi-Agent Network Gradient Optimization)框架。其方法設計歸屬于華為 JiuwenSwarm 的研究范疇。在 AgentOS 統一執行與調度底座支撐下,該框架一體化建模多智能體系統結構、任務分解與路徑選擇,實現端到端協作優化,并在整體工作流層面對協作路徑與執行策略進行聯合優化,從而提升系統穩定性與效率。

核心特征包括:端到端的強化學習優化保證全局目標達成,文本梯度更新使局部節點能靈活適應動態任務,以及節點跳躍機制在保持準確性的同時顯著降低計算開銷。這種集成設計體現了在復雜任務中多智能體協作的工程化思想,為提升協作效率和系統穩定性提供了可行方案。



  • 論文標題:Reinforced Collaboration in Multi-Agent Flow Networks
  • 作者信息:Zheng Wang, Yuang Liu, Yangkai Ding
  • 作者單位:華為泊松實驗室、維納研究所(NWRC)
  • 論文鏈接:https://arxiv.org/abs/2605.12943
  • 倉庫鏈接:https://github.com/openJiuwen-ai/agent-store/tree/main/community/mango

核心思路

整體框架采用數據驅動策略,利用歷史經驗通過過程監督強化學習動態學習工作流結構。同時,局部梯度信號被融入文本梯度進行反向傳播,從而實現框架的持續迭代優化。

MANGO 的構建主要包括三個步驟:1)構建流網絡,2)基于強化學習選擇最優路徑,3)利用文本梯度優化節點內的提示詞。此外,框架引入節點跳躍機制,在保證性能的前提下顯著降低計算開銷。



圖 1:MANGO 整體框架。該框架通過策略梯度聯合優化路徑選擇,并通過文本梯度聯合優化提示,跳過某些節點以降低計算成本。

1. 流網絡構建

工作流中的每個行動被迭代地插入到流網絡中。該過程確保相鄰操作不會放置在同一個節點中,以保持工作流轉換的完整性。后續每個行動的插入都基于其與現有節點集的相似度,相似度定義為該行動與節點內任意節點之間的向量相似度。

如果相似度低于閾值,則在網絡中創建一個新節點;反之,將其插入到相似度最高的現有節點中。每個節點都分配一個不同的大模型,代表一個具有特定大模型的智能體,以形成一個多智能體系統。

2. 基于強化學習的邊優化

系統給定一個基于歷史工作流構建的流程網絡后,目標則是從源點到匯點選擇相應的智能體來解決復雜任務分解出的子任務。MANGO 利用強化學習來優化流網絡中的邊選擇。當前節點對于其鄰邊的選擇可以被看作馬爾可夫決策過程:

1) 狀態(State):當前節點的問題內容與角色描述和鄰節點的內容與角色描述交替計算得出的向量相似度。

2) 行動(Action):選擇當前節點的不同鄰邊。

3) 獎勵(Reward):綜合考慮過程層面的正確性和最終任務表現,兩者基于一個系數分配比例。

4) 策略(Policy):使用 REINFORCE 算法優化策略網絡,以最大化預期累積獎勵。

3. 基于文本梯度的節點優化

另一方面,對于每一個節點,其包括的任務內容與角色描述都會同時基于最終任務結果(全局信號)和中間執行反饋(局部信號),利用文本梯度來更新提示詞,確保當工作流路徑較長時,梯度信號不會在較早的節點消失。

強化學習邊優化與文本梯度節點優化的相互依賴性:更新節點的提示詞會修改狀態的內容(包括角色描述和計劃步驟),這將會直接影響路徑選擇策略;反之,采樣路徑決定了流網絡中哪些節點的提示詞會被實際更新。這就在參數更新和路徑選擇之間形成了一個相互依賴的優化循環。

4. 節點跳躍

優化工作流路徑的計算成本很高,這主要是因為需要重復調用大模型來更新每個節點的提示詞。經驗表明,一旦某個節點的提示信息得到充分優化,進一步更新帶來的收益就微乎其微了。

為了解決這個問題,研究團隊引入了一種跳躍機制,該機制在優化過程中選擇性地跳過某些節點,從而降低計算開銷。如果跳過一個或多個節點,框架則會使用訓練工作流中的步驟來填充它們對應的輸出。這樣做的目的是重用真實中間步驟來監督被跳過的節點,從而在不進行額外動態生成的情況下提高訓練效率和穩定性。該跳躍機制通過一個 Skip-k 參數控制,每次可跳躍最多 k 步(無跳躍時為 Skip-1)。



視頻鏈接:https://mp.weixin.qq.com/s/Eleh8ZlAVYpgV_4MCq_2vQ

為了展示 MANGO 在實際業務中的應用潛力,研究團隊還提供了一個金融業務場景的演示 Demo,通過多智能體協作處理復雜流程,具體演示了框架在實際中如何優化工作流路徑和節點提示詞,從而提升整體效率和準確性。

實驗數據

為了評估 MANGO 框架在不同領域的表現,研究團隊選擇了 7 個數據集,包括代碼編寫任務(HumanEval、MBPP)、數學解題(MATH500、GSM8K)、文章閱讀理解(DROP)以及多領域問題回答(MMLU、GPQA-Diamond)。由于框架在構圖與訓練過程中需要借助以往成功的工作流,團隊基于訓練集的問題生成了相關工作流,以支持正確解答,并將這些工作流與對應問題一并保存在數據集中。

實驗中,論文主要以 GPT-4o-mini 作為基礎大模型,評估指標包括 HumanEval 和 MBPP 的 pass@1、MATH、GSM8K、MMLU 和 GPQA 的 Accuracy,以及 DROP 的 F1-score。

實驗結果



表 1:以 GPT-4o-mini 為基礎大模型的有效性結果。最佳結果以綠色背景的粗字體顯示,最佳基線結果以下劃線標出。

1)與基線方法的有效性比較

總體而言,MANGO 在所有領域均表現最佳,超越了最佳基線模型,例如,在 MATH500 任務上的準確率比 MaAS 提升了 12.8%,在 DROP 任務上的 F1-score 比 AFlow 提升了 5.1%。這些提升源于 MANGO 從過往工作流中學習,并聯合優化工作流生成和單智能體執行,即使在 Skip-2 設置下也保持領先優勢。



表 2:MANGO 與基線方法在數據集 MATH500 上的效率比較

2)效率和訓練 / 推理成本

基于基礎大模型 GPT-4o-mini 和數據集 MATH500,MANGO 結合節點跳躍技術實現了最佳成本效益,在保持最高準確率的同時,降低了 token 使用量、API 成本和運行時間。在流網絡遍歷過程中啟用三節點跳躍(Skip-3),MANGO 的 API 成本最低(每百萬個 prompt token 0.15 美元,每百萬個 completion token 0.6 美元)。與 MaAS 相比,訓練時間縮短了 41.5%,推理時間縮短了 47.4%,并保持了最高的準確率。結果表明,所提出的算法可以極大程度降低成本。

總結

MANGO,是一個數據驅動的框架,它構建一個流程網絡,集成強化學習、文本梯度和跳躍機制以實現高效優化。該框架針對多智能體協作中的誤差傳播,工作流生成和單智能體執行中的誤差作出了相應改進,為多智能體系統設計提供了新的思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
快訊!俄烏新消息!

快訊!俄烏新消息!

故事終將光明磊落
2026-06-13 10:58:35
10人名單出爐!鄭麗文樂開花,國民黨“內鬼”慌了,賴清德丟盡臉

10人名單出爐!鄭麗文樂開花,國民黨“內鬼”慌了,賴清德丟盡臉

三石記
2026-06-13 06:19:24
“鵝腿阿姨”將有怎樣的結局?

“鵝腿阿姨”將有怎樣的結局?

方清云
2026-06-12 20:15:44
國家出手!揚州“毒牙刷”曝光,成本價6分,原材料才是致癌物

國家出手!揚州“毒牙刷”曝光,成本價6分,原材料才是致癌物

姩姩有娛
2026-06-12 15:03:40
佛系!巴洛貢世界杯首秀梅開二度,賽后:慶功?回酒店看Netflix

佛系!巴洛貢世界杯首秀梅開二度,賽后:慶功?回酒店看Netflix

林小湜體育頻道
2026-06-13 16:25:04
川普稱達成“偉大的和解協議”,阿爾巴尼亞爆發“火烈鳥革命”

川普稱達成“偉大的和解協議”,阿爾巴尼亞爆發“火烈鳥革命”

西樓飲月
2026-06-12 19:27:15
世界杯又見手撕球衣名場面!該球衣品牌曾被吐槽“但愿他們不產安全套”

世界杯又見手撕球衣名場面!該球衣品牌曾被吐槽“但愿他們不產安全套”

南方都市報
2026-06-13 13:32:55
A股重磅資金報告:多家頂級投行預警!周五科技股高開低走真相!

A股重磅資金報告:多家頂級投行預警!周五科技股高開低走真相!

丁丁鯉史紀
2026-06-13 11:09:32
藍思科技:收購同昇光電,加速布局光通信

藍思科技:收購同昇光電,加速布局光通信

界面新聞
2026-06-13 11:38:11
1990年,90歲張學良爆料于鳳至不堪隱私,因三個兒子之死痛恨發妻

1990年,90歲張學良爆料于鳳至不堪隱私,因三個兒子之死痛恨發妻

銅臭的歷史味
2026-06-13 05:46:20
讀者喊話廠商:還我轎車!

讀者喊話廠商:還我轎車!

甜份超標的我
2026-06-12 00:11:50
于東來再回應“薪酬爭議”:100分為標準最多給胖東來人打10分,所有員工能力與薪酬不匹配,但一直用超值薪酬成就員工

于東來再回應“薪酬爭議”:100分為標準最多給胖東來人打10分,所有員工能力與薪酬不匹配,但一直用超值薪酬成就員工

極目新聞
2026-06-13 11:19:54
活力中國調研行丨拎包入住、設備共享 這家“創新孵化器”助推生物醫藥科研創新

活力中國調研行丨拎包入住、設備共享 這家“創新孵化器”助推生物醫藥科研創新

環球網資訊
2026-06-13 15:27:19
晚節不保!黃百鳴被判入獄后,更多惡行被扒,李小冉也曾是受害者

晚節不保!黃百鳴被判入獄后,更多惡行被扒,李小冉也曾是受害者

嘴角上翹的弧度
2026-06-10 21:31:05
王炸!知名企業總部將從北京遷至武漢!

王炸!知名企業總部將從北京遷至武漢!

越喬
2026-06-12 22:45:29
來中國避暑!還白吃白喝,印度身份不是擋箭牌

來中國避暑!還白吃白喝,印度身份不是擋箭牌

李云飛Afey
2026-06-12 23:25:24
侵略者不再能用馬里烏波爾港了!俄煉油業被炸得要整大活:期待!

侵略者不再能用馬里烏波爾港了!俄煉油業被炸得要整大活:期待!

鷹眼Defence
2026-06-11 16:55:39
約個嘿嘿姐,把自己的內耗燒的一干二凈

約個嘿嘿姐,把自己的內耗燒的一干二凈

飛娛日記
2026-05-09 08:28:59
深一度|“世界杯臨近,才會聊起它”,這就是美國體育的特點

深一度|“世界杯臨近,才會聊起它”,這就是美國體育的特點

澎湃新聞
2026-06-13 12:02:28
我退休金10280,找了一個53歲老伴,前天去領證人多沒排上隊,剛回家她4個兒女就等著了:叔叔,我們有6個要求,你得答應

我退休金10280,找了一個53歲老伴,前天去領證人多沒排上隊,剛回家她4個兒女就等著了:叔叔,我們有6個要求,你得答應

背包旅行
2026-06-13 11:38:24
2026-06-13 17:03:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

新能源車"越造越重" 是否該繳納"養路費"引發熱烈討論

頭條要聞

新能源車"越造越重" 是否該繳納"養路費"引發熱烈討論

體育要聞

東道主三戰不敗!美墨開門紅加拿大零的突破

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

阿維塔概念車重慶車展亮相 阿維塔07L將于三季度發布

態度原創

家居
藝術
游戲
數碼
公開課

家居要聞

空間微調 移形換境

藝術要聞

書法各體臨習方法

TeD復播瘋狂爆料,魔壇往日恩怨細節首度公開

數碼要聞

蘋果macOS 27強化Rosetta 2淘汰提醒,用戶需為應用兼容性做準備

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版