无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Agent通訊的「運營商」哪家強?UIUC團隊發布ProtocolBench

0
分享至



多智能體系統正在從學界走向業界。

在 Coding、Research 等真實場景里,越來越多系統不再只依賴單個 agent,而是由多個 Agent 分工協作:有人負責規劃,有人負責檢索,有人調用工具,有人匯總答案。

Agent 的智能化程度越來越高,Agent 網絡的規模也越來越大。Agent 從最開始的在本地部署,“面對面” 的協作,逐漸變成了在局域網乃至互聯網中進行的 “線上” 合作。當 agent 數量變多,越來越多的 agent 在線部署時,本地直連的通信方式將越來越局限。像互聯網的 https 協議一樣,agent 也需要有自己的網絡通信協議。

Agent 通信協議,

用什么好?

在過去的多智能體研究中,人們更關心 agent 會不會規劃、會不會調用工具、能不能協作完成任務。通信協議往往被當作底層工程細節:系統能跑起來就行。

但當多智能體系統進入更接近生產的環境后,協議層會直接影響很多關鍵指標。

比如,一個協議的消息封裝是否足夠輕,會影響多跳協作的開銷;是否支持穩定的流式響應,會影響高吞吐服務的延遲;是否依賴長連接和復雜會話狀態,會影響故障恢復;是否原生支持身份認證、端到端加密和元數據保護,則會影響安全邊界。

也就是說,協議不是簡單的「數據傳輸方式」,而是在塑造整個多智能體系統的性能、可靠性和安全性。

MCP 讓 agent 連上了在線工具,而 A2A、ACP、ANP、Agora 等多智能體通信協議則在嘗試讓 agent 連上其他在線 agent。它們各有各的側重點,有的強調企業級 agent 協作,有的強調跨系統集成,有的強調身份與端到端安全,有的強調去中心化工作流。但在真實系統里,具體選擇哪一種協議,長期以來更多依賴工程經驗,而不是系統的評測和研究。

關于協議的一系列問題也隨之而來:智能體之間到底該怎么通信?什么樣的通信協議才算一個好的協議?一個網絡中的所有 agent 是否必須使用同一種通信協議?有沒有萬能的通信協議?

為了填補這一空白,來自 University of Illinois Urbana–Champaign 的研究者提出 ProtocolBench,首次系統比較了四類多智能體通信協議的優劣區間,并進一步提出 ProtocolRouter,讓系統能夠根據任務場景、約束條件和運行信號自動選擇合適協議。



  • 論文標題:Which LLM Multi-Agent Protocol to Choose?(大語言模型多智能體協議該怎么選?)
  • 論文鏈接:https://arxiv.org/abs/2510.17149
  • 代碼倉庫:https://github.com/ulab-uiuc/AgentProtocols
  • 作者:Hongyi Du、Jiaqi Su、Jisen Li、Lijie Ding、Yingxuan Yang、Peixuan Han、Xiangru Tang、Kunlun Zhu、Jiaxuan You
  • 單位:University of Illinois Urbana–Champaign

該成果近日被機器學習頂級會議 ICML 2026 正式接收。



ProtocolBench 測試框架:把協議單獨拎出來

ProtocolBench 的設計思路很直接:盡量固定所有非協議因素,只替換通信邊界上的協議實現。

具體來說,實驗會固定模型、prompt、硬件環境、容器鏡像、工作負載、rate limit 和 agent 拓撲。每個場景里的 agent workflow 只實現一次,然后在 A2A、ACP、ANP、Agora 之間切換通信協議。

這樣做的目的,是盡量避免把模型能力差異,prompt 差異,工具實現差異誤認為是協議差異。

ProtocolBench 主要評估四個維度:



為了覆蓋不同類型的通信壓力,論文設計了四個場景:GAIA Document QA、Safety Tech、Streaming Queue、Fail-Storm Recovery。



這四個場景對應的測試指標各不相同。

GAIA Document QA 更像 planner 驅動的多跳協作任務。一個 planner 會創建多個有不同角色和工具的 agent,讓它們共同抽取、總結、判斷證據,并最終回答文檔中心的問題。

Safety Tech 被設計成醫療問答場景,包括注冊網關、協調器和兩個 LLM doctor。系統會被注入 TLS 降級、弱加密套件、證書異常、重放攻擊、隧道嗅探、會話劫持等 probe,用來測試協議棧的安全能力。

Streaming Queue 則更接近高吞吐 API 服務。一個 coordinator 和四個 worker 需要處理 1000 條 MS MARCO 數據,重點評估平均延遲、總耗時、方差和成功率。

Fail-Storm Recovery 關注故障恢復。系統由 8 個 agent 構成 Shard-QA 環形網絡,每 120 秒殺掉其中 3 個 agent,隨后讓它們重新加入,觀察通信鏈路能否恢復。

ProtocolBench 評測結果:

各有優劣,無人通吃

在 ProtocolBench 中測試的四種協議,定位各不相同。

A2A 更強調結構化的 agent-to-agent 協作,適合企業級任務編排和大規模 mission-critical 場景。ACP 更偏向 REST /async 風格的跨框架集成,適合將不同服務包裝成可交互的 agent endpoint。ANP 更強調身份、安全路由和端到端通信,更適合跨邊界、隱私敏感的任務。Agora 則更偏向去中心化 workflow 和 P2P 網絡,適合動態網絡和異構 routine 協商。

ProtocolBench 的實驗結果顯示,協議選擇會顯著影響系統行為,但不存在一個在所有場景里都最優的協議。



A2A:更適合層級協作和故障恢復

在 GAIA Document QA 中,A2A 的任務效用最高:Quality avg 達到 2.51,Success avg 達到 9.29。相比之下,ACP 的 Quality avg 為 2.27、Success avg 為 5.25;ANP 為 2.14 和 7.28;Agora 為 2.33 和 6.27。

這說明在層級化、planner 驅動、多跳協作的任務里,A2A 的輕量 HTTP + JSON-RPC envelope、agent card 機制和 turn-based 協作方式更容易匹配 agent 工作流。

在 Fail-Storm Recovery 中,A2A 也表現最好。它在故障前的 answer discovery 為 14.74,故障后仍有 14.57,保留比例約為 98.85%。

這類場景考驗的是節點掛掉、重啟、重新加入網絡時,協議能不能快速恢復通信。A2A 的優勢在于傳輸層相對無狀態,節點重啟后只要重新暴露 endpoint,就能比較快地恢復通信。

ACP:更適合高吞吐、低延遲服務

Streaming Queue 場景下,ACP 的平均端到端延遲最低,為 9.66 秒,總耗時為 40.28 分鐘,標準差也最小。

A2A 的表現非常接近,平均延遲為 9.70 秒,總耗時 40.45 分鐘;但 ANP 和 Agora 的延遲開銷更高,平均延遲分別為 11.36 秒和 13.14 秒。

這說明在高吞吐、淺層 request-response 服務里,ACP 這類 REST / SSE 風格協議可以減少每次請求的協商成本,也更方便 coordinator 將請求分發給多個 worker。

對實際系統來說,這類差異并不只是論文表格里的數字。ProtocolBench 中,Streaming Queue 的整體完成時間在不同協議之間最多相差 36.5%。當系統每天處理大量請求時,協議層開銷會被持續放大。

ANP / Agora:更適合安全和跨邊界通信

Safety Tech 場景給出了另一種結論。

在 TLS transport、session hijack protection、E2E encryption、tunnel sniffing resistance、metadata leakage prevention 五個維度上,ANP 和 Agora 在實驗中都覆蓋了全部能力。

相比之下,A2A 和 ACP 在部分安全維度上需要額外安全層補足。也就是說,如果系統運行在隱私敏感、跨組織、跨安全邊界的場景里,安全能力可能比平均延遲更重要。

這也是多智能體協議選擇最現實的地方:更輕的協議通常更快,但更強的身份和隱私機制往往會帶來額外開銷。選擇協議,本質上是在任務成功率、延遲、恢復能力和安全邊界之間做取舍。

這也解釋了為什么論文并沒有把四種協議做成一個簡單排行榜。它們服務的是不同系統目標:有的追求輕量協作,有的追求低延遲服務,有的追求安全邊界,有的追求去中心化適配。

真正的問題不是哪個協議最好,而是在某個具體場景下該用哪個協議。

ProtocolRouter:既然沒有萬能協議,

那就讓系統自己選

既然沒有一個協議能通吃所有場景,論文進一步提出 ProtocolRouter。

ProtocolRouter 并不是一個新通信協議,而是一個約束感知的協議路由器。它會根據場景描述、模塊需求、協議能力表和可選的運行時信號,為整個場景或每個模塊選擇協議。

它遵循一個核心原則:先滿足硬約束,再做性能優化。

舉例來說,如果某個模塊明確要求端到端加密,那么不滿足安全約束的協議會先被過濾掉;如果多個協議都滿足硬約束,ProtocolRouter 再根據 streaming、request-response、恢復能力、歷史性能先驗等因素進行選擇。

ProtocolRouter 的輸出可以是單協議,也可以是 per-module 的異構協議組合。例如:





需要注意的是,ProtocolRouter 不會改變應用語義,也不會讓一個更輕的下游協議自動繼承上游更強的安全保證。

當兩個 endpoint 使用不同協議時,系統會通過 adapter 做無狀態的 encode /decode 映射,也就是把一種 wire format 轉成另一種 wire format。這個過程只做 envelope 和字段級映射,不改變業務內容。如果跨越安全域,最終安全保證仍取決于兩端協議和 bridge 實際執行的能力。

這讓 ProtocolRouter 更像一個低頻 planner:它幫助系統在部署或場景切換時做協議選擇,而不是在每條消息上隨意改協議。

ProtocolRouterBench:

Router 本身也要被評估

為了評估 ProtocolRouter 會不會選協議,論文還提出 ProtocolRouterBench。

ProtocolRouterBench 包含 60 個測試場景、180 個通信模塊,并按照 L1 到 L5 分為五個難度等級。難度越高,每個場景里的獨立通信模塊越多。

評估設置分成兩種:

  • Spec-only:只基于協議能力表做選擇。
  • Spec+Perf:先滿足硬約束,再加入 ProtocolBench 中的性能先驗用于打破平局。



結果顯示,Spec-only 模式下,ProtocolRouter 的場景準確率為 53.5%,模塊準確率為 71.2%;加入性能先驗后,場景準確率提升到 63.3%,模塊準確率提升到 81.7%,macro-F1 從 0.721 提升到 0.824。

這組結果說明,協議選擇不只依賴協議說明書,也依賴實際 benchmark 中觀察到的性能信號。尤其在 L4、L5 這類更復雜場景中,性能先驗能幫助 Router 更好地區分 A2A 和 ACP 等容易混淆的協議。

Router 回網,集各家之長

論文進一步把 ProtocolRouter 放回真實 ProtocolBench 場景中做端到端驗證。Router 可以在不同的模塊間選擇最適合的通信協議,也可以在一個網絡中對不同的 agent 選擇不同的協議,把各家之長統一到一張網中。



結果顯示,ProtocolRouter 在多個目標指標上超過了對應場景的最佳單協議 baseline:



其中,Fail-Storm 的恢復時間從 8.00 秒降到 6.55 秒,提升幅度達到 18.1%;GAIA 的成功平均值從 9.29 提升到 9.90。

但論文也強調,這并不意味著 ProtocolRouter 在所有指標上都優于最佳單協議。更準確的說法是:在明確約束下,受控的 per-scenario 或 per-module 協議組合是有價值的。

換句話說,ProtocolRouter 證明的是「按場景選擇協議」這件事本身值得做,而不是證明某個路由器已經可以在所有系統里自動取得最優解。

結語:多智能體系統的下一層競爭,

可能在協議層

隨著 LLM agent 從研究原型走向生產系統,多智能體協作不再只是 prompt 和工具調用的問題。

當多個 agent 需要長期通信、分工協作、共享狀態、處理失敗、跨越安全邊界時,通信協議就會成為系統性能和可靠性的關鍵層。

ProtocolBench 的價值在于,它把過去靠工程直覺判斷的協議選擇問題,變成了可以評測、比較和復現的系統問題。ProtocolRouter 的價值則在于,它進一步把「選哪個協議」變成了一個可以被約束、被路由、被驗證的決策過程。

這篇論文給多智能體系統工程化提供了一個很實用的提醒:不要把協議當成透明管道。協議會影響系統能不能跑得快、能不能恢復、能不能保護隱私,也會影響多智能體協作能走多遠。

當 agent 系統變得越來越復雜,真正重要的問題可能不再是「哪個協議最強」,而是:系統是否知道自己在什么場景下,需要什么樣的通信能力。

作者團隊介紹

本文第一作者為伊利諾伊大學厄巴納–香檳分校本科生 Hongyi Du, 主要研究方向為多智能體系統,自進化智能體和智能體相關的測試基準。研究由 Jiaxuan You 教授和 UIUC 的 CS Phd Kunlun Zhu 指導完成,團隊致力于深入挖掘多智能體系統的合作范式,提升多智能體的合作性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
資深中介客觀預判:不出十年,步梯無電梯老舊小區只剩這5種下場

資深中介客觀預判:不出十年,步梯無電梯老舊小區只剩這5種下場

阿離家居
2026-06-20 05:56:15
特朗普的新專機,首次亮相

特朗普的新專機,首次亮相

財聯社
2026-06-20 05:50:12
韓聯社:朝鮮無權轉播世界杯,報道中刻意刪除美日韓消息

韓聯社:朝鮮無權轉播世界杯,報道中刻意刪除美日韓消息

懂球帝
2026-06-21 10:54:11
三箭齊發!博士實名舉報母校北航多名教師學術造假,深陷學術危機

三箭齊發!博士實名舉報母校北航多名教師學術造假,深陷學術危機

老貓觀點
2026-06-20 10:28:44
研究發現:腦梗最怕的早餐,肉包子第五,第一名很多人天天都在吃

研究發現:腦梗最怕的早餐,肉包子第五,第一名很多人天天都在吃

岐黃傳人孫大夫
2026-06-19 23:25:03
廣州白云披露:一小區電梯更新項目發生事故,造成1死1傷

廣州白云披露:一小區電梯更新項目發生事故,造成1死1傷

南方都市報
2026-06-21 15:18:08
網友質疑愛奇藝廣告“偷時間”:顯示廣告時長18秒,實際播放21秒

網友質疑愛奇藝廣告“偷時間”:顯示廣告時長18秒,實際播放21秒

識礁Farsight
2026-06-21 10:50:10
明明不宜居卻偏偏建了城,如今只剩幾千人,路邊全是遺棄的汽車

明明不宜居卻偏偏建了城,如今只剩幾千人,路邊全是遺棄的汽車

聞識
2026-06-20 02:06:42
發射過程清晰公開!美國都需要仰望的東風-17,已經不是主力了?

發射過程清晰公開!美國都需要仰望的東風-17,已經不是主力了?

云上烏托邦
2026-06-21 02:19:36
老師太清醒了!家長以順路為由要求幫忙接送她孩子,老師果斷拒絕

老師太清醒了!家長以順路為由要求幫忙接送她孩子,老師果斷拒絕

火山詩話
2026-06-20 17:30:02
WTT球星賽:3項冠軍出爐!林鐘勛申裕斌3:1奪冠,日本2冠國乒0冠

WTT球星賽:3項冠軍出爐!林鐘勛申裕斌3:1奪冠,日本2冠國乒0冠

國乒二三事
2026-06-21 20:43:09
《莫離》反轉:穆陽侯只是馬前卒,葉璃第四個仇人,才是萬惡之源

《莫離》反轉:穆陽侯只是馬前卒,葉璃第四個仇人,才是萬惡之源

野路樂熊
2026-06-21 20:02:38
虎撲直男靈魂拷問:絲襪穿久了,腳會有味道嗎?

虎撲直男靈魂拷問:絲襪穿久了,腳會有味道嗎?

時光慢旅人
2026-06-21 00:51:16
毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

王醫生健康講壇
2026-05-31 05:20:08
隨著荷蘭5-1戰勝瑞典!不得不承認的5個事實,穆里尼奧早看透一切

隨著荷蘭5-1戰勝瑞典!不得不承認的5個事實,穆里尼奧早看透一切

卷史
2026-06-21 10:54:57
黃一鳴遛狗不栓繩撞到路人后,自曝百萬網紅身份,威脅要開盒對方

黃一鳴遛狗不栓繩撞到路人后,自曝百萬網紅身份,威脅要開盒對方

芊手若
2026-06-21 13:17:56
學歷保質期只剩5年:10年后沒人看你文憑,能救你的只有這3種能力

學歷保質期只剩5年:10年后沒人看你文憑,能救你的只有這3種能力

有態度網友ytd2993
2026-06-20 00:34:40
1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

睡前講故事
2026-06-18 19:33:01
3.8噸!撞人傷害翻倍,保護自己僅多16%!中國電車為何越造越大?

3.8噸!撞人傷害翻倍,保護自己僅多16%!中國電車為何越造越大?

趣味萌寵的日常
2026-06-07 02:53:27
市面上常添加硼砂的4種食物:商家從來不吃,很多人卻天天買回家

市面上常添加硼砂的4種食物:商家從來不吃,很多人卻天天買回家

39健康網
2026-06-20 19:34:05
2026-06-21 22:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13319文章數 142674關注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價薪酬 2028年可兌現

頭條要聞

巴防長強硬警告:一旦巴方水資源受到威脅 將與印開戰

頭條要聞

巴防長強硬警告:一旦巴方水資源受到威脅 將與印開戰

體育要聞

德國的超級替補,10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財經要聞

“床墊界的特斯拉”破產了

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

時尚
本地
親子
手機
軍事航空

郵報盤點哈蘭德奢侈品收藏:33萬鎊愛馬仕包、28萬豪華腕表

本地新聞

龍騰資江 韻動邵陽

親子要聞

樂高城市系列之甜甜圈販賣車 #大型挖掘機挖土視頻

手機要聞

古爾曼:蘋果產品很快就會漲價,不會拖到秋季

軍事要聞

時隔44年試射洲際導彈 現場照片傳遞三個重磅信息

無障礙瀏覽 進入關懷版