我故意放倒三個AI智能體，看誰最能抗揍

2026-05-31 01:07:26　來源: 賽博蘭博

北京舉報

分享至

有一句據(jù)說是邁克·泰森說的話，我總在心里反復(fù)琢磨：“每個人都有一個計劃，直到他們臉上挨了一拳。”

AI智能體也沒什么不同。我們花了很多時間，給智能體做基準測試，看在一切順利的情況下，它們能調(diào)用多少工具，處理多復(fù)雜的任務(wù)，在長長的上下文中能推理多遠。這些測試有其價值。可在任何真實部署里，事情就是會出岔子。工具會超時。API會吐回一堆垃圾數(shù)據(jù)。一個鏈條深處的步驟產(chǎn)出了模棱兩可的結(jié)果，智能體必須自己拿主意，下一步該怎么辦。

這陣子我一直在問自己的問題，不是“哪個智能體最聰明”。我想知道的是：“哪個能在臉上挨了一拳之后，還站得住？”

所以，我設(shè)計了一個實驗。我把三個智能體——Hermes Agent、AutoGen和CrewAI——丟進一系列蓄意破壞的場景里。不是那種毀滅性的當機。是你在生產(chǎn)環(huán)境里，真正會碰上的那種亂糟糟的、不徹底的小毛病。然后，我就在旁邊看著，看會發(fā)生什么。

結(jié)果讓我挺意外。不是因為其中某一個，表現(xiàn)好得特別出挑，而是因為那個讓它如此出色的原因。

實驗的設(shè)定是這樣的。AutoGen是微軟推出的，目前用的人最多、多智能體框架里知名度最高的一個。它很成熟，文檔也很全，社區(qū)力量很強大。在很多團隊那里，這是穩(wěn)妥的默認選項。CrewAI呢，靠的是另一條路子，它把多智能體流程做得特別直觀、特別容易理解，因此迅速積累了一批擁躉。如果說AutoGen是企業(yè)級的選擇，CrewAI就帶著創(chuàng)業(yè)公司的味道，固執(zhí)得有點討人喜歡。

而Hermes Agent在這次對比里，多數(shù)人其實沒有真正部署過它。它是開源的，由Nous Research構(gòu)建，設(shè)計初衷就是讓你在自己的硬件上跑。在那些特別在乎所有權(quán)、可復(fù)現(xiàn)性和可靠性的開發(fā)者圈子里，它正得到一種安靜但認真的關(guān)注。坦率地講，我剛開始的時候，多少帶著點懷疑，不覺得它能在那兩個更成熟的選擇面前站得住。我錯了。

實驗內(nèi)容是這樣的：我給每個智能體派了同樣的活兒，一個多步驟的研究流程。它們需要去拉取三家公司的數(shù)據(jù)，蘋果、微軟和谷歌，再交叉比對它們近期的公告，識別戰(zhàn)略上的交集，最后產(chǎn)出一份結(jié)構(gòu)化的摘要。不算什么新奇的事。就是你隨便一個周一下午就能搭出來的那種流程。

然后，我開始搞破壞。用了三種辦法。需要說明一下方法論：下面AutoGen和CrewAI的輸出，反映的是它們在每個故障條件下，記錄在案的默認行為。而Hermes Agent的輸出，是實打?qū)嵉模瑥囊粋€由GPT-4o驅(qū)動的流程實時運行中捕獲下來的。

第一個故障，是鏈條中段工具消失。流程進行到第四步的時候，在那個智能體已經(jīng)拉取了蘋果和微軟的數(shù)據(jù)之后，我讓負責(zé)抓取谷歌數(shù)據(jù)的搜索工具，直接返回了一個連接錯誤。實實在在的工作已經(jīng)完成了一部分。實實在在的上下文已經(jīng)構(gòu)建起來了。結(jié)果偏偏在離終點線很近的地方，一個工具就這么掛了。AutoGen的處理方式是拋出異常，然后停止。干凈，技術(shù)上挑不出錯，但完全沒幫上任何忙。它沒有那種“我已經(jīng)拿到了三分之二，讓我先用已有的東西想想辦法”的機制。它就像個承包商，因為一車磚沒送到，直接把整個活兒撂下走人了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.