有一句據(jù)說是邁克·泰森說的話,我總在心里反復(fù)琢磨:“每個人都有一個計劃,直到他們臉上挨了一拳。”
AI智能體也沒什么不同。我們花了很多時間,給智能體做基準測試,看在一切順利的情況下,它們能調(diào)用多少工具,處理多復(fù)雜的任務(wù),在長長的上下文中能推理多遠。這些測試有其價值。可在任何真實部署里,事情就是會出岔子。工具會超時。API會吐回一堆垃圾數(shù)據(jù)。一個鏈條深處的步驟產(chǎn)出了模棱兩可的結(jié)果,智能體必須自己拿主意,下一步該怎么辦。
![]()
這陣子我一直在問自己的問題,不是“哪個智能體最聰明”。我想知道的是:“哪個能在臉上挨了一拳之后,還站得住?”
所以,我設(shè)計了一個實驗。我把三個智能體——Hermes Agent、AutoGen和CrewAI——丟進一系列蓄意破壞的場景里。不是那種毀滅性的當機。是你在生產(chǎn)環(huán)境里,真正會碰上的那種亂糟糟的、不徹底的小毛病。然后,我就在旁邊看著,看會發(fā)生什么。
結(jié)果讓我挺意外。不是因為其中某一個,表現(xiàn)好得特別出挑,而是因為那個讓它如此出色的原因。
實驗的設(shè)定是這樣的。AutoGen是微軟推出的,目前用的人最多、多智能體框架里知名度最高的一個。它很成熟,文檔也很全,社區(qū)力量很強大。在很多團隊那里,這是穩(wěn)妥的默認選項。CrewAI呢,靠的是另一條路子,它把多智能體流程做得特別直觀、特別容易理解,因此迅速積累了一批擁躉。如果說AutoGen是企業(yè)級的選擇,CrewAI就帶著創(chuàng)業(yè)公司的味道,固執(zhí)得有點討人喜歡。
而Hermes Agent在這次對比里,多數(shù)人其實沒有真正部署過它。它是開源的,由Nous Research構(gòu)建,設(shè)計初衷就是讓你在自己的硬件上跑。在那些特別在乎所有權(quán)、可復(fù)現(xiàn)性和可靠性的開發(fā)者圈子里,它正得到一種安靜但認真的關(guān)注。坦率地講,我剛開始的時候,多少帶著點懷疑,不覺得它能在那兩個更成熟的選擇面前站得住。我錯了。
實驗內(nèi)容是這樣的:我給每個智能體派了同樣的活兒,一個多步驟的研究流程。它們需要去拉取三家公司的數(shù)據(jù),蘋果、微軟和谷歌,再交叉比對它們近期的公告,識別戰(zhàn)略上的交集,最后產(chǎn)出一份結(jié)構(gòu)化的摘要。不算什么新奇的事。就是你隨便一個周一下午就能搭出來的那種流程。
然后,我開始搞破壞。用了三種辦法。需要說明一下方法論:下面AutoGen和CrewAI的輸出,反映的是它們在每個故障條件下,記錄在案的默認行為。而Hermes Agent的輸出,是實打?qū)嵉模瑥囊粋€由GPT-4o驅(qū)動的流程實時運行中捕獲下來的。
第一個故障,是鏈條中段工具消失。流程進行到第四步的時候,在那個智能體已經(jīng)拉取了蘋果和微軟的數(shù)據(jù)之后,我讓負責(zé)抓取谷歌數(shù)據(jù)的搜索工具,直接返回了一個連接錯誤。實實在在的工作已經(jīng)完成了一部分。實實在在的上下文已經(jīng)構(gòu)建起來了。結(jié)果偏偏在離終點線很近的地方,一個工具就這么掛了。AutoGen的處理方式是拋出異常,然后停止。干凈,技術(shù)上挑不出錯,但完全沒幫上任何忙。它沒有那種“我已經(jīng)拿到了三分之二,讓我先用已有的東西想想辦法”的機制。它就像個承包商,因為一車磚沒送到,直接把整個活兒撂下走人了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.