誰是AI Agent競賽中真正的勝負手?1781次真實運行給出的答案不是模型。
AI評估平臺Braintrust從Hugging Face抓取了1781條Agent在生產環境中的完整運行軌跡,覆蓋六款主流模型在六大類任務中的表現,然后用GPT-4o逐條打分。結論第一條就極具沖擊力:保持模型不變,僅更換包裹模型的"智能體框架"(harness),成功率可以從12%直接跳到92%——波動幅度超過80個百分點。
回歸分析把這一直覺量化為精確數字。在控制基準測試和模型兩個變量后,智能體框架能解釋約5.3%的成功率差異,模型僅能解釋0.7%。換智能體框架的影響力是換模型的7倍以上。更關鍵的是,智能體框架切換的成本幾乎為零——同一任務中不同智能體框架的Token消耗基本相當。
對AI創業公司而言,這組數據改寫了競爭規則。當模型層商品化加速、六款主流模型在編程任務上的表現差距已縮小至個位數百分點時,"選哪個模型"不再是決定性變量。"用什么工具把模型部署到生產環境"、"每次成功任務的推理成本控制在什么水平"——這兩項能力正在替代"接入哪個模型",成為區分贏家和輸家的核心變量。
智能體框架:成功率81個百分點的最大杠桿
Braintrust測試了五種架構完全不同的智能體框架。claude_code是Anthropic的原生Agent循環,以類XML格式讓模型自主管理工具調用和上下文。smolagents_code允許模型編寫Python代碼串聯操作。tool_calling是標準的結構化JSON函數調用,一次一個工具。tool_calling_with_shortlisting在前者基礎上每輪預篩選可用工具。openai_solo則是最薄的OpenAI封裝。
![]()
同模型、同任務下切換智能體框架的數據令人觸目驚心。Claude在SWE-bench編程任務中,claude_code下成功率100%,換成tool_calling驟降至14%。Kimi在AppWorld多應用編排任務中,smolagents_code下92%,tool_calling下僅12%。GPT-4.1在電信客服任務中,smolagents_code下51%,claude_code下只剩18%。
每個成功率的懸崖背后都是同一個模型。智能體框架設計中的微小差異——是讓模型自主管理上下文,還是用固定模板約束每一步;是允許模型寫代碼來串聯工具調用,還是只能一次調用一個工具——把成功率的差距拉到了近一個數量級。
tool_calling_with_shortlisting的失敗尤其值得注意。這個智能體框架試圖通過"每輪縮小可用工具列表"來提高效率,但數據表明它反而拖累了表現——縮小選項可能切掉了有用工具,也可能引入了路由錯誤。"更精密的控制"并不自動等于"更好的結果"。
開源模型的生產力賬本:編程任務每次成功0.73美元
在SWE-bench編程基準上,開源模型的成績與最頂尖閉源模型處于同一檔位。DeepSeek V3.2達到96%成功率,Kimi K2.5達到94%,Claude Opus 4.5為100%,GPT-5.2為93%,Gemini 3 Pro為87%。
但真正的分水嶺在成本端。Braintrust對每次運行按LiteLLM的實際Token費率定價,然后用成功率折算每次成功任務的成本。
![]()
在SWE-bench上,claude_code配合Kimi K2.5每次成功僅花費0.73美元,配合DeepSeek V3.2為1.27美元。閉源的Claude Opus要4.28美元,Gemini 3 Pro要4.97美元。在AppWorld任務上,差距進一步拉大:Kimi配合smolagents_code每次成功僅0.40美元,Claude配claude_code高達84.33美元——差了200倍以上。
![]()
開源模型還有一個閉源模型不具備的成本結構優勢:自托管。不用每次調用都付費,不用承受API漲價的被動風險。對于需要大規模部署Agent的公司,這構成了一條結構性的成本護城河,不是短期Token降價能抹平的。
"Token最便宜"不等于"效率最高"
GPT-4.1在這個分析中扮演了教科書級的反面角色。
它的Token賬單在紙面上漂亮得驚人——比同等任務下的其他模型便宜10到100倍。但Braintrust拆開每條運行軌跡后發現:GPT-4.1在SWE-bench和AppWorld這類硬核任務上的失敗率高達53%到90%,它之所以"便宜",是因為"更快地失敗了"。
沒有成功率的成本指標不是效率指標,而是"用更少Token完成一次失敗"的數字。衡量效率的正確維度是每次成功成本(cost per success),即單次任務成本除以成功率。這個指標完全重塑了配置排名。
![]()
在編程類任務上,開源模型走到了成本效率前沿線的最優位置。在對話客服類任務上,局面徹底翻轉——GPT-4.1以每次成功0.02至0.03美元的成本大幅領先Claude的1.95美元,且開源模型根本沒有運行這批對話測試。
對于AI創業公司,不存在一個通吃的"最便宜模型"。編碼任務用DeepSeek或Kimi自托管,客服對話用GPT-4.1——不同的任務家族對應完全不同的成本最優解。
沒有全能的模型,只有分任務的最優解
六個基準測試,四個不同的冠軍。
Claude贏下SWE-bench(編程)、BrowseComp+(網頁研究)和TAU2零售/電信客服。Gemini在TAU2航空客服上以100%成功率奪冠。DeepSeek和Kimi則在AppWorld多應用編排任務上大幅領先。不存在一個在所有場景中通殺的模型。
甚至在同一智能體框架內,不同模型的表現也差距懸殊。AppWorld任務中,Claude在自家原生的claude_code下僅有26%成功率,遠低于同智能體框架下DeepSeek的80%和Kimi的78%。模型與任務的匹配度、以及與智能體框架之間的協同效應,遠比模型參數的絕對規模更能預測最終表現。
Braintrust還發現,高平均成功率會掩蓋致命的局部塌方。某些配置總體得分不錯,但在某個具體任務類型上完全崩盤。把每個配置的跨任務成功率標準差畫出來,高方差配置和可靠配置涇渭分明——Claude Opus的claude_code雖然總體上73%領先Gemini的71%,但跨任務標準差卻更高(0.27 vs 0.24),意味著它在某些測試套件上波動更大。
對創業公司的采購策略而言,這意味著不應當押注單一模型。合理的路徑是按任務類型構建一個差異化的模型-智能體框架組合矩陣,讓每一類任務都跑在最合適、成本最優的配置上。
兩種失敗,兩種完全相反的工程策略
Braintrust還揭示了一個對工程部署有直接指導意義的模式:Agent失敗時的行為,在編碼任務和對話任務上方向完全相反。
在SWE-bench和AppWorld這類硬核編程任務中,失敗伴隨著"顛簸"——Agent比成功的同行發出更多LLM調用、消耗更多Token、運行更長時間。BrowseComp+的失敗運行消耗的Token是成功運行的2.3倍。claude_code智能體框架的失敗運行Token用量中位數約0.8M,尾部甚至超過3.7M。
在TAU2客服對話類任務中,模式完全反轉。失敗的Agent調用更少、Token更少、結束更快——沒有顛簸掙扎,直接自信地給出了一個錯誤答案后收工。
兩種截然相反的失敗模式意味著,生產環境的監控策略不能用一個規則覆蓋所有場景。編碼任務需要Token用量的上限告警——在Agent陷入無限循環或反復掙扎時及時止損。對話任務則需要下限告警——捕捉那些"過于流暢地完成了一次錯誤交付"的異常。一刀切的單一閾值,會幫助一類任務,同時摧毀另一類。
![]()
推理成本管理和部署效率:創業公司的真正壁壘
Braintrust這組數據講述的是一個比"誰家的模型跑分更高"更根本的敘事。
六個主流模型在編程任務上的成功率差距已經收窄到個位數百分點,開源模型的單次成功成本甚至已經系統性低于閉源。模型層的商品化速度比絕大多數人預想的更快。繼續在"接入哪個最新模型"上構筑商業故事,護城河正在快速蒸發。
真正開始拉開差距的,是模型之外的三項能力:為每類任務匹配最優智能體框架、按每次成功成本而非每次任務成本衡量效率、對不同任務類型建立差異化的失敗監控體系。
這三件事的核心指向同一組關鍵詞——推理成本的精細管理和部署效率的系統優化。AI Agent賽道上,比"你的模型比我的好多少"更關鍵的問題是:你在給定任務上把每次成功成本控制到什么水平?你能否在客戶自建方案做不到的成本線以下交付相同的成功率?
對于ToB的AI創業公司,產品定義的重心需要從"我們接入了哪個模型"轉向"我們在什么任務場景、用什么成本結構、以什么成功率交付"。敘事不再是比模型——是比成本、比效率、比工程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.