網易首頁 > 網易號 > 正文申請入駐

“框架”比“模型”本身對Agent成功的影響大7倍！“推理成本”和“部署效率”才是創業公司的核心競爭優勢

2026-06-26 15:48:01　來源: 華爾街見聞官方

上海舉報

分享至

誰是AI Agent競賽中真正的勝負手？1781次真實運行給出的答案不是模型。

AI評估平臺Braintrust從Hugging Face抓取了1781條Agent在生產環境中的完整運行軌跡，覆蓋六款主流模型在六大類任務中的表現，然后用GPT-4o逐條打分。結論第一條就極具沖擊力：保持模型不變，僅更換包裹模型的"智能體框架"（harness），成功率可以從12%直接跳到92%——波動幅度超過80個百分點。

回歸分析把這一直覺量化為精確數字。在控制基準測試和模型兩個變量后，智能體框架能解釋約5.3%的成功率差異，模型僅能解釋0.7%。換智能體框架的影響力是換模型的7倍以上。更關鍵的是，智能體框架切換的成本幾乎為零——同一任務中不同智能體框架的Token消耗基本相當。

對AI創業公司而言，這組數據改寫了競爭規則。當模型層商品化加速、六款主流模型在編程任務上的表現差距已縮小至個位數百分點時，"選哪個模型"不再是決定性變量。"用什么工具把模型部署到生產環境"、"每次成功任務的推理成本控制在什么水平"——這兩項能力正在替代"接入哪個模型"，成為區分贏家和輸家的核心變量。

智能體框架：成功率81個百分點的最大杠桿

Braintrust測試了五種架構完全不同的智能體框架。claude_code是Anthropic的原生Agent循環，以類XML格式讓模型自主管理工具調用和上下文。smolagents_code允許模型編寫Python代碼串聯操作。tool_calling是標準的結構化JSON函數調用，一次一個工具。tool_calling_with_shortlisting在前者基礎上每輪預篩選可用工具。openai_solo則是最薄的OpenAI封裝。

同模型、同任務下切換智能體框架的數據令人觸目驚心。Claude在SWE-bench編程任務中，claude_code下成功率100%，換成tool_calling驟降至14%。Kimi在AppWorld多應用編排任務中，smolagents_code下92%，tool_calling下僅12%。GPT-4.1在電信客服任務中，smolagents_code下51%，claude_code下只剩18%。

每個成功率的懸崖背后都是同一個模型。智能體框架設計中的微小差異——是讓模型自主管理上下文，還是用固定模板約束每一步；是允許模型寫代碼來串聯工具調用，還是只能一次調用一個工具——把成功率的差距拉到了近一個數量級。

tool_calling_with_shortlisting的失敗尤其值得注意。這個智能體框架試圖通過"每輪縮小可用工具列表"來提高效率，但數據表明它反而拖累了表現——縮小選項可能切掉了有用工具，也可能引入了路由錯誤。"更精密的控制"并不自動等于"更好的結果"。

開源模型的生產力賬本：編程任務每次成功0.73美元

在SWE-bench編程基準上，開源模型的成績與最頂尖閉源模型處于同一檔位。DeepSeek V3.2達到96%成功率，Kimi K2.5達到94%，Claude Opus 4.5為100%，GPT-5.2為93%，Gemini 3 Pro為87%。

但真正的分水嶺在成本端。Braintrust對每次運行按LiteLLM的實際Token費率定價，然后用成功率折算每次成功任務的成本。

在SWE-bench上，claude_code配合Kimi K2.5每次成功僅花費0.73美元，配合DeepSeek V3.2為1.27美元。閉源的Claude Opus要4.28美元，Gemini 3 Pro要4.97美元。在AppWorld任務上，差距進一步拉大：Kimi配合smolagents_code每次成功僅0.40美元，Claude配claude_code高達84.33美元——差了200倍以上。

開源模型還有一個閉源模型不具備的成本結構優勢：自托管。不用每次調用都付費，不用承受API漲價的被動風險。對于需要大規模部署Agent的公司，這構成了一條結構性的成本護城河，不是短期Token降價能抹平的。

"Token最便宜"不等于"效率最高"

GPT-4.1在這個分析中扮演了教科書級的反面角色。

它的Token賬單在紙面上漂亮得驚人——比同等任務下的其他模型便宜10到100倍。但Braintrust拆開每條運行軌跡后發現：GPT-4.1在SWE-bench和AppWorld這類硬核任務上的失敗率高達53%到90%，它之所以"便宜"，是因為"更快地失敗了"。

沒有成功率的成本指標不是效率指標，而是"用更少Token完成一次失敗"的數字。衡量效率的正確維度是每次成功成本（cost per success），即單次任務成本除以成功率。這個指標完全重塑了配置排名。

在編程類任務上，開源模型走到了成本效率前沿線的最優位置。在對話客服類任務上，局面徹底翻轉——GPT-4.1以每次成功0.02至0.03美元的成本大幅領先Claude的1.95美元，且開源模型根本沒有運行這批對話測試。

對于AI創業公司，不存在一個通吃的"最便宜模型"。編碼任務用DeepSeek或Kimi自托管，客服對話用GPT-4.1——不同的任務家族對應完全不同的成本最優解。

沒有全能的模型，只有分任務的最優解

六個基準測試，四個不同的冠軍。

Claude贏下SWE-bench（編程）、BrowseComp+（網頁研究）和TAU2零售/電信客服。Gemini在TAU2航空客服上以100%成功率奪冠。DeepSeek和Kimi則在AppWorld多應用編排任務上大幅領先。不存在一個在所有場景中通殺的模型。

甚至在同一智能體框架內，不同模型的表現也差距懸殊。AppWorld任務中，Claude在自家原生的claude_code下僅有26%成功率，遠低于同智能體框架下DeepSeek的80%和Kimi的78%。模型與任務的匹配度、以及與智能體框架之間的協同效應，遠比模型參數的絕對規模更能預測最終表現。

Braintrust還發現，高平均成功率會掩蓋致命的局部塌方。某些配置總體得分不錯，但在某個具體任務類型上完全崩盤。把每個配置的跨任務成功率標準差畫出來，高方差配置和可靠配置涇渭分明——Claude Opus的claude_code雖然總體上73%領先Gemini的71%，但跨任務標準差卻更高（0.27 vs 0.24），意味著它在某些測試套件上波動更大。

對創業公司的采購策略而言，這意味著不應當押注單一模型。合理的路徑是按任務類型構建一個差異化的模型-智能體框架組合矩陣，讓每一類任務都跑在最合適、成本最優的配置上。

兩種失敗，兩種完全相反的工程策略

Braintrust還揭示了一個對工程部署有直接指導意義的模式：Agent失敗時的行為，在編碼任務和對話任務上方向完全相反。

在SWE-bench和AppWorld這類硬核編程任務中，失敗伴隨著"顛簸"——Agent比成功的同行發出更多LLM調用、消耗更多Token、運行更長時間。BrowseComp+的失敗運行消耗的Token是成功運行的2.3倍。claude_code智能體框架的失敗運行Token用量中位數約0.8M，尾部甚至超過3.7M。

在TAU2客服對話類任務中，模式完全反轉。失敗的Agent調用更少、Token更少、結束更快——沒有顛簸掙扎，直接自信地給出了一個錯誤答案后收工。

兩種截然相反的失敗模式意味著，生產環境的監控策略不能用一個規則覆蓋所有場景。編碼任務需要Token用量的上限告警——在Agent陷入無限循環或反復掙扎時及時止損。對話任務則需要下限告警——捕捉那些"過于流暢地完成了一次錯誤交付"的異常。一刀切的單一閾值，會幫助一類任務，同時摧毀另一類。

推理成本管理和部署效率：創業公司的真正壁壘

Braintrust這組數據講述的是一個比"誰家的模型跑分更高"更根本的敘事。

六個主流模型在編程任務上的成功率差距已經收窄到個位數百分點，開源模型的單次成功成本甚至已經系統性低于閉源。模型層的商品化速度比絕大多數人預想的更快。繼續在"接入哪個最新模型"上構筑商業故事，護城河正在快速蒸發。

真正開始拉開差距的，是模型之外的三項能力：為每類任務匹配最優智能體框架、按每次成功成本而非每次任務成本衡量效率、對不同任務類型建立差異化的失敗監控體系。

這三件事的核心指向同一組關鍵詞——推理成本的精細管理和部署效率的系統優化。AI Agent賽道上，比"你的模型比我的好多少"更關鍵的問題是：你在給定任務上把每次成功成本控制到什么水平？你能否在客戶自建方案做不到的成本線以下交付相同的成功率？

對于ToB的AI創業公司，產品定義的重心需要從"我們接入了哪個模型"轉向"我們在什么任務場景、用什么成本結構、以什么成功率交付"。敘事不再是比模型——是比成本、比效率、比工程。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.