无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

“框架”比“模型”本身對Agent成功的影響大7倍!“推理成本”和“部署效率”才是創業公司的核心競爭優勢

0
分享至

誰是AI Agent競賽中真正的勝負手?1781次真實運行給出的答案不是模型。

AI評估平臺Braintrust從Hugging Face抓取了1781條Agent在生產環境中的完整運行軌跡,覆蓋六款主流模型在六大類任務中的表現,然后用GPT-4o逐條打分。結論第一條就極具沖擊力:保持模型不變,僅更換包裹模型的"智能體框架"(harness),成功率可以從12%直接跳到92%——波動幅度超過80個百分點。

回歸分析把這一直覺量化為精確數字。在控制基準測試和模型兩個變量后,智能體框架能解釋約5.3%的成功率差異,模型僅能解釋0.7%。換智能體框架的影響力是換模型的7倍以上。更關鍵的是,智能體框架切換的成本幾乎為零——同一任務中不同智能體框架的Token消耗基本相當。

對AI創業公司而言,這組數據改寫了競爭規則。當模型層商品化加速、六款主流模型在編程任務上的表現差距已縮小至個位數百分點時,"選哪個模型"不再是決定性變量。"用什么工具把模型部署到生產環境"、"每次成功任務的推理成本控制在什么水平"——這兩項能力正在替代"接入哪個模型",成為區分贏家和輸家的核心變量。

智能體框架:成功率81個百分點的最大杠桿

Braintrust測試了五種架構完全不同的智能體框架。claude_code是Anthropic的原生Agent循環,以類XML格式讓模型自主管理工具調用和上下文。smolagents_code允許模型編寫Python代碼串聯操作。tool_calling是標準的結構化JSON函數調用,一次一個工具。tool_calling_with_shortlisting在前者基礎上每輪預篩選可用工具。openai_solo則是最薄的OpenAI封裝。


同模型、同任務下切換智能體框架的數據令人觸目驚心。Claude在SWE-bench編程任務中,claude_code下成功率100%,換成tool_calling驟降至14%。Kimi在AppWorld多應用編排任務中,smolagents_code下92%,tool_calling下僅12%。GPT-4.1在電信客服任務中,smolagents_code下51%,claude_code下只剩18%。

每個成功率的懸崖背后都是同一個模型。智能體框架設計中的微小差異——是讓模型自主管理上下文,還是用固定模板約束每一步;是允許模型寫代碼來串聯工具調用,還是只能一次調用一個工具——把成功率的差距拉到了近一個數量級。

tool_calling_with_shortlisting的失敗尤其值得注意。這個智能體框架試圖通過"每輪縮小可用工具列表"來提高效率,但數據表明它反而拖累了表現——縮小選項可能切掉了有用工具,也可能引入了路由錯誤。"更精密的控制"并不自動等于"更好的結果"。

開源模型的生產力賬本:編程任務每次成功0.73美元

在SWE-bench編程基準上,開源模型的成績與最頂尖閉源模型處于同一檔位。DeepSeek V3.2達到96%成功率,Kimi K2.5達到94%,Claude Opus 4.5為100%,GPT-5.2為93%,Gemini 3 Pro為87%。

但真正的分水嶺在成本端。Braintrust對每次運行按LiteLLM的實際Token費率定價,然后用成功率折算每次成功任務的成本。


在SWE-bench上,claude_code配合Kimi K2.5每次成功僅花費0.73美元,配合DeepSeek V3.2為1.27美元。閉源的Claude Opus要4.28美元,Gemini 3 Pro要4.97美元。在AppWorld任務上,差距進一步拉大:Kimi配合smolagents_code每次成功僅0.40美元,Claude配claude_code高達84.33美元——差了200倍以上。


開源模型還有一個閉源模型不具備的成本結構優勢:自托管。不用每次調用都付費,不用承受API漲價的被動風險。對于需要大規模部署Agent的公司,這構成了一條結構性的成本護城河,不是短期Token降價能抹平的。

"Token最便宜"不等于"效率最高"

GPT-4.1在這個分析中扮演了教科書級的反面角色。

它的Token賬單在紙面上漂亮得驚人——比同等任務下的其他模型便宜10到100倍。但Braintrust拆開每條運行軌跡后發現:GPT-4.1在SWE-bench和AppWorld這類硬核任務上的失敗率高達53%到90%,它之所以"便宜",是因為"更快地失敗了"。

沒有成功率的成本指標不是效率指標,而是"用更少Token完成一次失敗"的數字。衡量效率的正確維度是每次成功成本(cost per success),即單次任務成本除以成功率。這個指標完全重塑了配置排名。


在編程類任務上,開源模型走到了成本效率前沿線的最優位置。在對話客服類任務上,局面徹底翻轉——GPT-4.1以每次成功0.02至0.03美元的成本大幅領先Claude的1.95美元,且開源模型根本沒有運行這批對話測試。

對于AI創業公司,不存在一個通吃的"最便宜模型"。編碼任務用DeepSeek或Kimi自托管,客服對話用GPT-4.1——不同的任務家族對應完全不同的成本最優解。

沒有全能的模型,只有分任務的最優解

六個基準測試,四個不同的冠軍。

Claude贏下SWE-bench(編程)、BrowseComp+(網頁研究)和TAU2零售/電信客服。Gemini在TAU2航空客服上以100%成功率奪冠。DeepSeek和Kimi則在AppWorld多應用編排任務上大幅領先。不存在一個在所有場景中通殺的模型。

甚至在同一智能體框架內,不同模型的表現也差距懸殊。AppWorld任務中,Claude在自家原生的claude_code下僅有26%成功率,遠低于同智能體框架下DeepSeek的80%和Kimi的78%。模型與任務的匹配度、以及與智能體框架之間的協同效應,遠比模型參數的絕對規模更能預測最終表現。

Braintrust還發現,高平均成功率會掩蓋致命的局部塌方。某些配置總體得分不錯,但在某個具體任務類型上完全崩盤。把每個配置的跨任務成功率標準差畫出來,高方差配置和可靠配置涇渭分明——Claude Opus的claude_code雖然總體上73%領先Gemini的71%,但跨任務標準差卻更高(0.27 vs 0.24),意味著它在某些測試套件上波動更大。

對創業公司的采購策略而言,這意味著不應當押注單一模型。合理的路徑是按任務類型構建一個差異化的模型-智能體框架組合矩陣,讓每一類任務都跑在最合適、成本最優的配置上。

兩種失敗,兩種完全相反的工程策略

Braintrust還揭示了一個對工程部署有直接指導意義的模式:Agent失敗時的行為,在編碼任務和對話任務上方向完全相反。

在SWE-bench和AppWorld這類硬核編程任務中,失敗伴隨著"顛簸"——Agent比成功的同行發出更多LLM調用、消耗更多Token、運行更長時間。BrowseComp+的失敗運行消耗的Token是成功運行的2.3倍。claude_code智能體框架的失敗運行Token用量中位數約0.8M,尾部甚至超過3.7M。

在TAU2客服對話類任務中,模式完全反轉。失敗的Agent調用更少、Token更少、結束更快——沒有顛簸掙扎,直接自信地給出了一個錯誤答案后收工。

兩種截然相反的失敗模式意味著,生產環境的監控策略不能用一個規則覆蓋所有場景。編碼任務需要Token用量的上限告警——在Agent陷入無限循環或反復掙扎時及時止損。對話任務則需要下限告警——捕捉那些"過于流暢地完成了一次錯誤交付"的異常。一刀切的單一閾值,會幫助一類任務,同時摧毀另一類。


推理成本管理和部署效率:創業公司的真正壁壘

Braintrust這組數據講述的是一個比"誰家的模型跑分更高"更根本的敘事。

六個主流模型在編程任務上的成功率差距已經收窄到個位數百分點,開源模型的單次成功成本甚至已經系統性低于閉源。模型層的商品化速度比絕大多數人預想的更快。繼續在"接入哪個最新模型"上構筑商業故事,護城河正在快速蒸發。

真正開始拉開差距的,是模型之外的三項能力:為每類任務匹配最優智能體框架、按每次成功成本而非每次任務成本衡量效率、對不同任務類型建立差異化的失敗監控體系。

這三件事的核心指向同一組關鍵詞——推理成本的精細管理和部署效率的系統優化。AI Agent賽道上,比"你的模型比我的好多少"更關鍵的問題是:你在給定任務上把每次成功成本控制到什么水平?你能否在客戶自建方案做不到的成本線以下交付相同的成功率?

對于ToB的AI創業公司,產品定義的重心需要從"我們接入了哪個模型"轉向"我們在什么任務場景、用什么成本結構、以什么成功率交付"。敘事不再是比模型——是比成本、比效率、比工程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
離婚當天婆家擺慶功宴,我在暗處布下天羅網,結賬時全家臉都綠了

離婚當天婆家擺慶功宴,我在暗處布下天羅網,結賬時全家臉都綠了

城南雪花開
2026-02-25 20:33:23
沃什重創"美元貶值交易"!黃金崩了,比特幣重挫,芯片狂歡還能撐多久?

沃什重創"美元貶值交易"!黃金崩了,比特幣重挫,芯片狂歡還能撐多久?

華爾街見聞官方
2026-06-25 13:47:19
越鬧越大!“走個面”事件諷刺漫畫及對話出爐,雙方“底褲”被扒

越鬧越大!“走個面”事件諷刺漫畫及對話出爐,雙方“底褲”被扒

火山詩話
2026-06-25 06:37:37
終于有人為韓紅發聲!網友:只有北京人對她的這次拉票有評價資質

終于有人為韓紅發聲!網友:只有北京人對她的這次拉票有評價資質

火山詩話
2026-06-26 05:58:59
蔣濤:當一個人 28 天寫完 Claude Code,開源開發者的紅利去了哪里?

蔣濤:當一個人 28 天寫完 Claude Code,開源開發者的紅利去了哪里?

CSDN
2026-06-25 21:35:18
估分445查分519!達州一考生高考逆襲,全家激動歡呼致謝母校

估分445查分519!達州一考生高考逆襲,全家激動歡呼致謝母校

封面新聞
2026-06-26 00:08:02
李世民在HK風評很差?為何教科書上全是負面評價?

李世民在HK風評很差?為何教科書上全是負面評價?

小豫講故事
2026-06-17 06:00:10
普京:烏克蘭是前線撐不住才打俄本土

普京:烏克蘭是前線撐不住才打俄本土

桂系007
2026-06-23 23:10:03
一碗隔夜米飯毒死7人?醫生警告:米飯盡量別這樣吃,比砒霜還毒

一碗隔夜米飯毒死7人?醫生警告:米飯盡量別這樣吃,比砒霜還毒

路醫生健康科普
2026-05-31 20:15:03
印尼萬萬沒想到,中方竟這么狠!曾收割中企想拿捏中國,卻被反制

印尼萬萬沒想到,中方竟這么狠!曾收割中企想拿捏中國,卻被反制

牛鍋巴小釩
2026-06-25 19:30:04
163的王祖藍和175的老婆換褲子穿,一個成人行拖把,一個成7分褲

163的王祖藍和175的老婆換褲子穿,一個成人行拖把,一個成7分褲

木子愛娛樂大號
2026-06-22 10:21:23
一眼就能看出“家境優渥”的中年女人,大多有3個特質,很準

一眼就能看出“家境優渥”的中年女人,大多有3個特質,很準

大熊歡樂坊
2026-06-25 18:21:14
泰國王室繼承人殺出黑馬,育坤家族王子血統純正,也比提幫功聰明

泰國王室繼承人殺出黑馬,育坤家族王子血統純正,也比提幫功聰明

照見古今
2026-06-25 18:02:39
龍泉山出現手臂粗菜花蛇,無毒蛇為何被稱為百蛇之王?

龍泉山出現手臂粗菜花蛇,無毒蛇為何被稱為百蛇之王?

普陀動物世界
2026-06-25 12:07:40
6-15年私家車年檢重點!吃透這幾點,再也不怕年檢返工吃罰單

6-15年私家車年檢重點!吃透這幾點,再也不怕年檢返工吃罰單

老特有話說
2026-06-26 16:23:30
癌癥是基因注定的,躲也躲不掉?父母得了5種癌,或遺傳給下一代

癌癥是基因注定的,躲也躲不掉?父母得了5種癌,或遺傳給下一代

39健康網
2026-06-25 08:30:42
67歲王朔現狀:一身毛病,愛吃甜食,獨自定居北京,拒絕綜藝商演

67歲王朔現狀:一身毛病,愛吃甜食,獨自定居北京,拒絕綜藝商演

陳意小可愛
2026-06-26 15:51:05
范志毅說的果然沒錯!人民日報銳評董路,犀利言論直擊球迷心聲

范志毅說的果然沒錯!人民日報銳評董路,犀利言論直擊球迷心聲

領悟看世界
2026-06-13 00:57:31
A媽直播攤牌!曝光和莫莉真實關系,直言壓根不熟,全程只跟著杰森

A媽直播攤牌!曝光和莫莉真實關系,直言壓根不熟,全程只跟著杰森

小椰的奶奶
2026-06-26 12:39:00
女演員千萬別整容,看《問心2》毛曉彤與張佳寧同框,對比很慘烈

女演員千萬別整容,看《問心2》毛曉彤與張佳寧同框,對比很慘烈

娛說瑜悅
2026-06-25 23:25:33
2026-06-26 17:23:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
148248文章數 2654016關注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發布GPT-5.6

頭條要聞

朝鮮領導層重大調整:"反腐少將"被查 趙甬元被"召回"

頭條要聞

朝鮮領導層重大調整:"反腐少將"被查 趙甬元被"召回"

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財經要聞

懸在科技頭上的達摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

本地
房產
教育
家居
藝術

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

房產要聞

全國高考大放水,300分就能上本科!論上岸率,海南沒輸過!

教育要聞

官方發布!四川省2026年普通高校招生錄取控制分數線來了!

家居要聞

綠意盎然 自然之境

藝術要聞

470米!重慶“第一高樓”夢斷?上架拍賣!

無障礙瀏覽 進入關懷版