網易首頁 > 網易號 > 正文 申請入駐

最全橫測!哪個大模型更適合養"龍蝦"?GPT拉胯,MiniMax/Kimi驚喜

0
分享至

  

  
日前,Pinchbench更新了一份評測報告。

   該報告 通過標準化的 OpenClaw agent 測試任務,對不同大模型在真實任務中的成功率、成本和速度等,進行了橫向對比。

  成功率指標看,排名最高的是 Google Gemini 3 Flash 系列,平均成功率達到 95.1%。緊隨其后的是 MiniMax M2.1(93.6%) 和月之暗面Kimi K2.5(93.4%)。

  這三款模型都超過了 93%,說明在自動化任務執行能力上已經非常穩定。

  Anthropic Claude 系列表現也比較均衡。其中 Claude Sonnet 約 92.7%,Claude Haiku 90.8%,而 Claude Opus 4 在 88%—90% 左右。

  OpenAI 方面,GPT-5 Nano 成功率 85.8%,GPT-4o 為 85.2%,GPT-4o Mini 為 83.4%。雖然沒有進入第一梯隊,但穩定處于中上水平。

  國產模型里,Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%,整體表現也比較接近。

  

  把成本因素一起看,情況就更有意思了。

  成本榜單顯示,完成一次標準任務 最便宜的模型是 GPT-5 Nano,僅約 0.03 美元。第二是 Gemini 2.5 Flash,約 0.05 美元,第三是 Mistral Devstral,約 0.10 美元。

  而高性能模型往往更貴,比如 Claude Sonnet 約 3.07 美元,Claude Opus 超過 5 美元。

  

   從“性能 vs 成本”的圖來看, 最具性價比的區域集中在左上角 :成功率高,同時成本低。

  這個區域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano

  其中 GPT-5 Nano雖然成功率不是最高,但因為價格極低,被認為是“最劃算”的模型之一。

  

  速度方面則是另一套排名。

  最快的是 MiniMax M2.5,完成一次任務 約 105.96 秒。

  隨后是 Gemini 2.0 Flash(106.05 秒) 和 Llama 3 系列(約 106 秒)。

  而一些性能更強的大模型明顯更慢。例如GPT-4o 約 190 秒,Claude Sonnet 約 137 秒,Kimi K2.5 約 291 秒,DeepSeek V3 約 622 秒。

  這說明,模型越大、推理越復雜,速度往往越慢。

  

  綜合這四個維度,可以看到大模型在養“龍蝦”方面的一些特點。

  作為用戶而言,通過評測結果大概可有的結論是:MiniMax-M2.1或Kimi K2.5極致性價比(成功率93%+,成本<$0.20,只是速度不太快);Claude Opus系列貴;GPT-5-Nano適合預算極低的簡單任務。

  評測結果也能看到大模型的一些分化局面。

  比如,谷歌的Gemini和 Anthropic的Claude系列整體表現穩定,一如既往的靠譜。

   OpenAI 則比較讓人意外 。比如在成功率上,中低端版本成績尚可,高端的gpt-5.2卻意外拉胯,未能達到預期。

   當然,其 在成本上依然有優勢,GPT-5 Nano 以極低成本完成任務,是典型的高性價比模型。

   再如,MiniMax 和 Kimi 在成功率榜單中進入前三,說明國產模型在復雜任務執行能力上,已經非常接近國際頂級水平。

   還有就是,同品牌不同系列模型的適配效果差異顯著,選擇時需格外注意版本區別,豐儉由君。

   這也說明,不同模型的定位越來越清晰,有的追求極致性能,有的強調成本控制,還有的側重速度,幾乎沒有模型能同時做到三個維度都最優。

   需要注意的是,本次評測的成績均基于標準化測試,實際部署時還會受硬件配置、部署環境、任務類型等因素影響。

   此外,在部署OpenClaw的過程中,還需要關注官方提示的安全風險,做好權限配置、數據加密等安全防護。

  

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳華任成都市錦江區政府代理區長

陳華任成都市錦江區政府代理區長

金臺資訊
2026-05-09 17:17:44
世乒賽國乒迎來好消息,最大強敵出局,布陣出人意料國乒或可借鑒

世乒賽國乒迎來好消息,最大強敵出局,布陣出人意料國乒或可借鑒

寒士之言本尊
2026-05-08 20:34:14
“菜市場禁剝蠶豆”是怕引發蠶豆???市場回應,醫師提醒:該病在廣東等地較為常見

“菜市場禁剝蠶豆”是怕引發蠶豆???市場回應,醫師提醒:該病在廣東等地較為常見

南粵女聲
2026-05-09 10:35:17
斯諾克巨星邀請賽:吳宜澤送袋口球!希金斯回敬破百,追到2-3!

斯諾克巨星邀請賽:吳宜澤送袋口球!希金斯回敬破百,追到2-3!

劉姚堯的文字城堡
2026-05-09 16:29:55
給寒戰演技最好8位演員排名:周潤發第3,梁家輝第2,第1無爭議

給寒戰演技最好8位演員排名:周潤發第3,梁家輝第2,第1無爭議

糊咖娛樂
2026-05-07 11:49:24
塞爾維亞有兩個自治省,只有科索沃鬧獨立,另一個為何不鬧?

塞爾維亞有兩個自治省,只有科索沃鬧獨立,另一個為何不鬧?

世界縱橫說
2026-05-09 11:39:26
不要錯過!5月9日CCTV5體育頻道,早上08:03足球直播比賽!

不要錯過!5月9日CCTV5體育頻道,早上08:03足球直播比賽!

林子說事
2026-05-09 11:19:57
特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

阿器談史
2026-05-06 13:15:47
跟隊:皇馬更衣室支持穆帥擔任主帥,包括赫伊森和維尼修斯

跟隊:皇馬更衣室支持穆帥擔任主帥,包括赫伊森和維尼修斯

懂球帝
2026-05-09 11:26:41
皇馬的內鬼就是他!高層懷疑索拉里泄密,他的處境變得尷尬

皇馬的內鬼就是他!高層懷疑索拉里泄密,他的處境變得尷尬

懂個球
2026-05-09 15:31:10
1966年毛主席在滴水洞留下詩作,凡讀懂其中玄機之人皆驚恐萬分

1966年毛主席在滴水洞留下詩作,凡讀懂其中玄機之人皆驚恐萬分

人生錄
2026-05-07 16:15:09
阿特金森和烏度卡 誰是季后賽最差主教練 這兩人風評為何反轉大

阿特金森和烏度卡 誰是季后賽最差主教練 這兩人風評為何反轉大

大話火箭隊
2026-05-09 17:15:18
浙江偶遇章若楠王安宇拍戲,生圖腿長蘋果肌飽滿,私下性格太圈粉

浙江偶遇章若楠王安宇拍戲,生圖腿長蘋果肌飽滿,私下性格太圈粉

往史過眼云煙
2026-05-09 16:47:03
利物浦對陣切爾西:英超焦點戰首發揭曉

利物浦對陣切爾西:英超焦點戰首發揭曉

熱血體育社
2026-05-09 18:22:46
總結了一些鍛煉“大腦前額葉”的小方法,孩子真的越來越聰明了!

總結了一些鍛煉“大腦前額葉”的小方法,孩子真的越來越聰明了!

蓁蓁心理撫養
2026-05-06 12:00:08
美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

新京報
2026-05-08 15:46:57
戴旭:中美一旦發生戰爭,美國有實力將中國沿海城市打得稀巴爛?

戴旭:中美一旦發生戰爭,美國有實力將中國沿海城市打得稀巴爛?

二大爺觀世界
2026-01-16 03:04:40
除夕夜我多夾一塊肉婆婆竟把菜扣我頭上,我按下免提鍵:媽反擊了

除夕夜我多夾一塊肉婆婆竟把菜扣我頭上,我按下免提鍵:媽反擊了

麥子情感故事
2026-05-08 23:09:24
美若天仙王楚然:膚白貌美,婀娜多姿。傾國傾城,美不勝收!

美若天仙王楚然:膚白貌美,婀娜多姿。傾國傾城,美不勝收!

十為先生
2026-05-09 15:19:03
大巨變!發現沒有?農村越來越多四五十歲的人,都不出去打工了

大巨變!發現沒有?農村越來越多四五十歲的人,都不出去打工了

復轉這些年
2026-03-22 17:26:02
2026-05-09 19:08:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

數碼要聞

占比40%!MiniLED電視今年銷量將破千萬 徹底走入大眾

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

游戲
藝術
本地
教育
家居

玩家十年沒清空過電腦回收站!一看容量當場傻眼了

藝術要聞

齊白石 紫藤蜜蜂

本地新聞

用蘇繡的方式,打開江西婺源

教育要聞

商學院地理位置怎么影響求職?雷丁與北部城市的差距,比你想的大

家居要聞

菁英人居 全能豪宅

無障礙瀏覽 進入關懷版