網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

葬AI基準測試更新：Seed 2.1 Pro急需擺脫平庸的重力

2026-06-25 10:04:11　來源: 葬AI

北京舉報

分享至

「Claude斬殺線來了」

豆包產品無敵，但Seed模型一直不溫不火，大伙對它的印象就兩個：

工資高，隔三差五就有千萬年包上億年包新聞，也不知道真假；多模態(tài)，但編程能力不太行。

以至于你豆姐被戲稱為糖包，甚至成了一個形容詞。Gemini拉了，你們叫它北美大豆包。Grok更拉，你們居然說這是北美二豆包。

真是豈有此理！豈不聞君憂臣勞君辱臣死之理乎！豆姐衛(wèi)士何在？

所以我們有理由相信，Seed模型團隊有充足動力憋個大的，不求像Seedance那樣放大衛(wèi)星，至少要將文本模型趕上國內一線水平。

這次Seed 2.1 Pro發(fā)布，特別強調了編程和長任務執(zhí)行的能力，宣傳口號是終于能勝任Agent工作的模型，還號稱補上了Coding的拼圖。

事實果真如此嗎？

為了客觀體現(xiàn)Seed 2.1 Pro的編程水平，我用它重跑了一遍。讓我用最直白、不繞彎的方式，不賣關子，一次性給你模型能力榜單??

結果令人震驚。Seed 2.1 Pro的得分和MiniMax M3差不多，略低于Kimi K2.7 Code ，相比國模第一GLM 5.2更是有明顯差距。

這次增加測試了Seed 2.1 Pro和Step 3.7 Flash兩個新模型。

測試方法依然是，每個模型跑10輪，每輪獨立的Opencode會話，輸入同一個執(zhí)行方案，來重構美麗的葬AI網(wǎng)站（funeralai.cc）。由Codex來調度和打分，用加權平均分排序。

葬AI網(wǎng)站上有測試模型的全部產物，8x10一共80個，大伙可以自己直觀感受每個模型的差距。

Seed 2.1 Pro的問題主要出在，很難一次性生成好的結果，工程能力不太穩(wěn)定。

這導致了Seed的模型調用數(shù)比較高，跑完測試任務的調用數(shù)為449次，遠高于GLM 5.2（321）、Qwen 3.7 Max（218），和Step 3.7 Flash（443）一個水平，僅次于全場調用數(shù)最高的MiniMax M3（653）。

體現(xiàn)在生成結果上，Seed 2.1 Pro的產出物很不穩(wěn)定。

Seed的高分很高，產出了3個高分，但低分更低，波動顯著，拉低了總得分。比如下圖就是一個高分產物，知識圖譜清晰可交互。

https://funeralai.cc/test/r4/doubao-seed-2-1-pro-260628

主要扣分點是，Seed生成不明白知識圖譜，這種相對復雜的前端任務，Seed在10次里失敗了6次。比如下圖就是一個典型的低分產物，知識圖譜是空的。

https://funeralai.cc/test/r10/doubao-seed-2-1-pro-260628

另一個大問題是，Seed 2.1 Pro的生成速度太慢了。

跑完測試任務耗時128.9分鐘，僅次于MiniMax M3（153.9分鐘），遠高于于全場最快的DeepSeek V4 Pro（46.7分鐘），和比較快的Qwen 3.7 Max（53.3分鐘）、Step 3.7 Flash（57.4分鐘）、GLM 5.2（69.7分鐘）。

生成速度慢的原因，可能是Seed的長程任務執(zhí)行能力不太行。

這其實是符合豆包自己發(fā)布的榜單的。

經(jīng)過凱一的提醒，我發(fā)現(xiàn)原來字節(jié)自己跑的測試也反映了這個問題。這兩個 Bench 對長程任務 plan 能力的評估比較有代表性，豆包也沒藏著掖著，確實不夠SOTA。

坦誠清晰，符合字節(jié)價值觀

凱一對Seed 2.1 Pro評分的解釋是，「Seed 通用能力其實好一點，不是 Coding 專精，如果測深度調研，數(shù)據(jù)爬取，在瀏覽器里點點點，可能 Seed 就比 GLM 好，GLM 是 Coding 專精。」

不過，現(xiàn)在模型廠全都在卷編程，Seed這次更新也主打任務執(zhí)行和編程能力。還是讓我們回到這次編程測試上。

一共10輪測試任務，Seed 2.1 Pro干出來了8個無效進程，有效產物命中率等于55.6%。依舊遠高于GLM 5.2的3個無效，Kimi的2個無效和Step一個無效，其他模型沒有失敗進程。

調用次數(shù)高、任務失敗較多，導致了Seed 2.1 Pro的成本也較高，跑完測試任務一共花了41.3元，依舊僅次于Opus 4.8（202.5 元）和Kimi K2.7 Code（164.6 元），遠高于DS、Qwen、Minimax都在20元左右的成本，和GLM 5.2成本一致。

所以，在沒有任何折扣，直接從火山引擎官網(wǎng)調用的情況下，Seed 2.1 Pro做編程任務的性價比顯著不高。

為了直觀感受這些模型的完成任務速度、花費和調用數(shù)，我也做了一個葬AI基準測試性價比榜。

讓大伙除了認識到最強模型之外，也能給予高性價比模型一點關心??

其中可以看出，階躍的Step 3.7 Flash模型特別讓我驚喜。它的能力得分比DeepSeek V4 Pro高，成本花費居然比DS還便宜，跑完測試任務只花了11.2元，連注冊賬號送的15塊錢都沒用完。

所以在加權了調用數(shù)、耗時這些維度后，Step 3.7 Flash是所有模型中的性價比第三名。

性價比榜還非常直觀地展示出了一條危險線，就是不僅存在DeepSeek斬殺線，也有Claude斬殺線。

性價比低于梁圣很正常，但性價比低于Claude就非常危險。而MiniMax M3、Kimi K2.7 Code 、Seed 2.1 Pro這三個模型的性價比指數(shù)都低于Opus 4.8了。

要努力啊，Kimi、MiniMax和Seed的家人們，一定要努力逃逸平庸的重力

我是相信Seed的，因為從未聽說過Seed蒸餾，國產之光靠你了。

最后聲明一下，葬AI基準測試依然沒有接受任何人的贊助。

這是相對客觀的編程能力的評測。兩個榜單和所有測試產物都可以在葬AI網(wǎng)站閱讀詳細版：

funeralai.cc/test

關于Seed模型，明天還有一篇騾子馬寫的主觀評測，看看Seed 2.1 Pro多模態(tài)、通用能力啥的到底行不行。力爭主客觀結合，幫助家人把每個模型整明白

（本文封面由ChatGPT生成，純人工寫作）

歡迎訂閱我們的Substack

funeralai.substack.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Fable 5解禁即翻車！寫一行代碼就降智，開發(fā)者破防

新智元 2026-07-02 19:16:00
22 跟貼 22
獨家內幕：美團如何用5萬張國產卡訓出“龍貓”萬億級模型？

智東西 2026-07-02 18:54:20
0 跟貼 0

徹底殺死提示詞比賽，Agent Loop是什么鬼？

雷科技 2026-07-03 00:05:18
0 跟貼 0

全球首個英偉達含量為0的萬億模型，成了海外開發(fā)者的搶手貨

量子位 2026-07-02 18:50:00
7 跟貼 7
讓AI秒變備考工具，Gemini發(fā)布全新學習功能

芥末堆看教育 2026-07-03 09:33:21
0 跟貼 0

AI大廠，正在互相設防

虎嗅APP 2026-07-03 03:59:26
0 跟貼 0

百年引力謎題迎來新解：時間可能搖擺不定

像素與芯片 2026-07-03 01:30:49
0 跟貼 0
F-22戰(zhàn)斗機啟動引擎，一股青煙噴涌而出

裝甲鏟史官 2026-01-25 12:20:23
0 跟貼 0

飛機突然發(fā)生爆炸引擎熄火機長極限操作拯救飛機空難紀錄

小狗漫說 2026-07-01 12:05:46
0 跟貼 0
黃金時代腕表的悖論：標準答案早有了，卻兜了30年圈子

灰度測試中 2026-07-03 00:15:32
0 跟貼 0
攀上70米巨樹，他們發(fā)現(xiàn)重力不扼殺水分

萬物皆可科普啊 2026-07-03 02:08:57
0 跟貼 0
滿分的「差」，Qwen與復旦等揭示編程智能體獎勵設計的結構性困境

機器之心Pro 2026-07-02 18:16:12
0 跟貼 0
美軍越野車涉水測試，引擎完全淹沒照樣行駛

裝甲鏟史官 2026-04-29 11:51:27
0 跟貼 0
中國機器人又進化了，美國客戶不相信不要編程，在這直接大開眼界

怪獸愛逗樂 2026-07-01 13:31:29
1 跟貼 1
為什么M1A1坦克，仍在使用燃氣輪機引擎？ # 坦克

軍械百科 2026-07-02 09:12:46
0 跟貼 0
奧特曼預言與現(xiàn)實相差幾何？12個頂級模型“創(chuàng)業(yè)”一年，僅3個存活

鈦媒體APP 2026-04-03 17:11:08
1 跟貼 1
泰山景區(qū)回應修建滾筒式刀片刺繩隔離鐵絲網(wǎng)：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
19463 跟貼 19463
Anthropic欽點8款模型名單曝光

新智元 2026-07-02 10:11:28
20 跟貼 20
榮耀X80 Pro Max：早知道這么玩，還不如爛廠里

一知豆姐 2026-07-01 17:57:36
0 跟貼 0
7月1日起，江蘇最低生活保障標準上調！

環(huán)球網(wǎng) 2026-07-02 10:47:00
882 跟貼 882
李飛飛 Jim Fan和徐丹飛聯(lián)合重磅論文：機器人靈巧手可能走錯了路

DeepTech深科技 2026-07-02 16:05:05
4 跟貼 4
國產巨頭追趕Claude Code！阿里/騰訊/字節(jié)都聚齊了

雷科技 2026-07-02 10:47:07
4 跟貼 4
紅旗天工08 670 Max開啟預售，起售價17.98萬元

牛馬科技 2026-07-02 20:54:35
2 跟貼 2
Opencode力推GLM 5.2免費體驗！

大壯的小生活 2026-07-03 03:54:06
1 跟貼 1
扎哈羅娃：馮德萊恩是個“出色的騙子”

參考消息 2026-07-02 14:14:08
12334 跟貼 12334
開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網(wǎng)-北京青年報 2026-06-28 14:48:24
1826 跟貼 1826
30分鐘手擼刑法大模型！Qwen3+LoRA+RAG實戰(zhàn)，零基礎調參到崩潰（附15萬數(shù)據(jù)&報錯截圖）

盧菁老師 2026-06-30 09:56:17
0 跟貼 0
金屬大黃蜂拼裝！314零件可動！高端禮品超酷#模型拼裝 #大黃蜂模型

制造科技 2026-06-30 21:37:21
0 跟貼 0
字節(jié)Seed用化學思想搞AI，把DeepSeek-R1的腦回路拆成了分子結構

量子位 2026-02-24 15:21:52
0 跟貼 0
豐田MPV裝上華為大模型，后排還給小米留了接口

硬核玩家2哈 2026-07-03 03:57:42
0 跟貼 0
AI寫完AI審，AI審完AI看

人間小愜意啊 2026-07-01 07:00:07
0 跟貼 0
GitHub 3.5 w+星! 不用買NAS，舊電腦直接變成云服務器？

機器之心Pro 2026-06-30 17:42:34
0 跟貼 0
跨會話不再「失憶」：openJiuwen社區(qū)開源 AutoGenetic Memory

機器之心Pro 2026-07-02 12:30:04
0 跟貼 0
WTT美國大滿貫｜女雙半決賽將上演中國德比

北青網(wǎng)-北京青年報 2026-07-02 20:00:04
238 跟貼 238
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
剛剛，韓紅基金會回應八大問題！涉及電腦采購、人員薪資、投資理財?shù)?/a>

每日經(jīng)濟新聞 2026-07-02 20:17:14
728 跟貼 728
世界模型的新用途：不做選手，去當裁判

量子位 2026-07-03 09:14:50
0 跟貼 0
三角梅超長花期施肥方案，收藏版

通勤崩潰觀察員 2026-07-02 04:24:55
0 跟貼 0
Mind Lab開源V1系列模型Preview-4

機器之心Pro 2026-06-09 10:29:58
0 跟貼 0
HBO Max七月新劇：《生活大爆炸》衍生作，木乃伊歸來

我是一個養(yǎng)蝦人 2026-07-02 01:17:31
3 跟貼 3

葬AI

整點真實

113文章數(shù) 24關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

家居

健康

手機

手機 / 數(shù)碼

房產 / 家居

葬AI基準測試更新：Seed 2.1 Pro急需擺脫平庸的重力

特斯拉交付超預期7.4萬輛，股價卻大跌7.5%

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

韓國人，為什么恨透了洪明甫？

黃曉明深夜約會美女，分手原因曝光

AI“鬼故事”不斷，市場開始重估？

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態(tài)度原創(chuàng)

世界上最驚險的10個地方，中國竟然有3個！

獨家猛料！融創(chuàng)海南大變天，項目重啟，大量招人！

傳奇筑 日常詩

這4類消化病患者 吃粘食管住嘴

iPhone 18 Pro系列混用閃存 大存儲版本降配

克羅地亞絕平球無效官方放賽事用球內置芯片檢測畫面

克羅地亞絕平球無效官方放賽事用球內置芯片檢測畫面

有純電有增程還有二代VLA支持小鵬MONA L03預售價14.38萬起

傳奇筑日常詩

這4類消化病患者吃粘食管住嘴

iPhone 18 Pro系列混用閃存大存儲版本降配