![]()
「Claude斬殺線來了」
豆包產品無敵,但Seed模型一直不溫不火,大伙對它的印象就兩個:
工資高,隔三差五就有千萬年包上億年包新聞,也不知道真假;多模態(tài),但編程能力不太行。
以至于你豆姐被戲稱為糖包,甚至成了一個形容詞。Gemini拉了,你們叫它北美大豆包。Grok更拉,你們居然說這是北美二豆包。
真是豈有此理!豈不聞君憂臣勞君辱臣死之理乎!豆姐衛(wèi)士何在?
所以我們有理由相信,Seed模型團隊有充足動力憋個大的,不求像Seedance那樣放大衛(wèi)星,至少要將文本模型趕上國內一線水平。
這次Seed 2.1 Pro發(fā)布,特別強調了編程和長任務執(zhí)行的能力,宣傳口號是終于能勝任Agent工作的模型,還號稱補上了Coding的拼圖。
事實果真如此嗎?
為了客觀體現(xiàn)Seed 2.1 Pro的編程水平,我用它重跑了一遍。讓我用最直白、不繞彎的方式,不賣關子,一次性給你模型能力榜單??
![]()
結果令人震驚。Seed 2.1 Pro的得分和MiniMax M3差不多,略低于Kimi K2.7 Code ,相比國模第一GLM 5.2更是有明顯差距。
這次增加測試了Seed 2.1 Pro和Step 3.7 Flash兩個新模型。
測試方法依然是,每個模型跑10輪,每輪獨立的Opencode會話,輸入同一個執(zhí)行方案,來重構美麗的葬AI網(wǎng)站(funeralai.cc)。由Codex來調度和打分,用加權平均分排序。
葬AI網(wǎng)站上有測試模型的全部產物,8x10一共80個,大伙可以自己直觀感受每個模型的差距。
Seed 2.1 Pro的問題主要出在,很難一次性生成好的結果,工程能力不太穩(wěn)定。
這導致了Seed的模型調用數(shù)比較高,跑完測試任務的調用數(shù)為449次,遠高于GLM 5.2(321)、Qwen 3.7 Max(218),和Step 3.7 Flash(443)一個水平,僅次于全場調用數(shù)最高的MiniMax M3(653)。
體現(xiàn)在生成結果上,Seed 2.1 Pro的產出物很不穩(wěn)定。
Seed的高分很高,產出了3個高分,但低分更低,波動顯著,拉低了總得分。比如下圖就是一個高分產物,知識圖譜清晰可交互。
![]()
https://funeralai.cc/test/r4/doubao-seed-2-1-pro-260628
主要扣分點是,Seed生成不明白知識圖譜,這種相對復雜的前端任務,Seed在10次里失敗了6次。比如下圖就是一個典型的低分產物,知識圖譜是空的。
![]()
https://funeralai.cc/test/r10/doubao-seed-2-1-pro-260628
另一個大問題是,Seed 2.1 Pro的生成速度太慢了。
跑完測試任務耗時128.9分鐘,僅次于MiniMax M3(153.9分鐘),遠高于于全場最快的DeepSeek V4 Pro(46.7分鐘),和比較快的Qwen 3.7 Max(53.3分鐘)、Step 3.7 Flash(57.4分鐘)、GLM 5.2(69.7分鐘)。
生成速度慢的原因,可能是Seed的長程任務執(zhí)行能力不太行。
這其實是符合豆包自己發(fā)布的榜單的。
![]()
經(jīng)過凱一的提醒,我發(fā)現(xiàn)原來字節(jié)自己跑的測試也反映了這個問題。這兩個 Bench 對長程任務 plan 能力的評估比較有代表性,豆包也沒藏著掖著,確實不夠SOTA。
坦誠清晰,符合字節(jié)價值觀
凱一對Seed 2.1 Pro評分的解釋是,「Seed 通用能力其實好一點,不是 Coding 專精,如果測深度調研,數(shù)據(jù)爬取,在瀏覽器里點點點,可能 Seed 就比 GLM 好,GLM 是 Coding 專精。」
不過,現(xiàn)在模型廠全都在卷編程,Seed這次更新也主打任務執(zhí)行和編程能力。還是讓我們回到這次編程測試上。
一共10輪測試任務,Seed 2.1 Pro干出來了8個無效進程,有效產物命中率等于55.6%。依舊遠高于GLM 5.2的3個無效,Kimi的2個無效和Step一個無效,其他模型沒有失敗進程。
調用次數(shù)高、任務失敗較多,導致了Seed 2.1 Pro的成本也較高,跑完測試任務一共花了41.3元,依舊僅次于Opus 4.8(202.5 元)和Kimi K2.7 Code(164.6 元),遠高于DS、Qwen、Minimax都在20元左右的成本,和GLM 5.2成本一致。
所以,在沒有任何折扣,直接從火山引擎官網(wǎng)調用的情況下,Seed 2.1 Pro做編程任務的性價比顯著不高。
為了直觀感受這些模型的完成任務速度、花費和調用數(shù),我也做了一個葬AI基準測試性價比榜。
讓大伙除了認識到最強模型之外,也能給予高性價比模型一點關心??
![]()
其中可以看出,階躍的Step 3.7 Flash模型特別讓我驚喜。它的能力得分比DeepSeek V4 Pro高,成本花費居然比DS還便宜,跑完測試任務只花了11.2元,連注冊賬號送的15塊錢都沒用完。
所以在加權了調用數(shù)、耗時這些維度后,Step 3.7 Flash是所有模型中的性價比第三名。
性價比榜還非常直觀地展示出了一條危險線,就是不僅存在DeepSeek斬殺線,也有Claude斬殺線。
性價比低于梁圣很正常,但性價比低于Claude就非常危險。而MiniMax M3、Kimi K2.7 Code 、Seed 2.1 Pro這三個模型的性價比指數(shù)都低于Opus 4.8了。
要努力啊,Kimi、MiniMax和Seed的家人們,一定要努力逃逸平庸的重力
我是相信Seed的,因為從未聽說過Seed蒸餾,國產之光靠你了。
![]()
最后聲明一下,葬AI基準測試依然沒有接受任何人的贊助。
這是相對客觀的編程能力的評測。兩個榜單和所有測試產物都可以在葬AI網(wǎng)站閱讀詳細版:
funeralai.cc/test
關于Seed模型,明天還有一篇騾子馬寫的主觀評測,看看Seed 2.1 Pro多模態(tài)、通用能力啥的到底行不行。力爭主客觀結合,幫助家人把每個模型整明白
(本文封面由ChatGPT生成,純人工寫作)
??
歡迎訂閱我們的Substack
funeralai.substack.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.