无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

葬AI基準測試更新:Seed 2.1 Pro急需擺脫平庸的重力

0
分享至


Claude斬殺線來了

豆包產品無敵,但Seed模型一直不溫不火,大伙對它的印象就兩個:

工資高,隔三差五就有千萬年包上億年包新聞,也不知道真假;多模態(tài),但編程能力不太行。

以至于你豆姐被戲稱為糖包,甚至成了一個形容詞。Gemini拉了,你們叫它北美大豆包。Grok更拉,你們居然說這是北美二豆包。

真是豈有此理!豈不聞君憂臣勞君辱臣死之理乎!豆姐衛(wèi)士何在?

所以我們有理由相信,Seed模型團隊有充足動力憋個大的,不求像Seedance那樣放大衛(wèi)星,至少要將文本模型趕上國內一線水平。

這次Seed 2.1 Pro發(fā)布,特別強調了編程和長任務執(zhí)行的能力,宣傳口號是終于能勝任Agent工作的模型,還號稱補上了Coding的拼圖。

事實果真如此嗎?

為了客觀體現(xiàn)Seed 2.1 Pro的編程水平,我用它重跑了一遍。讓我用最直白、不繞彎的方式,不賣關子,一次性給你模型能力榜單??


結果令人震驚。Seed 2.1 Pro的得分和MiniMax M3差不多,略低于Kimi K2.7 Code ,相比國模第一GLM 5.2更是有明顯差距。

這次增加測試了Seed 2.1 Pro和Step 3.7 Flash兩個新模型。

測試方法依然是,每個模型跑10輪,每輪獨立的Opencode會話,輸入同一個執(zhí)行方案,來重構美麗的葬AI網(wǎng)站(funeralai.cc)。由Codex來調度和打分,用加權平均分排序。

葬AI網(wǎng)站上有測試模型的全部產物,8x10一共80個,大伙可以自己直觀感受每個模型的差距。

Seed 2.1 Pro的問題主要出在,很難一次性生成好的結果,工程能力不太穩(wěn)定。

這導致了Seed的模型調用數(shù)比較高,跑完測試任務的調用數(shù)為449次,遠高于GLM 5.2(321)、Qwen 3.7 Max(218),和Step 3.7 Flash(443)一個水平,僅次于全場調用數(shù)最高的MiniMax M3(653)。

體現(xiàn)在生成結果上,Seed 2.1 Pro的產出物很不穩(wěn)定。

Seed的高分很高,產出了3個高分,但低分更低,波動顯著,拉低了總得分。比如下圖就是一個高分產物,知識圖譜清晰可交互。


https://funeralai.cc/test/r4/doubao-seed-2-1-pro-260628

主要扣分點是,Seed生成不明白知識圖譜,這種相對復雜的前端任務,Seed在10次里失敗了6次。比如下圖就是一個典型的低分產物,知識圖譜是空的。


https://funeralai.cc/test/r10/doubao-seed-2-1-pro-260628

另一個大問題是,Seed 2.1 Pro的生成速度太慢了。

跑完測試任務耗時128.9分鐘,僅次于MiniMax M3(153.9分鐘),遠高于于全場最快的DeepSeek V4 Pro(46.7分鐘),和比較快的Qwen 3.7 Max(53.3分鐘)、Step 3.7 Flash(57.4分鐘)、GLM 5.2(69.7分鐘)。

生成速度慢的原因,可能是Seed的長程任務執(zhí)行能力不太行。

這其實是符合豆包自己發(fā)布的榜單的。


經(jīng)過凱一的提醒,我發(fā)現(xiàn)原來字節(jié)自己跑的測試也反映了這個問題。這兩個 Bench 對長程任務 plan 能力的評估比較有代表性,豆包也沒藏著掖著,確實不夠SOTA。

坦誠清晰,符合字節(jié)價值觀

凱一對Seed 2.1 Pro評分的解釋是,「Seed 通用能力其實好一點,不是 Coding 專精,如果測深度調研,數(shù)據(jù)爬取,在瀏覽器里點點點,可能 Seed 就比 GLM 好,GLM 是 Coding 專精。」

不過,現(xiàn)在模型廠全都在卷編程,Seed這次更新也主打任務執(zhí)行和編程能力。還是讓我們回到這次編程測試上。

一共10輪測試任務,Seed 2.1 Pro干出來了8個無效進程,有效產物命中率等于55.6%。依舊遠高于GLM 5.2的3個無效,Kimi的2個無效和Step一個無效,其他模型沒有失敗進程。

調用次數(shù)高、任務失敗較多,導致了Seed 2.1 Pro的成本也較高,跑完測試任務一共花了41.3元,依舊僅次于Opus 4.8(202.5 元)和Kimi K2.7 Code(164.6 元),遠高于DS、Qwen、Minimax都在20元左右的成本,和GLM 5.2成本一致。

所以,在沒有任何折扣,直接從火山引擎官網(wǎng)調用的情況下,Seed 2.1 Pro做編程任務的性價比顯著不高。

為了直觀感受這些模型的完成任務速度、花費和調用數(shù),我也做了一個葬AI基準測試性價比榜。

讓大伙除了認識到最強模型之外,也能給予高性價比模型一點關心??


其中可以看出,階躍的Step 3.7 Flash模型特別讓我驚喜。它的能力得分比DeepSeek V4 Pro高,成本花費居然比DS還便宜,跑完測試任務只花了11.2元,連注冊賬號送的15塊錢都沒用完。

所以在加權了調用數(shù)、耗時這些維度后,Step 3.7 Flash是所有模型中的性價比第三名。

性價比榜還非常直觀地展示出了一條危險線,就是不僅存在DeepSeek斬殺線,也有Claude斬殺線。

性價比低于梁圣很正常,但性價比低于Claude就非常危險。而MiniMax M3、Kimi K2.7 Code 、Seed 2.1 Pro這三個模型的性價比指數(shù)都低于Opus 4.8了。

要努力啊,Kimi、MiniMax和Seed的家人們,一定要努力逃逸平庸的重力

我是相信Seed的,因為從未聽說過Seed蒸餾,國產之光靠你了。


最后聲明一下,葬AI基準測試依然沒有接受任何人的贊助。

這是相對客觀的編程能力的評測。兩個榜單和所有測試產物都可以在葬AI網(wǎng)站閱讀詳細版:

funeralai.cc/test

關于Seed模型,明天還有一篇騾子馬寫的主觀評測,看看Seed 2.1 Pro多模態(tài)、通用能力啥的到底行不行。力爭主客觀結合,幫助家人把每個模型整明白

(本文封面由ChatGPT生成,純人工寫作)

??

歡迎訂閱我們的Substack

funeralai.substack.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
恭喜高市早苗,上任不到一年,就讓日本成為全球餐桌上的“肥羊”

恭喜高市早苗,上任不到一年,就讓日本成為全球餐桌上的“肥羊”

健身狂人
2026-07-02 15:36:59
葡萄牙2-1晉級16強,C羅當選全場MVP惹爭議,球迷:有點離譜了

葡萄牙2-1晉級16強,C羅當選全場MVP惹爭議,球迷:有點離譜了

側身凌空斬
2026-07-03 09:36:05
氣質出眾,巴薩女足傳奇普特利亞斯現(xiàn)場觀戰(zhàn)西班牙隊比賽

氣質出眾,巴薩女足傳奇普特利亞斯現(xiàn)場觀戰(zhàn)西班牙隊比賽

懂球帝
2026-07-03 04:14:23
喬治告別費城:感謝能穿上這件球衣,我會帶著回憶開啟新篇章

喬治告別費城:感謝能穿上這件球衣,我會帶著回憶開啟新篇章

懂球帝
2026-07-03 09:46:14
世界杯:澳大利亞vs埃及

世界杯:澳大利亞vs埃及

足球賽事交流解析
2026-07-03 09:00:05
別被降價蒙蔽雙眼!理想、蔚來、小鵬集體換二線電池,真相扎心了

別被降價蒙蔽雙眼!理想、蔚來、小鵬集體換二線電池,真相扎心了

趣味萌寵的日常
2026-07-02 14:21:33
貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責

職場資深秘書
2026-07-02 19:16:37
塞內加爾出局后內幕被扒:足協(xié)高層夜夜笙歌,主教練被欠薪5個月

塞內加爾出局后內幕被扒:足協(xié)高層夜夜笙歌,主教練被欠薪5個月

全景體育V
2026-07-03 08:24:53
2000萬人將參加哈梅內伊葬禮,全世界捏著一把汗:以色列或突襲?

2000萬人將參加哈梅內伊葬禮,全世界捏著一把汗:以色列或突襲?

兵國大事
2026-07-02 17:32:17
克羅地亞絕殺無效!世界杯殘酷1幕:C羅點射,葡萄牙2-1殺進16強

克羅地亞絕殺無效!世界杯殘酷1幕:C羅點射,葡萄牙2-1殺進16強

足球評論大家談
2026-07-03 09:10:00
博主曝上海400元自助,海膽暢吃變限量,店長多次冷笑,網(wǎng)友炸鍋

博主曝上海400元自助,海膽暢吃變限量,店長多次冷笑,網(wǎng)友炸鍋

另子維愛讀史
2026-07-02 20:46:17
他若不死,國民黨不會敗退臺灣!蔣介石痛悔親手殺了這個人

他若不死,國民黨不會敗退臺灣!蔣介石痛悔親手殺了這個人

歷史人文2
2026-07-02 20:30:03
有沒有手撕綠茶的超爽經(jīng)歷?網(wǎng)友:我必須給她上一課

有沒有手撕綠茶的超爽經(jīng)歷?網(wǎng)友:我必須給她上一課

另子維愛讀史
2026-07-02 21:02:00
Papi醬把公司全關了,只留七個人

Papi醬把公司全關了,只留七個人

盧松松
2026-06-30 15:54:25
老友對決!C羅“魔笛”緊緊相擁

老友對決!C羅“魔笛”緊緊相擁

大象新聞
2026-07-03 08:26:03
韓紅基金會發(fā)聲明回應購置電腦、相機等設備、工作人員薪酬等八項質疑

韓紅基金會發(fā)聲明回應購置電腦、相機等設備、工作人員薪酬等八項質疑

界面新聞
2026-07-02 22:42:49
至少4次攻擊太空通訊中心!俄版“星鏈”將取得突破,全力阻止?

至少4次攻擊太空通訊中心!俄版“星鏈”將取得突破,全力阻止?

鷹眼Defence
2026-07-02 17:05:49
泰山2500萬刺網(wǎng)拆除后,公眾仍在追問:這筆公共賬,最后誰買單

泰山2500萬刺網(wǎng)拆除后,公眾仍在追問:這筆公共賬,最后誰買單

川渝視覺
2026-07-02 09:04:15
運-30試飛來了:被斷供逼出來的“中國心”,比原裝進口還猛!

運-30試飛來了:被斷供逼出來的“中國心”,比原裝進口還猛!

觀察者小海風
2026-07-03 07:27:31
汽油連跌均降超500元/噸后,7月3日調價,95汽油或跌破7.8元/升!

汽油連跌均降超500元/噸后,7月3日調價,95汽油或跌破7.8元/升!

豬友巴巴
2026-07-02 18:30:03
2026-07-03 10:52:49
葬AI
葬AI
整點真實
113文章數(shù) 24關注度
往期回顧 全部

科技要聞

特斯拉交付超預期7.4萬輛,股價卻大跌7.5%

頭條要聞

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

頭條要聞

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

黃曉明深夜約會美女,分手原因曝光

財經(jīng)要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態(tài)度原創(chuàng)

藝術
房產
家居
健康
手機

藝術要聞

世界上最驚險的10個地方,中國竟然有3個!

房產要聞

獨家猛料!融創(chuàng)海南大變天,項目重啟,大量招人!

家居要聞

傳奇筑 日常詩

這4類消化病患者 吃粘食管住嘴

手機要聞

iPhone 18 Pro系列混用閃存 大存儲版本降配

無障礙瀏覽 進入關懷版