網易首頁 > 網易號 > 正文 申請入駐

深度|LMArena 最新戰報:字節 Seed 2.0 殺入第一梯隊,國產模型集體擠進全球 TOP 20

0
分享至

春節期間國產模型的集體上新,LMArena 榜單也隨之大換血。

最引人注目的莫過于字節的Seed 2.0。雖然是首次亮相,Seed 2.0 在公開競技場一舉奪得國內綜合排名榜首,更以全球第9的佳績強勢擠進世界前十。

緊隨其后的是數家在春節前后密集更新的國產旗艦:GLM-5、文心 5.0以及Qwen 3.5Kimi K2.5亦在伯仲之間。國產大模型第一梯隊正以前所未有的集群姿態,集體沖擊全球最高水平。


從細分項看,幾家國產新旗艦的能力結構并不相同。

字節的 Dola-Seed-2.0-preview 是目前表現最強勢的國產模型,綜合排名位列全球第 9。該模型在 Coding 上尤為出色,排名全球第 7,在 Hard Prompts(高難度指令) 方面也位居第 8。這表明字節的 Seed 系列在處理復雜邏輯和生產力工具場景下,已經具備了與 Google Gemini 和 OpenAI GPT 系列正面硬剛的實力。

月之暗面的 Kimi-K2.5-thinking 雖然綜合排名在第 19,但在特定的推理領域表現驚人。它在 Math 維度高居全球第 8,在 Expert 維度排名第 10。這說明 Kimi 的強化學習和思考機制在解決極高難度的理科問題和復雜知識理解上,甚至超過了許多排名更靠前的通用型模型。

GLM-5(智譜AI)、Ernie-5.0-0110(百度文心) 以及 Qwen3.5-397b(阿里千問) 緊隨其后,分別占據了第 16、17、18 名。這些模型在 Math 和 Coding 等硬核指標上普遍優于其綜合排名(如文心一言數學第14,通義千問編程第20),反映出國產模型在數理邏輯和技術落地上的深耕。

雖然國產模型在 Top 20 中占據了近四分之一的席位,但與最頂尖的Claude-opus-4-6Gemini-3.1-proOverallCreative Writing 方面仍有一定身位差。目前國產模型主要在硬實力(數學、編程、專家知識)上尋求突破,而在指令遵循的細膩程度和長文本任務的穩定性上,仍是未來追趕的主要目標。

與此同時,在垂直賽道的細分戰場上,國產模型的表現進一步印證了“全賽道滲透、多點開花”的趨勢。

在最考驗邏輯硬功夫的代碼賽道,智譜AI的GLM-5表現搶眼,以 1452 的評分成功躋身全球前八不僅穩住了國產第一的梯隊,更成為唯一殺入該項前十的國產力量。有趣的是,這種單項冠軍的特質在不同維度的測試中呈現出了奇妙的反差。雖然 GLM-5 在垂直的專業代碼榜單中高居全球第 8,但在覆蓋全語言、全場景的綜合編程能力測試中,其排名卻更低一些。


多模態領域則是字節跳動Seed系列的強勢領域。在圖像編輯(Image Edit)榜單中,Seedream 4.5Seedream 5.0-lite分別占據了第七和第十的位置,騰訊的Hunyuan-image-3.0亦表現不俗,位列第八。這種組團入榜說明國產模型在圖像精準控制和二次創作上已經具備了與頂級巨頭掰手腕的實力。


而在視覺理解(Vision)維度,Seed 2.0-preview穩居第六,此前在綜合排名中稍顯靠后的Kimi K2.5-thinking也憑借其深度的邏輯推演能力,在視覺分析賽道成功卡位全球第十。


最能體現未來技術爆發力的視頻生成領域,國產陣營展現出了極強的韌性。在文本生成視頻(Text-to-Video)中,Wan2.6成功突圍至第八名,直接向 Sora 和 Veo 等頂級模型發起了挑戰。而在難度更高的圖像生成視頻(Image-to-Video)賽道,生數科技的Vidu-q3-proWan 2.5聯手包攬了第七和第八名。國產視頻模型已經跨越了能看的門檻,正在動作一致性、時空連續性等核心指標上,加速縮短與全球第一梯隊的距離。


然而,搜索(Search)賽道依然是國產模型亟待攻克的堡壘。在目前的全球前十排名中,國產模型尚無一上榜,該領域仍由 Grok、GPT 和 Gemini 深度把持。在 RAG 與大模型深度融合的精準度上,國產陣營仍需更高效的工程化落地。


組織效率的一次公開驗證

榜單呈現的是結果。但結果背后真正昂貴的,是在競爭周期被壓縮到周級時,仍能穩定交付新版本的能力。

2025 年初吳永輝接管 Seed 部門后,主導打破了模型部門間的數據壁壘。他組建了三層架構:Edge團隊負責長周期的 AGI 課題,Focus 團隊負責核心技術攻堅,Base 團隊則確保當前一代模型的穩定交付。

上任一年,字節目前的工程化能力已經比國內任何一家公司都要強。吳永輝交出的這份萬億參數 Seed 2.0 的成績單,已經是相當了不起的成績。

更大的意義在于它裝進了豆包,這個日活過億的國民級 AI 產品。這會形成一個典型的字節式閉環,一條更具體的反饋鏈路:

豆包接入更強的模型 → 用戶在更復雜任務上的完成率上升(尤其是長鏈路、多模態、工具調用)→ 產品可承接的場景擴大(辦公、學習、創作、搜索替代、拍照理解等)→ 更密集、更高質量的交互數據回流(不僅是問答,還有任務步驟、失敗模式、偏好選擇)→ 反哺偏好對齊與產品化能力 → 下一輪迭代更貼近真實場景。

榜單是結果,組織是原因,產品是兌現。豆包到底能不能殺死比賽,讓我們拭目以待。

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

草莓解說體育
2026-05-09 05:34:27
外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

環球網資訊
2026-05-08 15:50:22
斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

劉姚堯的文字城堡
2026-05-08 09:00:42
網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

東方不敗然多多
2026-05-08 16:46:11
47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

可樂談情感
2026-05-08 14:09:54
發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

共工之錨
2026-05-07 23:58:12
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

王姐懶人家常菜
2026-05-08 03:48:09
這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

夢史
2026-05-09 00:53:33
現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

懂球帝
2026-05-08 11:07:06
機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

碧翰烽
2026-05-08 07:33:09
不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

細說職場
2026-04-26 21:04:20
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網
2026-04-16 19:42:33
亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

影視情報室
2026-05-08 00:14:58
34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

豬小艷吖
2026-05-07 11:21:34
4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

通鑒史智
2026-03-15 11:45:00
世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

體壇最前線66
2026-05-09 05:39:01
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

阿腩講娛樂
2026-05-09 06:10:06
2026-05-09 08:40:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
177文章數 16關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

白宮:特朗普計劃5月14日至15日訪問中國

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

數碼
時尚
手機
本地
公開課

數碼要聞

極摩客推出NucBox M3 Pro迷你主機:13500H,DDR4,2280+2242

盧昱曉真的要被審判到這種程度嗎?

手機要聞

OPPO K15系列手機規格曝光:6.78英寸直屏、8000mAh電池

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版