![]()
榜單分數高,卻看不出誰更好用。
AIX財經(AIXcaijing)原創
作者 | 雷晶
編輯 | 金玙璠
大模型行業有一條潛規則:發布會可以遲到,但榜單戰報絕不能缺席。一張漂亮的成績單,已經成了新模型的標配。但這張成績單,到底有多少含金量?
去年4月,Meta發布Llama 4 Maverick模型,在LMArena(原Chatbot Arena)盲測榜單上以1417分的ELO沖到第二名,僅次于Gemini 2.5 Pro。但很快,學術圈一篇題為The Leaderboard Illusion的論文揭開了內幕:Meta在發布前私下測試了至少27個模型變體,只公布了表現最好的那個。真正交到開發者手里的開源版本,排名從第2跌到了第32。更諷刺的是,Meta提交的“Llama-4-Maverick-03-26-Experimental”本身就是一個為對話風格專門優化的實驗版本,回答冗長、堆砌表情符號,當LMArena開啟“風格控制”過濾后,它直接從第2名跌到了第5名。
這并非孤例。類似的“登頂”“屠榜”消息,幾乎每隔幾周就刷一輪。今年5月,阿里通義千問Qwen 3.7-Max沖上全球編程盲測榜單Code Arena第二,在國產模型中排名最靠前;6月,階躍星辰Step 3.7 Flash模型登上Artificial Analysis榜單輸出速度第一,達到409 tokens/s,其他速度相關指標也排在前列。模型發布必配榜單戰報,已經是固定動作。
榜單本應是用戶挑選模型最直接的參考,但問題是,榜單排名的可信度正在受到質疑。
一個模型的推出,往往伴隨著“榜單前幾”“能力接近海外頭部模型水平”這類話術來背書,用戶的實際感受卻是:各家模型的分數越來越高,“誰更好用”這個問題反而越來越模糊。
模型榜單還有參考價值嗎?一個模型好不好用,到底該怎么判斷?
01.一張榜單是如何誕生的?
我們先來看看模型的排名是怎么來的。
排名來自“考試”。業內把評估模型性能的測試稱為基準測試(Benchmark),這是一套標準化的考題,由學術機構、廠商甚至個人設計,用固定的題目和評分標準來檢驗模型在特定任務上的表現。模型做完測試、拿到分數,再按分數高低排出位次,就是廣義上的榜單。
目前的基準測試大致可分為兩種:
一種是離線測試,有一套固定題庫,模型作答,系統按標準答案打分。MMLU、GPQA、HumanEval等,走的都是這條路線。這種方式最大的優勢是可量化、可橫向比較。但題庫會公開,這也意味著廠商可以提前“背題”。
另一種是在線測試,通常被稱為Arena(競技場)。沒有固定題目,也沒有標準答案。用戶提交一個問題,系統將它同時發給兩個匿名模型,用戶對比回答后投票選出更好的那個,平臺再將投票結果轉化為動態排名。
LMArena就是這個賽道上的主流玩家,由加州大學伯克利分校等機構發起的LMSYS組織創建,多個廠商直接引用其排名作為模型能力的背書。它最大的優勢是貼近真實使用感受,但局限也很明顯:用戶評判帶有主觀偏好,曾有研究顯示,用戶會傾向于選擇篇幅更長、“看上去更專業”的回答。
某美企AI出海負責人曾小健提到,在中文語境中,榜單和基準測試經常被混為一談,很多業內人士也不刻意區分。日常交流中這樣說問題不大,但嚴格來說,兩者是有差異的:基準測試指的是一套評測任務,回答的是“怎么測”的問題;而榜單是基于測試結果生成的排名,解決的是“怎么排”的問題,且有些榜單還會實時或近實時更新,并引入用戶投票、模型對戰等機制。
簡單總結,離線測試像高考,有標準答案;在線測試像選秀,靠觀眾投票。在本文中我們不嚴格區分這兩個概念,但理解“固定考試”和“實時擂臺”這兩種機制的差異,有助于看懂排名的意義。
搞清楚怎么考,還得知道誰是出題方。當前的離線基準測試按來源大致分為三類:
一類是學術型,題庫由高校或研究機構設計,如MMLU、GSM8K等,專業性更強,但更新較慢,部分已趨于飽和。
第二類是廠商型,題庫由模型公司自行發布,如OpenAI的HumanEval(代碼能力測試),更貼近實際應用場景,但出題方本身也是參賽者,客觀性存疑。
第三類是第三方獨立型,由獨立機構出題運營,也由它們通過整合多個維度的評測數據、按權重生成綜合評分,如SuperCLUE、LiveBench等。這類測試立場相對中立,但權重設置、評分規則仍由平臺自行把控,透明度有限。
知道了怎么考、誰出問題了,還要知道這些榜單考察的是什么能力。
離線答題側重學科知識與基礎推理,競技場盲測側重對話體驗與人類偏好。為了方便理解,我們將主流榜單按類型和考察能力做了梳理。
![]()
可以看出,想知道模型編碼能力強不強可以看LiveCodeBench、SWE-bench verifed等;想了解推理能力強不強可以看HLE、MMMU等;想看看智能體能力則可以看看GAIA、TerminalBench 2.0等榜單。這些也是目前國內大模型廠商發布模型時最常引用的榜單。
也就是說,選模型的時候,可以先根據自己關心的能力“對號入座”。
02.模型榜單也會失真
大模型榜單,本是用戶挑選模型最直接的參考,但越來越多人發現,高分選手用起來不一定如預期。
第一個問題是分數通脹隨著模型能力快速迭代,主流基準測試的“試卷”難度已跟不上模型進化速度,在部分測試中,頭部模型的成績集體趨近滿分,這樣就很難看出真實差距。
北京理工大學博士生李巖舉例,典型的數學應用問題基準GSM8K,兩三年前還是衡量模型推理能力的重要標準,現在幾乎所有主流模型都能拿到高分,它也就失去了篩選的作用。另一個典型是MMLU,頂級模型的準確率早已突破90%,趨于飽和。
第二個問題是刷榜成行業潛規則。目前主流榜單如MMLU、C-Eval等,測試題目與標準答案大多公開,廠商可以獲取到公開的考卷并進行針對性訓練。
![]()
圖源 / pexels
李巖提到,行業內的刷榜主要分兩種:一是用原題或高相似度的改編題訓練,要么對標測試原題,要么簡單修改數據參數,模型相當于“背題考試”;二是考點拆解專項訓練,不使用原題,而是拆解試題核心知識點,合成同類數據訓練,類似“刷模擬卷”。
第三個問題是考題與真實使用場景脫節。當前榜單多為標準化試題,側重知識記憶與標準答案匹配,但用戶的真實需求遠比考題復雜。大模型從業者陳楚提到,模型訓練時都會以榜單高分為目標,但高分不意味著會做事。在實際業務中,問題不一定有唯一的標準答案,場景也更多元,一個模型是否好用很難單一通過“考試成績”評判。
曾小健打了個比方,榜單相當于溫度計,刷榜相當于在溫度計旁邊擺了一個火爐,測的實際是火爐的溫度,但用戶感受到的是整個房間的體感溫度,顯然不會那么高。榜單測的是一個點,用戶感受的是整個場景,自然差異落差。
這三個問題疊加在一起,就解釋了為什么榜單上的“優等生”,到了真實環境里可能“水土不服”。
再加上,榜單的公信力也曾有過爭議。國內第三方評測機構SuperCLUE在2023年5月發布的評測榜單中,將科大訊飛的星火大模型排在第四位,僅次于Anthropic和OpenAI的兩個版本的模型。后被網友發現,它的官網顯示的顧問排名第一位的是哈工大訊飛聯合實驗室的研究員,榜單成績客觀性存疑。
所以看榜之前,需要會判斷一張榜單是否可信。重點來看兩個方面:一是出身,測試套件是否公開透明、是否由模型廠商或盈利機構自行把控。曾小健提到,市面上存在不少“野榜”,有些評測機構本身帶有商業化屬性,靠出榜單、寫軟文變現,評測方法不透明,樣本和流程也不公開,聲稱某些模型表現更好,卻拿不出令人信服的依據。
二是題庫的新鮮度,如果主流模型分數普遍趨近滿分,說明這份試卷已經飽和,區分度有限。李巖認為,隨著舊數據集逐漸失效,學術界也在不斷推出更高難度的測評集,榜單自身的迭代同樣在倒逼模型突破能力瓶頸。
03.什么才是好用的模型?
隨著大模型走向商業落地,榜單排名牽動的利益鏈條只會更長,圍繞榜單的爭議也不會停止,那就不僅要會“看”榜單,還要能理解榜單呈現的信息。
當前主流基準測試已細分出數學推理、代碼生成、知識問答、長文本理解等多個維度,一個在代碼榜單上領先的模型,未必擅長寫營銷文案;一個知識問答表現優異的模型,處理長文檔可能力不從心。
這里我們也根據主流榜單官網展示的數據,梳理了一些模型排名情況。需要提醒的是,榜單上的數據更新有延遲,且隨時可能有變,目前截取的是截至發稿的情況,供大家參考。
![]()
可以看出,Google的Gemini系列是目前覆蓋面最廣的“全能型選手”;OpenAI和Anthropic各有優勢,OpenAI的模型推理能力更強、而Anthropic則更擅長任務語言理解。
國內廠商則在特定賽道上占有一定優勢。其中,DeepSeek的V3.2 Speciale和智譜的GLM-4.7均躋身LiveCodeBench編碼能力榜前五;MiniMax的M3模型進入了GPQA Diamond推理榜;而在視頻和圖像生成領域,字節跳動的 Seedance 2.0、阿里巴巴的HappyHorse1.0、快手的Kling 3.0等國產模型已經成為主力玩家。
更明顯的一個趨勢是,沒有一個模型能夠贏下所有榜單。如果關注各家廠商的技術報告或發布會,會發現一個規律:模型在哪個方向有突破,就重點展示對應的榜單成績,有些廠商還會在一個綜合榜單上單獨拎出自己領先的幾個子項,用局部優勢來佐證整體實力。
這也提醒我們,不要只看單一榜單的名次,尤其當兩款模型分數區間相近時,排名先后幾乎沒有實際參考價值。與此同時,場景不同,對“好模型”的定義也完全不同,所以要先明確自己的需求,再去找對應領域的榜單,而不是盯著一張綜合排行看總分。
所以,看榜單的核心原則就是:多個來源、多個維度、動態觀察。選幾個不同出處、不同題庫的榜單交叉驗證,如果結論一致,才更可信。
除了看榜單,該如何怎么判斷一個模型好不好用?
陳楚認為,評估一個模型不能只看準確性,還要看它面對意外輸入會不會犯錯、在陌生任務上表現是否穩定、推理速度和資源消耗是否可接受。
他的做法是先看榜單進行初篩,再根據自己的使用需求定制相應的基準測試,把新舊模型放在真實環境里并行跑一段時間,看實際效果差異。
對于普通用戶來說,不需要這么復雜,但邏輯是類似的。李巖建議,可以挑幾個自己日常工作中反復出現的任務,如做PPT、寫周報、整理資料等,分別讓不同模型跑一遍,并把結果做橫向對比。此外,關注各種科技媒體的測評也是一個低成本的參考方式。
曾小健則認為普通用戶不需要過度研究榜單,按照個人習慣和實際體驗使用即可。但對專業從業者,他反復強調真實測試的重要性,在他看來,榜單只能提供有限參考,更多判斷要靠實際業務場景中的測試來驗證。
模型能不能干好活,還得上手試。先縮小候選范圍,再把模型放到自己的業務場景中跑任務,看它表現如何,這是當前業內的一種共識。
*題圖由AI生成。應受訪者要求,文中李巖、陳楚為化名。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.