无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

開源大模型榜單,10個主流Benchmark一次講清,附排名

0
分享至

開源大模型必會附上在不同 benchmark 上的刷分情況以及排名

SWE-bench、GPQA、HLE、Terminal-Bench……

很多同學看不明白,這些 benchmark 都具體考驗的模型的哪些能力

剛在 HF 上看到一個動態 race 圖展示最近一年開源大模型在不同 benchmark 上,不同大模型的排名

本文就逐個、詳細介紹一下


地址:huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真實代碼倉庫的「修 bug 終極考」


  • 出品方 :OpenAI × Princeton(Preparedness 團隊聯合普林斯頓)

  • 測什么 :AI Agent 在 真實開源項目 里端到端解決 GitHub Issue 的能力

  • 數據形式 :500 道經過人工篩查的任務,全部來自 12 個主流 Python 開源倉庫(Django、sympy、scikit-learn 等)

  • 怎么算對 :每道題自帶兩組單元測試—— FAIL_TO_PASS (修好后才該通過)+ PASS_TO_PASS (不能把別的功能改壞),全部通過才算解決

為啥叫 Verified?因為原版 SWE-bench 里有不少題目本身描述模糊、測試不靠譜,會冤枉模型。OpenAI 找了一批專業工程師把 2294 道題逐道篩選,留下 500 道描述清晰、測試合理、人類工程師能搞定的高質量題,作為業界公認的「干凈版」SWE-bench

簡單說就是:把 AI 當一個真實程序員丟進開源項目里,讓它自己讀 issue、自己改代碼、自己跑測試,看它能不能把 bug 真的修掉

? 這是衡量「AI 編程 Agent」能力最權威的指標之一

目前最強:DeepSeek-V4-Pro

我沒想到 DeepSeek-V4-Flash 居然也這么強,可以拍第三


SWE-bench Verified 二、SWE-bench Pro —— 工業級長鏈路代碼工程考核


  • 出品方 :Scale AI

  • 測什么 :在 更大、更臟、更長鏈路 的工程任務上,Agent 能不能扛得住

  • 數據形式 :1865 道人工驗證的任務,覆蓋 41 個倉庫,平均一個補丁要改 100+ 行代碼、跨多個文件

  • 核心創新 :抗污染設計,專門用 GPL 強 copyleft 協議倉庫 + 商業閉源倉庫,降低被訓練數據「背過」的可能

數據集分三塊:

  • Public Set(731 題,11 個開源倉庫,公開可評測)

  • Held-Out Set(858 題,12 個私有倉庫,防過擬合)

  • Commercial Set(276 題,18 個商業倉庫,僅放榜不放數據)

主指標叫 Resolve Rate——Agent 給出的補丁能否在 Docker 隔離環境里完整通過 build + test

為什么要搞 Pro 版?因為 SWE-bench Verified 任務相對短小,而真實工業代碼動不動就幾百行修改、跨多文件重構。SWE-bench Pro 就是沖著「長程任務(long-horizon)」去的,目前頂級模型 Pass@1 也就 25% 左右,區分度極強

目前最強:Kimi-K2.6


SWE-bench Pro 三、MMLU-Pro —— MMLU 的「加難版」,14 個學科混合推理


  • 出品方 :滑鐵盧大學 TIGER-Lab,NeurIPS 2024 收錄

  • 測什么 :跨學科知識 + 推理能力 (不再是單純背知識)

  • 數據形式 :12000+ 道題,覆蓋數學、物理、化學、生物、計算機、經濟、法律、心理、哲學等 14 個學科

  • 關鍵改造 :選項從 4 個擴到 10 個 ,蒙對概率從 25% 直降到 10%;同時剔除 MMLU 里的噪聲題、加入更多需要多步推理的難題

老牌的 MMLU 這兩年已經被打榜打到「飽和」,頂級模型動輒 88-90%,區分不出誰更強。MMLU-Pro 一上來就把所有模型分數砍掉 16-33%,重新拉開差距

更關鍵的變化:在 MMLU 上「直接答」往往比 CoT(思維鏈)還好;但在 MMLU-Pro 上,**帶 CoT 推理的提分能到 20%**,說明它真的在測推理而不是測記憶

? 簡單理解:MMLU-Pro 是給 LLM 準備的「研究生綜合考試」,知識面 + 推理力一起考

目前最強:Qwen3.5-397B-A17B

為何不是 Qwen3.6,因為它沒開源呢


MMLU-Pro 四、GPQA Diamond —— 博士級別的「Google-Proof」科學推理


  • 出品方 :NYU + Cohere + Anthropic 聯合研究團隊

  • 測什么博士級 生物、物理、化學的硬核推理能力

  • 數據形式 :從原版 GPQA 448 道題里抽出 最難的 198 道 作為 Diamond 子集,全是 PhD 出題、PhD 復核

  • 核心特性 :Google-Proof—— 專家聯網搜也搜不到答案 ,必須靠真理解

人類參考分數很有意思:

  • 學科內 PhD 專家:約 81% 準確率

  • 學科外的高水平非專家(聯網答題):約 22%(基本等于瞎蒙的 25%)

題目長這樣:核磁共振譜里某個化學位移的位置變化,對應的反應可能用了哪一族元素?4 選 1,但每個選項都精心設計成似是而非。這種題你想用搜索引擎走捷徑基本沒戲

GPQA Diamond 已經是開源/閉源大模型評測的「博士理科卷」標配,你看到的多數模型 GPQA 分數指的就是 Diamond 子集

目前最強:Kimi-K2.6


GPQA Diamond 五、HLE(Humanity's Last Exam)—— 人類的「最后一卷」


  • 出品方 :Center for AI Safety(CAIS)× Scale AI,2026 年 1 月 Nature 正刊發表

  • 測什么人類知識前沿 的封閉式考試,定位是「最后一份這種類型的學術 benchmark」

  • 數據形式 :2500 道公開題(另有私有集防過擬合),覆蓋數學、理工、人文、醫學、計算機等 100+ 學科;約 24% 是多選,其余是短答精確匹配;約 14% 題目帶圖(多模態)

參與出題的有近 1000 位貢獻者,來自 50+ 國家、500+ 機構,絕大多數是科研一線的教授/博士

為啥叫「最后一卷」?因為 MMLU、GPQA 這種已經被頂級模型打到 90%+,區分度走到盡頭。HLE 把難度往人類專家天花板推:

  • 人類領域專家:約 90%

  • 主流前沿模型(2026 年初):40-50% 上下

每道題答案都設計成可機器自動驗證(精確匹配或單選),同時還能評估模型的「自信度校準」(calibration)——答錯時它有沒有自知之明

? 這是目前公認最難的封閉式學術 benchmark

目前最強:Kimi-K2.6


HLE 六、AIME 2026 —— 高中奧數級數學推理


  • 出品方 :題目源自 MAA(美國數學協會)每年舉辦的 American Invitational Mathematics Examination

  • 測什么奧數級 多步符號推理、代數/幾何/數論/組合的硬核解題能力

  • 數據形式 :30 道題(AIME I 15 道 + AIME II 15 道,2026 年 2 月剛開考),每題答案是 0–999 的整數不給部分分

  • 評測方式 :Pass@1 精確匹配,閉卷做題,沒有任何工具/搜索輔助

為什么社區都在用 AIME 當數學 benchmark?

  1. 新鮮不污染 :每年題目當年 2 月才公開,對任何 2025 年前訓練完的模型都是「真盲考」

  2. 不可背答案 :30 道全是新題,沒有題庫可背

  3. 強逼 CoT :每道題平均 5-10 步推理,不寫思維鏈根本做不出

  4. 難度足夠 :高中競賽級,比 GSM8K、MATH 都更硬

人類頂級 AIME 選手中位數也就 4-6 題(約 30-40%),現在頂級 LLM 已經能做到 95%+,是 LLM 數學能力近兩年突飛猛進最直接的證據

目前最強:Step-3.5-Flash

這個模型我不太了解啊,不評價

這個榜單 DeepSeek-V4 沒參與


AIME 2026 七、HMMT Feb 2026 —— 哈佛-MIT 數學競賽 2 月賽


  • 出品方 :題目來自 Harvard-MIT Math Tournament(HMMT),評測平臺主要是 ETH Zurich SRI Lab 的 MathArena

  • 測什么 :和 AIME 同類,但 整體更難 ——介于 AIME 和奧賽之間

  • 數據形式 :2026 年 2 月賽的題目,覆蓋代數、幾何、數論、組合,部分是開放式答案

  • 核心價值反污染 ——MathArena 的設計原則就是用「賽后第一時間發布」的新題來測 LLM,確保模型沒在訓練集里見過

HMMT 是和 Putnam、AMC、AIME 齊名的頂級高中/大學預科數學競賽,難度比 AIME 高一檔。這也是為啥同樣一個模型在 AIME 上能 95+,在 HMMT 上往往就掉到 80-90

如果你看到一個開源模型只刷 AIME 不刷 HMMT,那就要警惕——很可能在 AIME 上有「專項訓練」,但在更難、更新的 HMMT 上原形畢露

目前最強:Kimi-K2.6


HMMT Feb 2026 八、olmOCR-bench —— 文檔 OCR 的「單元測試式」評測


  • 出品方 :Allen Institute for AI(AI2)

  • 測什么真實復雜文檔 的 OCR / 文檔理解能力(公式、表格、閱讀順序、掃描件、多欄排版……)

  • 數據形式 :1403 份真實/合成 PDF,附帶 7000+ 單元測試 (pass/fail 二元判定)

  • 創新點 :不再用「整頁字符串編輯距離」這種粗糙指標,而是把每道題做成 可機器驗證的「事實斷言」

具體來看,每個測試就是一條斷言,比如:

  • 「這段文字必須出現,且順序正確」

  • 「這個數學公式里 x 必須在分子位置」

  • 「表格 A1 單元格的值必須出現在 B1 之上」

  • 「頁眉/頁腳不該出現在正文里」

考點覆蓋六大典型場景:arXiv 論文里的公式、復雜嵌套表格、多欄布局、老舊掃描件、密集小字、頁眉頁腳的去除

? 這是目前評測「VLM/OCR 模型在真實文檔上能不能用」最嚴謹的開放 benchmark,國產 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分

目前最強:不不熟悉的模型

眼熟的就拍第三的 dots


olmOCR-bench 九、Terminal-Bench 2.0 —— Agent 在真實命令行里搞工程

  • 出品方 :Stanford × Laude Institute,Anthropic 等前沿實驗室深度參與

  • 測什么 :AI Agent 在 真實 Linux 終端 里完成端到端工程任務的能力

  • 數據形式 :80+ 道人工策劃任務(2.0 版本),每道題在獨立 Docker 容器里運行,自動化測試判定成敗

  • 覆蓋范圍 :軟件工程(構建/調試/部署)、系統管理(服務器配置/網絡)、安全(漏洞評估/加密)、科學計算(蛋白質組裝/數據流水線)、機器學習(模型訓練/推理部署)

任務設計三原則:Solvable(人類有參考解法)、Realistic(真實工作場景)、Well-specified(成功標準明確可自動判定)

舉幾個真實題目你感受下:

  • 編譯指定版本 Linux Kernel 并打補丁

  • 給內網服務配置自簽 TLS 證書

  • 調試一段并發 bug 的 Python async 代碼

  • 在顯存/精度約束下跑完一次 ML 訓練

評測框架叫 Harbor,統一管理 Agent 生命周期、命令交互、日志記錄。這是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系統」實戰考場,跟 SWE-bench 的「修代碼」是互補的,更偏「在系統里干活」

目前最強:GLM-5.1


Terminal-Bench 2.0 十、EvasionBench —— 檢測 LLM「答非所問、避而不答」


  • 出品方 :開源團隊(IIIIQIIII),論文掛在 arXiv 2601.09142

  • 測什么 :模型在面對 敏感/尖銳問題 時,是否在用「話術繞過」「答非所問」這種隱性 evasion

  • 數據來源 :2270 萬對 S&P Capital IQ 上市公司財報電話會議 Q&A,過濾后構建 84000 訓練集 + 1000 道金標測試集(專家標注)

它把 evasion 分成三檔:

| 等級 | 含義 | ||| | Direct | 完整、明確地正面回答了核心問題 | | Intermediate | 給出相鄰信息、打太極、拐彎抹角不正面回答 | | Fully Evasive | 直接忽略問題、拒答,或徹底跑題 |

標注方法用了 Multi-Model Consensus(MMC):多個強 LLM 投票打標,分歧大的題反而被當作「高價值難題」重點人工裁決,最終一致性 Cohen's κ = 0.835,相當扎實

配套還有一個 4B 參數的分類器 Eva-4B(基于 Qwen3-4B 微調),在金標集 Macro-F1 跑到 84.9%,反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 這些前沿模型都甩在后面——說明這件事「難在數據,不難在參數」

? 大模型評測從「答得對不對」走向「答得真不真」、「躲沒躲」,這是個有意思的方向

這個就不截圖了,N 多模型廠商不在此榜單公布分數了

One More Thing

回頭看這 10 個 benchmark,其實可以分成 5 個能力維度,方便你下次看榜單時心里有數:

| 能力維度 | 對應 Benchmark | ||-| | 代碼工程能力 | SWE-bench Verified、SWE-bench Pro | | 綜合知識 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 數學推理 | AIME 2026、HMMT Feb 2026 | | 多模態/文檔理解 | olmOCR-bench | | Agent 實戰 | Terminal-Bench 2.0 | | 誠實性/對齊 | EvasionBench |

下次再看到一張寫滿 benchmark 的開源模型海報,至少不會再被一堆縮寫繞暈了

幾個看榜單的小建議:

  • 別只看一個數 :每個 benchmark 測的是一個切面,編程強的不一定數學好,數學好的不一定 Agent 能力強

  • 警惕「專項過擬合」 :只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro,往往有貓膩

  • HLE 是新天花板 :MMLU/GPQA 已經卷到 90+,HLE 這種 40-50% 段位的 benchmark 才是接下來一兩年衡量「前沿能力」的真正標尺

  • Agent 類 benchmark 是下一個主戰場 :Terminal-Bench、SWE-bench Pro 這種長鏈路、真實環境的考核,比傳統 QA 更能反映「能不能真用」

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
約旦1-3!輸球不可怕,可怕的是賽后主帥的這番話,批評沖我來!

約旦1-3!輸球不可怕,可怕的是賽后主帥的這番話,批評沖我來!

田先生籃球
2026-06-17 17:46:01
前線國門緊閉,后方門戶洞開?為何中國對印度移民大開方便之門?

前線國門緊閉,后方門戶洞開?為何中國對印度移民大開方便之門?

靜夜史君
2026-06-17 01:15:26
侃爺老婆比安卡又有“新衣服”了!緞面花苞連體衣和雙馬尾很減齡

侃爺老婆比安卡又有“新衣服”了!緞面花苞連體衣和雙馬尾很減齡

明星私服穿搭daily
2026-06-18 00:10:06
廣西一家3口中毒死亡,官方公布調查報告:妻子洗澡時緊閉門窗通風不暢,致一家3人一氧化碳中毒死亡,4人銷售運輸“黑氣”被采取強制措施

廣西一家3口中毒死亡,官方公布調查報告:妻子洗澡時緊閉門窗通風不暢,致一家3人一氧化碳中毒死亡,4人銷售運輸“黑氣”被采取強制措施

大風新聞
2026-06-17 15:46:49
世界排名升至第一!標槍女皇嚴子怡首次登頂,望開啟漫長王朝統治

世界排名升至第一!標槍女皇嚴子怡首次登頂,望開啟漫長王朝統治

楊華評論
2026-06-18 00:08:45
華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

IT之家
2026-06-17 16:30:31
世界杯最刺激1戰:第4VS第11!6球瘋狂對飚,難怪他們奪冠希望大

世界杯最刺激1戰:第4VS第11!6球瘋狂對飚,難怪他們奪冠希望大

侃球熊弟
2026-06-18 05:10:54
雷軍武漢吃面引全網熱評:是誰策劃這場滑稽的跟風模仿?

雷軍武漢吃面引全網熱評:是誰策劃這場滑稽的跟風模仿?

李晚書
2026-06-17 18:58:54
38歲梅西世界杯戴帽,哈蘭德驚嘆:他太瘋狂了!而“瘋狂的人”都有相同的秘密

38歲梅西世界杯戴帽,哈蘭德驚嘆:他太瘋狂了!而“瘋狂的人”都有相同的秘密

紅星新聞
2026-06-17 12:27:58
“男女就餐時與鄰桌未成年女生發生肢體沖突”,警方通報

“男女就餐時與鄰桌未成年女生發生肢體沖突”,警方通報

澎湃新聞
2026-06-17 23:11:07
又上岸一個,世界杯史上0分0進球的球隊只剩國足和印尼

又上岸一個,世界杯史上0分0進球的球隊只剩國足和印尼

懂球帝
2026-06-18 02:00:15
范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

大魚簡科
2026-06-17 17:05:10
恥辱!葡萄牙世界杯頭號罪人!全場隱身坑死全隊!

恥辱!葡萄牙世界杯頭號罪人!全場隱身坑死全隊!

奶蓋熊本熊
2026-06-18 05:05:34
一場1-1,讓烏茲別克漁翁得利!出線難度降低,葡萄牙拿頭名難了

一場1-1,讓烏茲別克漁翁得利!出線難度降低,葡萄牙拿頭名難了

侃球熊弟
2026-06-18 03:16:28
真實股權曝光,誰在真正掌控萬億比亞迪?第一大股東竟是透明墻

真實股權曝光,誰在真正掌控萬億比亞迪?第一大股東竟是透明墻

混沌錄
2026-06-17 23:03:54
5月消費慘不忍睹

5月消費慘不忍睹

Yuichi的宏觀金融筆記
2026-06-17 09:29:07
無法預判!庫班回應4年前失去布倫森:當初沒料到他能到這個高度

無法預判!庫班回應4年前失去布倫森:當初沒料到他能到這個高度

羅說NBA
2026-06-18 05:45:05
葡萄牙頭號臥底!恥辱表現拖后腿!52 年魚腩拿分全靠他送

葡萄牙頭號臥底!恥辱表現拖后腿!52 年魚腩拿分全靠他送

瀾歸序
2026-06-18 05:19:23
1-3!世界杯身價最低球隊首秀進球創歷史,全隊跪地磕頭慶祝

1-3!世界杯身價最低球隊首秀進球創歷史,全隊跪地磕頭慶祝

新殺豬的秀才
2026-06-17 14:10:50
教育部同意:新設立32所本科高校

教育部同意:新設立32所本科高校

上觀新聞
2026-06-17 18:57:42
2026-06-18 07:03:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

世界杯-英格蘭4-2克羅地亞 凱恩雙響貝林厄姆一條龍

頭條要聞

世界杯-英格蘭4-2克羅地亞 凱恩雙響貝林厄姆一條龍

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

教育
健康
親子
游戲
藝術

教育要聞

現在的小學生題目,都這么厲害嗎?

營養師:粽子怎么吃美味又健康?

親子要聞

你把我也嚇一跳,真的沒必要

終于又有好游戲玩啦!這10款獨立游戲新作創意拉滿,強推入庫!

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

無障礙瀏覽 進入關懷版