无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你的電腦能不能跑大模型?這個本地測評神器,直接給答案

0
分享至


之前寫本地部署相關(guān)的文章

留言區(qū)經(jīng)常有人問我一個問題:老章,我這個設備能不能跑某某模型

這個問題看起來簡單,真回答起來很麻煩

同一個模型,換顯卡、換量化、換推理框架、換 prompt 模板,速度和效果都可能不一樣

所以今天聊一個特別對癥的工具:BenchLoop

它的目標很明確:把本地大模型評測這件事,做成可以復現(xiàn)、可以留檔、可以發(fā)榜的工具

簡單說,你也可以擁有一個跑在自己機器上的 Leaderboard

BenchLoop 簡介

BenchLoop 是一個本地優(yōu)先的 CLI + Web App,用來評測跑在自己硬件上的 LLM

官方給它的定位是:Benchmark local LLMs by what actually matters

這句話很準

很多托管榜單回答的是「哪個模型在別人家的服務器上跑得最好」

BenchLoop 更關(guān)心的是:

模型 + 推理服務 + prompting harness + 我的硬件,這個組合今天到底能不能用

這才是本地部署玩家真正要的答案


BenchLoop 跑分截圖

它的核心特點我總結(jié)成 4 個:

  • 本地優(yōu)先 :無需賬號、無需 API key,模型跑在你自己的機器上

  • 可復現(xiàn) :任務集凍結(jié),scorer 確定性,每次跑完都有記錄

  • 指標完整 :輸出、延遲、token 數(shù)、機器信息、suite 得分都會落盤

  • 帶公開榜單 :完成后的 benchmark 默認會提交到 bench-loop.com/leaderboard

目前它覆蓋 7 套 suite:

  • speed :延遲、吞吐、TTFT、生成速度

  • toolcall :結(jié)構(gòu)化工具調(diào)用正確性,包含天氣、股票、郵件、搜索等任務

  • coding :Python 可執(zhí)行任務,放到沙盒子進程里驗證

  • dataextract :從混亂自然語言里抽取 JSON / 結(jié)構(gòu)化信息

  • instructfollow :約束跟隨、格式控制、精確輸出

  • reasonmath :小型推理和數(shù)學任務

  • agent :多輪 Agent 工具調(diào)用,模型發(fā)工具調(diào)用,BenchLoop 本地執(zhí)行,再把結(jié)果喂回模型

我比較喜歡 agent 這一項

很多模型聊天看著挺聰明,一到工具調(diào)用就開始放飛自我

BenchLoop 這里會看最終答案是否正確、調(diào)用是否高效、有沒有亂編工具、要求調(diào)用的工具有沒有都調(diào)用到

這比單純跑一個 tok/s 有用多了

看榜單

我看官方 leaderboard 的公開 API 時,已經(jīng)有 126 條提交

前排數(shù)據(jù)大概長這樣:

qwen3:8b / qwen harness
Overall 95.9,RTX PRO 6000 Blackwell,215.3 tok/s

qwen3.5:9b / raw harness
Overall 94.1,RTX PRO 6000 Blackwell,165.2 tok/s

google_gemma-4-26B-A4B-it-IQ4_XS.gguf / raw harness
Overall 86.1,RTX 4080,90.3 tok/s,F(xiàn)ull benchmark

Qwen3.6-35B-A3B-UD-Q2_K_XL.gguf / raw harness
Overall 85.7,RTX 4080,154.7 tok/s,F(xiàn)ull benchmark

qwen3.6:latest / raw harness
Overall 83.9,RTX PRO 6000 Blackwell,143.9 tok/s,F(xiàn)ull benchmark

這里有兩個細節(jié)很關(guān)鍵

第一,榜單會標注 FULLPARTIAL

只跑一部分 suite 的成績,和完整 benchmark 的成績混在一起看,容易誤判

第二,harness 也會影響成績

同一個模型走 rawhermesqwenpi,工具調(diào)用格式和思考標簽處理不一樣,最終分數(shù)可能明顯變化

這也是 BenchLoop 的價值:它把「模型怎么被調(diào)用」這件事擺上了臺面


安裝

推薦用 pipx 安裝

pipx install benchloop-cli
benchloop --version

也可以直接用 pip

pip install benchloop-cli

寫稿時 PyPI 最新版本是 0.2.3,需要 Python 3.10+

這里有個小坑:PyPI 包名叫 benchloop-cli

因為裸的 benchloop 包名已經(jīng)被一個無關(guān)的數(shù)據(jù)集庫占了

但安裝后的命令還是這兩個:

benchloop
bench-loop

如果想從源碼安裝:

git clone https://github.com/outsourc-e/bench-loop
cd bench-loop
pip install -e .
使用

先確保你本地有模型服務在跑

Ollama 最簡單:

ollama pull qwen3:8b
ollama serve

然后跑一遍默認 benchmark:

benchloop run \
--model qwen3:8b \
--endpoint http://localhost:11434 \
--provider ollama

它會跑默認 suite,輸出控制臺報告,并把完整結(jié)果保存到:

~/.bench-loop/runs/

如果只是想快速試試,可以跑子集:

benchloop run --model qwen3:8b --suites speed,agent

本地推理服務支持這些常見形態(tài):

  • Ollama: http://localhost:11434

  • LM Studio: http://localhost:1234

  • MLX / Osaurus: http://localhost:8000

  • vLLM、Jan、llama-server 等 OpenAI-compatible endpoint

新版本對一部分常見端口做了自動識別,比如 LM Studio 的 1234、Jan 的 1337

我個人還是建議把 --provider 寫清楚,排查問題時省心

LM Studio 這類 OpenAI 兼容服務可以這樣跑:

benchloop run \
--model qwen3:8b \
--endpoint http://localhost:1234 \
--provider openai_compat
Harness 很重要

BenchLoop 支持 4 種 prompting harness

benchloop run --model qwen3:8b --harness raw
benchloop run --model qwen3:8b --harness hermes
benchloop run --model qwen3:8b --harness qwen
benchloop run --model qwen3:8b --harness pi

大概可以這樣理解:

  • raw :原生工具調(diào)用

  • hermes {...} 格式

  • qwen {...} 格式

  • pi ... + Hermes 標簽

為什么這東西重要

因為很多本地模型的能力差異,出在調(diào)用格式、工具協(xié)議和模板適配上

同一個底座模型,換一種 harness,Agent 任務的通過率可能就變了

這也是我覺得 BenchLoop 比普通測速腳本更有意思的地方

評分邏輯

BenchLoop 的總分公式是:

Overall = 0.55 × quality + 0.20 × speed + 0.25 × reliability

幾個分項含義:

  • Quality :非 speed suite 的平均分

  • Speed :根據(jù) tok/s 用 12.54 × log2(tok/s) + 0.9 轉(zhuǎn)成 0-100 分

  • Reliability :所有任務的通過率

  • Agent :最終答案、效率、工具幻覺、必需工具覆蓋,各 25 分

這個權(quán)重我覺得挺合理

本地大模型不能只看快

一個模型 200 tok/s,但是工具調(diào)用經(jīng)常亂來,實際做 Agent 也很難放心

反過來,一個模型質(zhì)量很好,速度慢到等得心焦,也很難日常使用

BenchLoop 至少把這個權(quán)衡攤開了

本地 Dashboard

v0.2.0+ 開始,BenchLoop 把 FastAPI + React dashboard 打包進 wheel 里

安裝完之后直接運行:

benchloop dashboard

終端會提示本地訪問地址,README 里新命令提示常見是:

http://127.0.0.1:8877

dashboard 里有 Models、Benchmark、Leaderboard、Compare、Chat、agent trace viewer 這些頁面

對比不同模型、不同 harness、不同硬件時,比盯著控制臺舒服很多


BenchLoop 詳細頁面

如果想讓 dashboard 脫離當前終端,也能直接打印服務模板:

benchloop dashboard --service-template launchd
benchloop dashboard --service-template systemd
benchloop dashboard --service-template windows-task
自動發(fā)布要注意

BenchLoop 默認會把完成的 benchmark 發(fā)到公開 leaderboard

提交接口是:

https://api.bench-loop.com/submit

這點我覺得有利有弊

好處是社區(qū)榜單能不斷積累真實硬件數(shù)據(jù)

注意點是,公開數(shù)據(jù)里會帶模型名、provider、harness、機器信息、GPU、顯存、系統(tǒng)、endpoint 等元信息

如果你在公司內(nèi)網(wǎng)、客戶機器、私有模型上測試,建議先關(guān)掉自動提交:

export BENCHLOOP_NO_SUBMIT=1

也可以只導出本地快照:

benchloop export --output my-runs.json

通過隧道跑遠程機器時,還建議手動寫清楚硬件信息:

benchloop run \
--model qwen3:8b \
--endpoint http://localhost:11435 \
--hardware "NVIDIA RTX 4090 24GB" \
--gpu "NVIDIA RTX 4090" \
--gpu-memory-gb 24

否則榜單里可能顯示的是發(fā)起 benchmark 那臺機器的硬件信息,讀者看起來會有點迷糊

我怎么看

我挺喜歡 BenchLoop 的方向

它解決的是本地大模型圈一個長期痛點:大家都在曬跑分,但跑法經(jīng)常對不齊

有人只測速度,有人測首 token,有人測固定 prompt,有人測一堆主觀題

最后就變成一堆很熱鬧的數(shù)字,很難橫向比較

BenchLoop 至少給了一個統(tǒng)一框架:

  • 同一批任務

  • 同一套 scorer

  • 同一份機器信息

  • 同一套結(jié)果收據(jù)

  • 同一個公開榜單入口

我尤其建議這幾類人試試:

  • 本地部署玩家 :換模型、換量化、換推理框架時,跑一遍心里有數(shù)

  • 顯卡 / 工作站用戶 :4090、5090、Mac Studio、RTX PRO,別只看顯存,直接跑數(shù)據(jù)

  • 模型量化作者 :同一個模型不同量化包,速度和質(zhì)量可以一起展示

  • MaaS / 私有化團隊 :內(nèi)部選型時,比只看宣傳頁靠譜

  • Agent 開發(fā)者 :重點看 toolcallagent ,這兩個更接近真實工作流

當然,它現(xiàn)在仍然是 beta 階段

README 里也寫了幾個路線圖:OpenAI-compatible provider 的 streaming TTFT 還在完善,任務 fixtures 目前偏小,后續(xù) provider adapter 也會繼續(xù)擴展

所以我的建議是:把它當成本地選型和橫向?qū)Ρ裙ぞ撸浅:线m

如果要得出嚴肅結(jié)論,最好自己固定模型、固定硬件、固定 harness,多跑幾輪再看

總結(jié)

BenchLoop 這類工具會越來越重要

未來本地大模型的爭論,光說「這個模型能跑」「那個模型很快」已經(jīng)不夠了

更有價值的問題是:

  • 在我的硬件上快不快

  • 在我的推理框架里穩(wěn)不穩(wěn)

  • 工具調(diào)用靠不靠譜

  • 同一個模型換 harness 會不會崩

  • 這個量化包到底有沒有損失能力

BenchLoop 剛好把這些問題放到一個可以復現(xiàn)的框架里

本地部署大模型的兄弟,值得裝一個

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注,給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看,若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

IT之家
2026-06-17 16:30:31
15元買數(shù)百萬Token,但一句“你好”燒掉5萬!運營商的“低價”算力套餐,開發(fā)者為何直呼“用不起”

15元買數(shù)百萬Token,但一句“你好”燒掉5萬!運營商的“低價”算力套餐,開發(fā)者為何直呼“用不起”

每日經(jīng)濟新聞
2026-06-17 18:38:38
蘇醒:今天是我看梅西踢球20年來最生氣的一天 他不干自己該干的事

蘇醒:今天是我看梅西踢球20年來最生氣的一天 他不干自己該干的事

風過鄉(xiāng)
2026-06-17 20:49:38
梅西帽子戲法不到24小時,惡心的一幕發(fā)生了,口碑兩極分化嚴重

梅西帽子戲法不到24小時,惡心的一幕發(fā)生了,口碑兩極分化嚴重

往史過眼云煙
2026-06-17 16:54:13
人奶背后的“吃人”邏輯

人奶背后的“吃人”邏輯

布衣亂彈
2026-06-17 18:31:01
雷軍武漢吃面引全網(wǎng)熱評:是誰策劃這場滑稽的跟風模仿?

雷軍武漢吃面引全網(wǎng)熱評:是誰策劃這場滑稽的跟風模仿?

李晚書
2026-06-17 18:58:54
最新消息:3000億美元伊朗重建基金已落實一半!到底誰出錢?特朗普:美國不出;萬斯:海灣國家出!伊朗380萬桶原油通過美軍封鎖線

最新消息:3000億美元伊朗重建基金已落實一半!到底誰出錢?特朗普:美國不出;萬斯:海灣國家出!伊朗380萬桶原油通過美軍封鎖線

每日經(jīng)濟新聞
2026-06-17 09:27:07
姆巴佩球衣和隊友不一樣?這是由于一條鮮為人知的國際足聯(lián)規(guī)則

姆巴佩球衣和隊友不一樣?這是由于一條鮮為人知的國際足聯(lián)規(guī)則

夜白侃球
2026-06-17 12:53:27
61帽!梅西封神:世界杯16球超越大羅 歷史第1 球迷起立膜拜

61帽!梅西封神:世界杯16球超越大羅 歷史第1 球迷起立膜拜

葉青足球世界
2026-06-17 10:49:25
5月消費慘不忍睹

5月消費慘不忍睹

Yuichi的宏觀金融筆記
2026-06-17 09:29:07
美媒靈魂發(fā)問:沒有中國參加的G7峰會,就像五星巴西缺席了世界杯

美媒靈魂發(fā)問:沒有中國參加的G7峰會,就像五星巴西缺席了世界杯

不掉線電波
2026-06-17 08:23:31
“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺銘,如今怎么樣了

“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺銘,如今怎么樣了

秋姐居
2026-06-17 19:28:51
高市早苗在G7峰會會場“轉(zhuǎn)椅子”畫面引爭議,日本網(wǎng)民:沒教養(yǎng),真丟人

高市早苗在G7峰會會場“轉(zhuǎn)椅子”畫面引爭議,日本網(wǎng)民:沒教養(yǎng),真丟人

環(huán)球網(wǎng)資訊
2026-06-17 09:58:22
國際足聯(lián)崩潰了:中國6000萬砍下世界杯版權(quán),印度直接打官司

國際足聯(lián)崩潰了:中國6000萬砍下世界杯版權(quán),印度直接打官司

蜉蝣說
2026-06-17 17:34:52
范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

大魚簡科
2026-06-17 17:05:10
今晚世界杯繼續(xù)開打,4場比分精準預測,有1場大概率爆冷

今晚世界杯繼續(xù)開打,4場比分精準預測,有1場大概率爆冷

生活新鮮市
2026-06-17 20:52:03
央媒罕見連發(fā)三問!4400萬輛電車免費用路,公平的天平何時能平?

央媒罕見連發(fā)三問!4400萬輛電車免費用路,公平的天平何時能平?

混沌錄
2026-06-16 19:23:06
金價一夜大變天!2026年6月17日,國內(nèi)各大金店品牌黃金、足金最新價格

金價一夜大變天!2026年6月17日,國內(nèi)各大金店品牌黃金、足金最新價格

花小貓的美食日常
2026-06-17 15:02:29
39歲梅西連進3球,登頂世界杯歷史射手王,賽前用中文發(fā)帖!41歲C羅明天登場!德國隊營地遭毒蛇入侵,隊員受驚:每走一步都要低頭看腳下

39歲梅西連進3球,登頂世界杯歷史射手王,賽前用中文發(fā)帖!41歲C羅明天登場!德國隊營地遭毒蛇入侵,隊員受驚:每走一步都要低頭看腳下

每日經(jīng)濟新聞
2026-06-17 11:57:19
100萬股東狂喜!之前六年沒漲停過,最近一個月漲停4次

100萬股東狂喜!之前六年沒漲停過,最近一個月漲停4次

新浪財經(jīng)
2026-06-17 18:51:33
2026-06-18 01:47:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數(shù) 11165關(guān)注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態(tài)保持沉默

財經(jīng)要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態(tài)度原創(chuàng)

藝術(shù)
旅游
房產(chǎn)
教育
軍事航空

藝術(shù)要聞

235米!曼谷地標“金字塔”動工,BIG操刀

旅游要聞

1800余場端午活動打造城市游樂園

房產(chǎn)要聞

最新房價:海口、三亞;新房、二手房全線下跌!

教育要聞

全國31省藝術(shù)類志愿填報時間匯總!最早6月24日開報,這些省份最緊迫!

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關(guān)懷版