先說結論
GLM-5.1 是智譜的新一代旗艦模型,744B 參數(40B 激活),MIT 開源協議,主打"長時間自主任務"。官方數據很漂亮:SWE-Bench Pro 拿了 58.4 分,超過了 Claude Opus 4.6(57.3)、GPT-5.4(57.7)和 Gemini 3.1 Pro(54.2),成為開源模型新標桿。
但我實測下來,感受和跑分之間有一道鴻溝。
先說好的,再說問題。
GLM-5.1 的核心賣點 1. 長時間自主任務,這是真正的亮點
過去的模型——包括 GLM-5——有個通病:開局猛如虎,跑著跑著就沒招了。給再多時間也白搭,到了瓶頸就開始原地踏步。
GLM-5.1 最大的突破在于:運行時間越長,結果越好。
官方給了三個場景來證明這一點,我逐個解讀:
場景一:向量數據庫優化,600+ 輪迭代
VectorDBBench 是一個開源編程挑戰,讓模型用 Rust 構建高性能近似最近鄰搜索數據庫。之前最好的成績是 Claude Opus 4.6 在 50 輪工具調用內達到的 3,547 QPS。
GLM-5.1 換了個玩法:不限制輪次,讓模型自主決定什么時候提交新版本、下一步試什么。結果是經過 600+ 次迭代、6000+ 次工具調用,最終達到 21,500 QPS——是 50 輪限制下最佳成績的6 倍。
優化過程呈現典型的階梯式躍升:大約第 90 輪,模型從全表掃描切換到 IVF 聚簇探測 + f16 向量壓縮,QPS 跳到 6.4k;大約第 240 輪,引入兩階段流水線(u8 預篩選 + f16 重排),QPS 跳到 13.4k。整個過程中出現了 6 次這樣的結構性轉變,每次都是模型分析自己的性能日志后主動發起的。
![]()
VectorDBBench 優化過程,600+ 輪迭代從 3.5k 到 21.5k QPS
場景二:GPU 核優化,1000+ 輪
KernelBench Level 3 包含 50 個問題,要求模型把 PyTorch 參考實現優化成更快的 GPU kernel。作為參考,torch.compile 默認設置能達到 1.15 倍加速,max-autotune 能達到 1.49 倍。
GLM-5.1 最終達到了3.6 倍加速,并且在實驗后期還在持續進步。Claude Opus 4.6 在這個任務上更強,達到 4.2 倍,但 GLM-5.1 比 GLM-5 有質的飛躍——GLM-5 早早就見頂了。
場景三:8 小時構建 Linux 桌面環境
這個最夸張。給模型一個提示詞:用網頁技術構建一個 Linux 風格桌面環境。沒有模板代碼,沒有設計稿,沒有中間指導。
大多數模型——包括早期版本的 GLM——很快就放棄了:搞個靜態任務欄加一兩個占位窗口,就宣布完成了。
GLM-5.1 套了一個簡單的外循環:每輪執行完后,模型審視自己的輸出,找出可以改進的地方——缺少的功能、粗糙的樣式、有 bug 的交互——然后繼續。這個循環跑了 8 個小時。
最終成果是一個完整的、視覺一致的瀏覽器端桌面環境:文件瀏覽器、終端、文本編輯器、系統監控器、計算器、游戲……每個新增功能都集成在統一的 UI 中,樣式越來越精致,交互越來越流暢。
這才是 GLM-5.1 真正讓我眼前一亮的地方——不是單次對話有多強,而是持續工作有多持久。
2. SWE-Bench Pro 開源第一
來看看官方測評數據:
![]()
GLM-5.1 完整 Benchmark 對比表
重點數據拎出來看:
Benchmark
GLM-5.1
GLM-5
Qwen3.6-Plus
Claude Opus 4.6
GPT-5.4
SWE-Bench Pro
58.4
55.1
56.6
57.3
57.7
NL2Repo
42.7
35.9
37.9
49.8
41.3
Terminal-Bench 2.0
63.5
56.2
61.6
65.4
CyberGym
68.7
48.3
66.6
BrowseComp
68.0
62.0
HLE
31.0
30.5
28.8
36.7
39.8
AIME 2026
95.3
95.4
95.1
95.6
98.7
GPQA-Diamond
86.2
86.0
90.4
91.3
92.0
幾個關鍵發現:
編程(SWE-Bench Pro)確實是開源第一,58.4 的成績超越了所有閉源模型,MIT 協議開源,這個含金量很高
CyberGym 網絡安全任務表現驚艷,68.7 超過 Opus 4.6 的 66.6,從 GLM-5 的 48.3 到 5.1 的 68.7,提升了 42%
BrowseComp 瀏覽器任務也是開源最強,68.0 vs GLM-5 的 62.0
數學推理并沒有顯著提升,AIME 2026 幾乎和 GLM-5 持平(95.3 vs 95.4),和 GPT-5.4 的 98.7 還有差距
NL2Repo 倉庫生成還是 Opus 4.6 最強,49.8 vs GLM-5.1 的 42.7
一句話總結:GLM-5.1 在編程和 Agent 任務上確實達到了頂級水準,但在純推理(數學、科學)方面依然不是最強的。
![]()
SWE-Bench Pro 對比柱狀圖
開源 vs 閉源差距正在縮小 3. 第三方競技場評測
除了官方跑分,第三方競技場的表現也很搶眼:
Design Arena(設計競技場):
GLM 5 Turbo 和 GLM-5.1 分別拿到第 2 和第 4 名,Elo 評分 1355 和 1352。開源模型里前 4 名全是 GLM 家族的,和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一檔位。
![]()
Design Arena 排名
Text Arena(文本競技場):
GLM-5.1 是當前開源模型第一名,超越 GLM-5 +11 分,超越 Kimi K2.5 Thinking +15 分。
具體強項:
長文本查詢:開源第一(總排第四)
生命科學/物理/社會科學:開源第一(總排第五)
娛樂/體育/媒體:開源第一(總排第八)
編程:開源第一(總排第十)
對比三代 GLM 模型(4.7 → 5 → 5.1),GLM-5.1 相比 GLM-5 的最大進步:
編程 +28 名
長文本查詢 +23 名
軟件/IT 服務 +22 名
娛樂/體育/媒體 +17 名
但有意思的是,GLM-5 在某些領域反而比 5.1 更強:
醫療健康 +24 名
法律/政務 +6 名
數學 +2 名
這說明 GLM-5.1 是一次"有取舍的升級",重點強化了編程和 Agent 能力,在其他一些通用任務上做了讓步。
個人實測:跑分歸跑分,實際歸實際
說完漂亮的數據,來說說我自己的真實感受。
我拿最常用的測試題來試:閱讀理解 + SVG 代碼生成 + 審美。
先測了 GLM-5(發稿時官網還沒有 5.1),結果讓我失望——連"4 次背影"這個閱讀理解都沒搞對:
![]()
GLM-5 沒有理解到 4 次背影
GLM 5 Turbo 好一點,理解力上去了,但代碼寫得差點意思,排版也很差:
![]()
GLM 5 Turbo 的代碼生成排版很粗糙
怎么連 Claude Sonnet 3.7 都比不過呢?注意??是 Sonnet,是 3.7!
然后 Ollama 倒是放出了 5.1 的云端版本,可以免費使用:
![]()
Ollama 支持 GLM-5.1 云端調用
測了一下,也很失望。
最起碼的閱讀理解都沒做好,懶得預覽了:
![]()
GLM-5.1 通過 Ollama 的測試結果,閱讀理解不達標
GLM-5.1 SVG 代碼生成效果
目前實際體感,GLM-5.1 在我這個測試上不如 Qwen3.6-Plus:
![]()
Qwen3.6-Plus 的 SVG 生成效果明顯更好
更何況 Qwen3.6-Plus 還能在 OpenCode 中免費調用,加上 Skills 加持,體驗好太多:
![]()
OpenCode 中免費調用 Qwen3.6-Plus + Skills 加持
我的理解是:GLM-5.1 的長處在于長時間、多輪次的 Agent 任務(SWE-Bench 那種需要反復讀代碼、改代碼、跑測試的場景),在單次對話的"快速生成"能力上,目前表現確實沒有跑分那么驚艷。
模型架構與參數
簡單過一下參數:
參數規模:744B 總參數,40B 激活參數(MoE 架構)
上下文窗口:200K token
開源協議:MIT(商用友好)
模型格式:BF16 全精度 + FP8 量化版
權重下載:HuggingFace / ModelScope
GLM-5.1 和 GLM-5 同架構(和 DeepSeek V3.2 也是同結構),主要的改進體現在訓練數據和訓練策略上,特別是強化了工具調用、推理歷史重建和工具消息渲染。
本地部署全攻略
這是大家最關心的部分。GLM-5.1 的 744B 參數,全精度需要1.65TB磁盤空間,所以本地部署基本上只能用量化版本或者 FP8。下面按不同場景分別介紹。
方案一:vLLM 部署(推薦,生產環境)
vLLM 0.19.0+ 已經支持 GLM-5.1。
![]()
vLLM 部署 GLM-5.1
Docker 一鍵啟動(最省事):
docker run --gpus all \
-p 8000:8000 \
--ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
--tensor-parallel-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.1-fp8
CUDA 13 以上的用vllm/vllm-openai:glm51-cu130鏡像。
從源碼安裝:
uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"
注意:FP8 模型需要額外安裝 DeepGEMM。
FP8 模型在 8×H200(或 H20)上運行:
vllm serve zai-org/GLM-5.1-FP8 \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 3 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.1-fp8
幾個注意點:
思考模式默認開啟,不需要額外參數。想關閉的話加
"chat_template_kwargs": {"enable_thinking": false}支持 OpenAI 格式的工具調用
支持投機解碼(MTP),實測輸出吞吐量可達 526 tok/s(8k/1k,8×H200)
Python 客戶端調用:
方案二:SGLang 部署(高并發場景)from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1",
)# 思考模式(默認開啟)
resp = client.chat.completions.create(
model="glm-5.1-fp8",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "用 Python 實現快速排序"},
],
temperature=1,
max_tokens=4096,
)
print("思考過程:", resp.choices[0].message.reasoning)
print("回答:", resp.choices[0].message.content)
SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常廣泛:NVIDIA H100、H200、B200、GB300,還有 AMD MI300X/MI325X/MI355X。
![]()
SGLang 部署 GLM-5.1
FP8 + H200 + 全功能啟動:
SGLANG_ENABLE_SPEC_V2=1 sglang serve \
--model-path zai-org/GLM-5.1-FP8 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85
不同硬件的 TP(Tensor Parallel)配置:
硬件
FP8
BF16
H100
tp=16
tp=32
H200
tp=8
tp=16
B200
tp=8
tp=16
GB300
tp=4
MI300X/MI325X
tp=8
MI355X
tp=8
注意:BF16 全精度需要的 GPU 數量是 FP8 的2 倍。如果你有 8 張 H200,FP8 剛好夠用;全精度需要 16 張。
SGLang 還有幾個獨特優勢:
DP Attention:高并發下用數據并行注意力,吞吐量更高(低并發場景關掉,會影響延遲)
投機解碼(EAGLE):顯著降低交互延遲
GLM-5.1 和 DeepSeek V3.2 同架構,SGLang 對兩者的優化技術是通用的(MTP、DSA kernel、Context Parallel 等)
一行命令搞定:
ollama run glm-5.1:cloud
這是最低門檻的體驗方式,不需要本地 GPU。但正如我前面實測的,效果嘛……老實說有點拉胯。
方案四:Unsloth 量化版(消費級硬件的希望)
Unsloth 提供了各種精度的 GGUF 量化版本,這才是普通人本地跑的正確姿勢。
![]()
Unsloth 提供的 GLM-5.1 量化方案
模型文件:unsloth/GLM-5.1-GGUF
各精度模型大小對比:
![]()
不同量化精度的模型文件大小
關鍵數據:
Dynamic 2-bit(UD-IQ2_M):約 236GB → 可以在256GB 統一內存的 Mac上跑,也可以在 1×24GB GPU + 256GB 內存上跑(MoE 卸載)
Dynamic 1-bit:約 200GB → 可以塞進 220GB 內存
8-bit:需要 805GB 內存
完整模型(BF16):1.65TB
Unsloth 用的是 Dynamic 2.0 量化技術——重要層會自動升到 8-bit 或 16-bit,低位量化掉精度損失的地方集中在不太重要的層上,整體效果比均勻量化好不少。
Unsloth Studio 一鍵運行(推薦新手):
Mac/Linux 安裝:
curl -fsSL https://unsloth.ai/install.sh | sh
Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
啟動 Studio:
unsloth studio -H 0.0.0.0 -p 8888
然后瀏覽器打開http://localhost:8888,搜索 GLM-5.1,選擇量化版本下載即可。推薦選UD-Q2_K_XL(動態 2-bit),平衡體積和精度。
llama.cpp 命令行運行:
先編譯 llama.cpp(Mac 用戶把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF,Metal 加速默認開啟):
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
--clean-first --target llama-cli llama-server
下載模型:
pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
--local-dir unsloth/GLM-5.1-GGUF \
--include "*UD-IQ2_M*"
運行(通用指令模式):
./llama.cpp/llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 0.7 \
--top-p 1.0
運行(工具調用模式):
./llama.cpp/llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 1.0 \
--top-p 0.95
部署為 OpenAI 兼容 API 服務:
./llama.cpp/llama-server \
--model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
--alias "unsloth/GLM-5.1" \
--temp 1.0 \
--top-p 0.95 \
--ctx-size 16384 \
--port 8001
然后就可以用 OpenAI SDK 調用了:
from openai import OpenAIclient = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
model="unsloth/GLM-5.1",
messages=[{"role": "user", "content": "用 Python 寫個貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)
小貼士:
--ctx-size 16384是上下文長度,最大支持 202,752,按需調整--threads 32可以指定 CPU 線程數--n-gpu-layers 2控制 GPU 卸載層數,顯存不夠就調小默認開啟思考模式,想關閉加
--chat-template-kwargs '{"enable_thinking":false}'
除了上面四種主流方式,還支持:
xLLM(v0.8.0+):支持華為昇騰 NPU,國產化部署的選擇
Transformers(v0.5.3+):HuggingFace 原生推理
KTransformers(v0.5.3+):KV Cache 優化,適合長上下文場景
如果不想自己部署,直接用官方 API 也行。
cURL 調用:
curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-api-key" \
-d '{
"model": "glm-5.1",
"messages": [
{"role": "user", "content": "幫我寫一段Python快速排序"}
],
"thinking": {"type": "enabled"},
"max_tokens": 4096,
"temperature": 1.0
}'
Python SDK 調用:
# 安裝 SDK
# pip install zai-sdk
from zai import ZaiClientclient = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "幫我寫一段 Python 快速排序"},
],
thinking={"type": "enabled"},
max_tokens=4096,
temperature=1.0,
)
print(response.choices[0].message)
兼容 OpenAI SDK(推薦!遷移成本為零):
from openai import OpenAIclient = OpenAI(
api_key="your-Z.AI-api-key",
base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "幫我寫一段 Python 快速排序"},
],
)
print(completion.choices[0].message.content)
改個 base_url 和 api_key 就行,原來用 OpenAI SDK 的代碼幾乎不用動。
另外,GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流編程 Agent 中使用。對 GLM Coding Plan 訂閱用戶,高峰時段(北京時間 14:00-18:00)消耗 3 倍額度,非高峰 2 倍;4 月底前非高峰按 1 倍計費,算是一個限時優惠。
和同類開源模型的橫向對比
維度
GLM-5.1
Qwen3.6-Plus
Kimi K2.5
DeepSeek-V3.2
參數
744B(40B 激活)
未公開
未公開
未公開
開源協議
MIT
Apache 2.0
MIT
MIT
編程(SWE-Bench Pro)
58.4
56.6
53.8
數學(AIME 2026)
95.3
95.1
94.5
95.1
Agent(τ3-Bench)
70.6
70.7
66.0
69.2
工具調用(MCP-Atlas)
71.8
74.1
63.8
62.2
網絡安全(CyberGym)
68.7
41.3
17.3
長時間任務
? 核心優勢
未驗證
未驗證
未驗證
本地部署門檻
高(2-bit 需 236GB)
相對低
中等
中等
GLM-5.1 的定位非常清晰:Agent 工程的旗艦模型。如果你需要一個能在 Claude Code 里跑幾個小時自動修 bug 的模型,GLM-5.1 是當前開源最佳選擇。
但如果你要的是日常對話、通用問答,Qwen3.6-Plus 目前體驗更好、門檻更低。兩者并不矛盾,場景不同選擇不同。
總結
優點:
SWE-Bench Pro 58.4 分,開源模型第一,超越所有閉源模型
長時間自主任務的持久力是獨一份的核心競爭力(600+ 輪迭代、8 小時持續開發)
MIT 開源協議,商用零負擔
部署生態完善:vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆蓋
兼容 OpenAI API 格式,遷移成本低
兼容 Claude Code、OpenCode 等主流編程 Agent
不足:
單次對話的表現和跑分之間有落差(至少在我的測試題上是這樣)
純推理能力(數學/科學)相比 GPT-5.4 和 Gemini 3.1 Pro 還有差距
本地部署門檻高,即使 2-bit 量化也需要 236GB 內存
和 GLM-5 相比,醫療/法律/數學領域反而有退步
適合誰:
需要長時間自動化編程任務的團隊(CI/CD 自動修復、代碼遷移、大規模重構)
在 Claude Code / OpenCode 等 Agent 框架中尋找開源替代品的開發者
有 H200/H100 集群的企業,想要私有化部署頂級編程模型
Mac Studio 256GB 用戶可以試試 Unsloth 量化版
不太適合:
日常聊天和通用問答(Qwen3.6-Plus 體驗更好)
只有 16GB/32GB 內存的輕量用戶(模型太大了)
對數學/科學推理有極高要求的場景
官方鏈接匯總:
博客:https://z.ai/blog/glm-5.1
模型權重:https://huggingface.co/zai-org/GLM-5.1
API 文檔:https://docs.z.ai/guides/llm/glm-5.1
vLLM 教程:https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
SGLang 教程:https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1
Unsloth 量化版:https://huggingface.co/unsloth/GLM-5.1-GGUF
技術報告:https://arxiv.org/abs/2602.15763
.1
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.