網易首頁 > 網易號 > 正文申請入駐

GLM 5.1 開源了，Claude Opus 又被“碾壓”了

2026-04-08 11:28:12　來源: Ai學習的老章

北京舉報

分享至

先說結論

GLM-5.1 是智譜的新一代旗艦模型，744B 參數（40B 激活），MIT 開源協議，主打"長時間自主任務"。官方數據很漂亮：SWE-Bench Pro 拿了 58.4 分，超過了 Claude Opus 4.6（57.3）、GPT-5.4（57.7）和 Gemini 3.1 Pro（54.2），成為開源模型新標桿。

但我實測下來，感受和跑分之間有一道鴻溝。

先說好的，再說問題。

GLM-5.1 的核心賣點 1. 長時間自主任務，這是真正的亮點

過去的模型——包括 GLM-5——有個通病：開局猛如虎，跑著跑著就沒招了。給再多時間也白搭，到了瓶頸就開始原地踏步。

GLM-5.1 最大的突破在于：運行時間越長，結果越好。

官方給了三個場景來證明這一點，我逐個解讀：

場景一：向量數據庫優化，600+ 輪迭代

VectorDBBench 是一個開源編程挑戰，讓模型用 Rust 構建高性能近似最近鄰搜索數據庫。之前最好的成績是 Claude Opus 4.6 在 50 輪工具調用內達到的 3,547 QPS。

GLM-5.1 換了個玩法：不限制輪次，讓模型自主決定什么時候提交新版本、下一步試什么。結果是經過 600+ 次迭代、6000+ 次工具調用，最終達到 21,500 QPS——是 50 輪限制下最佳成績的6 倍。

優化過程呈現典型的階梯式躍升：大約第 90 輪，模型從全表掃描切換到 IVF 聚簇探測 + f16 向量壓縮，QPS 跳到 6.4k；大約第 240 輪，引入兩階段流水線（u8 預篩選 + f16 重排），QPS 跳到 13.4k。整個過程中出現了 6 次這樣的結構性轉變，每次都是模型分析自己的性能日志后主動發起的。

VectorDBBench 優化過程，600+ 輪迭代從 3.5k 到 21.5k QPS

場景二：GPU 核優化，1000+ 輪

KernelBench Level 3 包含 50 個問題，要求模型把 PyTorch 參考實現優化成更快的 GPU kernel。作為參考，torch.compile 默認設置能達到 1.15 倍加速，max-autotune 能達到 1.49 倍。

GLM-5.1 最終達到了3.6 倍加速，并且在實驗后期還在持續進步。Claude Opus 4.6 在這個任務上更強，達到 4.2 倍，但 GLM-5.1 比 GLM-5 有質的飛躍——GLM-5 早早就見頂了。

場景三：8 小時構建 Linux 桌面環境

這個最夸張。給模型一個提示詞：用網頁技術構建一個 Linux 風格桌面環境。沒有模板代碼，沒有設計稿，沒有中間指導。

大多數模型——包括早期版本的 GLM——很快就放棄了：搞個靜態任務欄加一兩個占位窗口，就宣布完成了。

GLM-5.1 套了一個簡單的外循環：每輪執行完后，模型審視自己的輸出，找出可以改進的地方——缺少的功能、粗糙的樣式、有 bug 的交互——然后繼續。這個循環跑了 8 個小時。

最終成果是一個完整的、視覺一致的瀏覽器端桌面環境：文件瀏覽器、終端、文本編輯器、系統監控器、計算器、游戲……每個新增功能都集成在統一的 UI 中，樣式越來越精致，交互越來越流暢。

這才是 GLM-5.1 真正讓我眼前一亮的地方——不是單次對話有多強，而是持續工作有多持久。

2. SWE-Bench Pro 開源第一

來看看官方測評數據：

GLM-5.1 完整 Benchmark 對比表

重點數據拎出來看：

Benchmark

GLM-5.1

GLM-5

Qwen3.6-Plus

Claude Opus 4.6

GPT-5.4

SWE-Bench Pro

58.4

55.1

56.6

57.3

57.7

NL2Repo

42.7

35.9

37.9

49.8

41.3

Terminal-Bench 2.0

63.5

56.2

61.6

65.4

CyberGym

68.7

48.3

66.6

BrowseComp

68.0

62.0

HLE

31.0

30.5

28.8

36.7

39.8

AIME 2026

95.3

95.4

95.1

95.6

98.7

GPQA-Diamond

86.2

86.0

90.4

91.3

92.0

幾個關鍵發現：

編程（SWE-Bench Pro）確實是開源第一，58.4 的成績超越了所有閉源模型，MIT 協議開源，這個含金量很高
CyberGym 網絡安全任務表現驚艷，68.7 超過 Opus 4.6 的 66.6，從 GLM-5 的 48.3 到 5.1 的 68.7，提升了 42%
BrowseComp 瀏覽器任務也是開源最強，68.0 vs GLM-5 的 62.0
數學推理并沒有顯著提升，AIME 2026 幾乎和 GLM-5 持平（95.3 vs 95.4），和 GPT-5.4 的 98.7 還有差距
NL2Repo 倉庫生成還是 Opus 4.6 最強，49.8 vs GLM-5.1 的 42.7

一句話總結：GLM-5.1 在編程和 Agent 任務上確實達到了頂級水準，但在純推理（數學、科學）方面依然不是最強的。

SWE-Bench Pro 對比柱狀圖開源 vs 閉源差距正在縮小 3. 第三方競技場評測

除了官方跑分，第三方競技場的表現也很搶眼：

Design Arena（設計競技場）：

GLM 5 Turbo 和 GLM-5.1 分別拿到第 2 和第 4 名，Elo 評分 1355 和 1352。開源模型里前 4 名全是 GLM 家族的，和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一檔位。

Design Arena 排名

Text Arena（文本競技場）：

GLM-5.1 是當前開源模型第一名，超越 GLM-5 +11 分，超越 Kimi K2.5 Thinking +15 分。

具體強項：

長文本查詢：開源第一（總排第四）
生命科學/物理/社會科學：開源第一（總排第五）
娛樂/體育/媒體：開源第一（總排第八）
編程：開源第一（總排第十）

Text Arena 排名

對比三代 GLM 模型（4.7 → 5 → 5.1），GLM-5.1 相比 GLM-5 的最大進步：

編程 +28 名
長文本查詢 +23 名
軟件/IT 服務 +22 名
娛樂/體育/媒體 +17 名

但有意思的是，GLM-5 在某些領域反而比 5.1 更強：

醫療健康 +24 名
法律/政務 +6 名
數學 +2 名

三代 GLM 模型能力對比

這說明 GLM-5.1 是一次"有取舍的升級"，重點強化了編程和 Agent 能力，在其他一些通用任務上做了讓步。

個人實測：跑分歸跑分，實際歸實際

說完漂亮的數據，來說說我自己的真實感受。

我拿最常用的測試題來試：閱讀理解 + SVG 代碼生成 + 審美。

先測了 GLM-5（發稿時官網還沒有 5.1），結果讓我失望——連"4 次背影"這個閱讀理解都沒搞對：

GLM-5 沒有理解到 4 次背影

GLM 5 Turbo 好一點，理解力上去了，但代碼寫得差點意思，排版也很差：

GLM 5 Turbo 的代碼生成排版很粗糙

怎么連 Claude Sonnet 3.7 都比不過呢？注意??是 Sonnet，是 3.7！

然后 Ollama 倒是放出了 5.1 的云端版本，可以免費使用：

Ollama 支持 GLM-5.1 云端調用

測了一下，也很失望。

最起碼的閱讀理解都沒做好，懶得預覽了：

GLM-5.1 通過 Ollama 的測試結果，閱讀理解不達標GLM-5.1 SVG 代碼生成效果

目前實際體感，GLM-5.1 在我這個測試上不如 Qwen3.6-Plus：

Qwen3.6-Plus 的 SVG 生成效果明顯更好

更何況 Qwen3.6-Plus 還能在 OpenCode 中免費調用，加上 Skills 加持，體驗好太多：

OpenCode 中免費調用 Qwen3.6-Plus + Skills 加持

我的理解是：GLM-5.1 的長處在于長時間、多輪次的 Agent 任務（SWE-Bench 那種需要反復讀代碼、改代碼、跑測試的場景），在單次對話的"快速生成"能力上，目前表現確實沒有跑分那么驚艷。

模型架構與參數

簡單過一下參數：

參數規模：744B 總參數，40B 激活參數（MoE 架構）
上下文窗口：200K token
開源協議：MIT（商用友好）
模型格式：BF16 全精度 + FP8 量化版
權重下載：HuggingFace / ModelScope

GLM-5.1 和 GLM-5 同架構（和 DeepSeek V3.2 也是同結構），主要的改進體現在訓練數據和訓練策略上，特別是強化了工具調用、推理歷史重建和工具消息渲染。

本地部署全攻略

這是大家最關心的部分。GLM-5.1 的 744B 參數，全精度需要1.65TB磁盤空間，所以本地部署基本上只能用量化版本或者 FP8。下面按不同場景分別介紹。

方案一：vLLM 部署（推薦，生產環境）

vLLM 0.19.0+ 已經支持 GLM-5.1。

vLLM 部署 GLM-5.1

Docker 一鍵啟動（最省事）：

docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
    --tensor-parallel-size 8 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --served-model-name glm-5.1-fp8

CUDA 13 以上的用vllm/vllm-openai:glm51-cu130鏡像。

從源碼安裝：

uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"

注意：FP8 模型需要額外安裝 DeepGEMM。

FP8 模型在 8×H200（或 H20）上運行：

vllm serve zai-org/GLM-5.1-FP8 \
     --tensor-parallel-size 8 \
     --speculative-config.method mtp \
     --speculative-config.num_speculative_tokens 3 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-5.1-fp8

幾個注意點：

思考模式默認開啟，不需要額外參數。想關閉的話加"chat_template_kwargs": {"enable_thinking": false}
支持 OpenAI 格式的工具調用
支持投機解碼（MTP），實測輸出吞吐量可達 526 tok/s（8k/1k，8×H200）

Python 客戶端調用：

from openai import OpenAI

 client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1",
)

 # 思考模式（默認開啟）
resp = client.chat.completions.create(
    model="glm-5.1-fp8",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用 Python 實現快速排序"},
    ],
    temperature=1,
    max_tokens=4096,
)
print("思考過程：", resp.choices[0].message.reasoning)
print("回答：", resp.choices[0].message.content)

方案二：SGLang 部署（高并發場景）

SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常廣泛：NVIDIA H100、H200、B200、GB300，還有 AMD MI300X/MI325X/MI355X。

SGLang 部署 GLM-5.1

FP8 + H200 + 全功能啟動：

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp 8 \
  --reasoning-parser glm45 \
  --tool-call-parser glm47 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85

不同硬件的 TP（Tensor Parallel）配置：

硬件

FP8

BF16

H100

tp=16

tp=32

H200

tp=8

tp=16

B200

tp=8

tp=16

GB300

tp=4

MI300X/MI325X

tp=8

MI355X

tp=8

注意：BF16 全精度需要的 GPU 數量是 FP8 的2 倍。如果你有 8 張 H200，FP8 剛好夠用；全精度需要 16 張。

SGLang 還有幾個獨特優勢：

DP Attention：高并發下用數據并行注意力，吞吐量更高（低并發場景關掉，會影響延遲）
投機解碼（EAGLE）：顯著降低交互延遲
GLM-5.1 和 DeepSeek V3.2 同架構，SGLang 對兩者的優化技術是通用的（MTP、DSA kernel、Context Parallel 等）

方案三：Ollama 云端（最簡單，免費）

一行命令搞定：

ollama run glm-5.1:cloud

Ollama 運行 GLM-5.1

這是最低門檻的體驗方式，不需要本地 GPU。但正如我前面實測的，效果嘛……老實說有點拉胯。

方案四：Unsloth 量化版（消費級硬件的希望）

Unsloth 提供了各種精度的 GGUF 量化版本，這才是普通人本地跑的正確姿勢。

Unsloth 提供的 GLM-5.1 量化方案

模型文件：unsloth/GLM-5.1-GGUF

各精度模型大小對比：

不同量化精度的模型文件大小

關鍵數據：

Dynamic 2-bit（UD-IQ2_M）：約 236GB → 可以在256GB 統一內存的 Mac上跑，也可以在 1×24GB GPU + 256GB 內存上跑（MoE 卸載）
Dynamic 1-bit：約 200GB → 可以塞進 220GB 內存
8-bit：需要 805GB 內存
完整模型（BF16）：1.65TB

Unsloth 用的是 Dynamic 2.0 量化技術——重要層會自動升到 8-bit 或 16-bit，低位量化掉精度損失的地方集中在不太重要的層上，整體效果比均勻量化好不少。

Unsloth Studio 一鍵運行（推薦新手）：

Mac/Linux 安裝：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

啟動 Studio：

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://localhost:8888，搜索 GLM-5.1，選擇量化版本下載即可。推薦選UD-Q2_K_XL（動態 2-bit），平衡體積和精度。

llama.cpp 命令行運行：

先編譯 llama.cpp（Mac 用戶把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF，Metal 加速默認開啟）：

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
    --clean-first --target llama-cli llama-server

下載模型：

pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
    --local-dir unsloth/GLM-5.1-GGUF \
    --include "*UD-IQ2_M*"

運行（通用指令模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 1.0

運行（工具調用模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95

部署為 OpenAI 兼容 API 服務：

./llama.cpp/llama-server \
    --model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
    --alias "unsloth/GLM-5.1" \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001

然后就可以用 OpenAI SDK 調用了：

from openai import OpenAI


 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
    model="unsloth/GLM-5.1",
    messages=[{"role": "user", "content": "用 Python 寫個貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)

小貼士：

--ctx-size 16384是上下文長度，最大支持 202,752，按需調整
--threads 32可以指定 CPU 線程數
--n-gpu-layers 2控制 GPU 卸載層數，顯存不夠就調小
默認開啟思考模式，想關閉加--chat-template-kwargs '{"enable_thinking":false}'

其他部署方案

除了上面四種主流方式，還支持：

xLLM（v0.8.0+）：支持華為昇騰 NPU，國產化部署的選擇
Transformers（v0.5.3+）：HuggingFace 原生推理
KTransformers（v0.5.3+）：KV Cache 優化，適合長上下文場景

API 調用

如果不想自己部署，直接用官方 API 也行。

cURL 調用：

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
    "model": "glm-5.1",
    "messages": [
        {"role": "user", "content": "幫我寫一段Python快速排序"}
    ],
    "thinking": {"type": "enabled"},
    "max_tokens": 4096,
    "temperature": 1.0
}'

Python SDK 調用：

# 安裝 SDK
# pip install zai-sdk

 from zai import ZaiClient

 client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "幫我寫一段 Python 快速排序"},
    ],
    thinking={"type": "enabled"},
    max_tokens=4096,
    temperature=1.0,
)
print(response.choices[0].message)

兼容 OpenAI SDK（推薦！遷移成本為零）：

from openai import OpenAI


 client = OpenAI(
    api_key="your-Z.AI-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "幫我寫一段 Python 快速排序"},
    ],
)
print(completion.choices[0].message.content)

改個 base_url 和 api_key 就行，原來用 OpenAI SDK 的代碼幾乎不用動。

另外，GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流編程 Agent 中使用。對 GLM Coding Plan 訂閱用戶，高峰時段（北京時間 14:00-18:00）消耗 3 倍額度，非高峰 2 倍；4 月底前非高峰按 1 倍計費，算是一個限時優惠。

和同類開源模型的橫向對比

維度

GLM-5.1

Qwen3.6-Plus

Kimi K2.5

DeepSeek-V3.2

參數

744B（40B 激活）

未公開

開源協議

MIT

Apache 2.0

MIT

編程（SWE-Bench Pro）

58.4

56.6

53.8

數學（AIME 2026）

95.3

95.1

94.5

95.1

Agent（τ3-Bench）

70.6

70.7

66.0

69.2

工具調用（MCP-Atlas）

71.8

74.1

63.8

62.2

網絡安全（CyberGym）

68.7

41.3

17.3

長時間任務

? 核心優勢

未驗證

本地部署門檻

高（2-bit 需 236GB）

相對低

中等

GLM-5.1 的定位非常清晰：Agent 工程的旗艦模型。如果你需要一個能在 Claude Code 里跑幾個小時自動修 bug 的模型，GLM-5.1 是當前開源最佳選擇。

但如果你要的是日常對話、通用問答，Qwen3.6-Plus 目前體驗更好、門檻更低。兩者并不矛盾，場景不同選擇不同。

總結

優點：

SWE-Bench Pro 58.4 分，開源模型第一，超越所有閉源模型
長時間自主任務的持久力是獨一份的核心競爭力（600+ 輪迭代、8 小時持續開發）
MIT 開源協議，商用零負擔
部署生態完善：vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆蓋
兼容 OpenAI API 格式，遷移成本低
兼容 Claude Code、OpenCode 等主流編程 Agent

不足：

單次對話的表現和跑分之間有落差（至少在我的測試題上是這樣）
純推理能力（數學/科學）相比 GPT-5.4 和 Gemini 3.1 Pro 還有差距
本地部署門檻高，即使 2-bit 量化也需要 236GB 內存
和 GLM-5 相比，醫療/法律/數學領域反而有退步

適合誰：

需要長時間自動化編程任務的團隊（CI/CD 自動修復、代碼遷移、大規模重構）
在 Claude Code / OpenCode 等 Agent 框架中尋找開源替代品的開發者
有 H200/H100 集群的企業，想要私有化部署頂級編程模型
Mac Studio 256GB 用戶可以試試 Unsloth 量化版

不太適合：

日常聊天和通用問答（Qwen3.6-Plus 體驗更好）
只有 16GB/32GB 內存的輕量用戶（模型太大了）
對數學/科學推理有極高要求的場景

官方鏈接匯總：

博客：https://z.ai/blog/glm-5.1
模型權重：https://huggingface.co/zai-org/GLM-5.1
API 文檔：https://docs.z.ai/guides/llm/glm-5.1
vLLM 教程：https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
SGLang 教程：https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1
Unsloth 量化版：https://huggingface.co/unsloth/GLM-5.1-GGUF
技術報告：https://arxiv.org/abs/2602.15763

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.