大家好,我是 Ai 學習的老章
,當時 vLLM 在 H100 上跑出 1000+ tok/s 已經夠炸裂了,結果不到三天,Unsloth 直接把它壓成 GGUF,丟進 llama. cpp,單卡 2000+ tok/s 起飛——而且最低 18GB RAM 就能跑
![]()
這次有什么新東西
簡單說三句話:
GGUF 來了:Unsloth 把 DiffusionGemma-26B-A4B-it 量化成 5 個 GGUF 版本,最小 16GB,24GB 顯卡一張就吃得下
llama. cpp 上車:Daniel Han(Unsloth 創始人)給 llama .cpp 提了 PR ,新增了
llama-diffusion-cli專用運行器2000+ tok/s 實測:Unsloth 官方在 RTX 6000 上跑出了2000+ tokens/s的單請求速度,比 vLLM 在 H100 上的 1000 tok/s 還快一倍
也就是說,擴散式大模型從"云端 H100 專屬"直接下沉到了"消費級 24GB 顯卡",門檻低到離譜
用一張圖直觀感受一下這三天的變化:
![]()
DiffusionGemma 三天進化對比 量化版本怎么選![]()
Unsloth 這次給了 5 檔量化,從 BF16 全精度到 Q4_K_M 都覆蓋了:
量化
體積
BF16
47 GB
全精度參考版,不建議日常用
Q8_0
25 GB
接近無損,推薦,單張 32GB+ 顯卡(如 RTX 6000 Pro / V100 32G)夠用
Q6_K
21 GB
折中選擇
Q5_K_M
18 GB
內存敏感場景可選
Q4_K_M
16 GB
最小,單張 24GB 顯卡(4090/3090/RTX 6000)即可塞下
? 注意是"塞下",不是"跑得動";Unsloth 官方推薦總內存(RAM + VRAM)≥ 18 GB,這是包含 KV Cache 和 canvas 狀態緩沖區的最低要求
我個人的選擇建議:
24GB 單卡(4090/3090/RTX 6000)→ Q4_K_M(16GB 模型 + 8GB 留給 KV cache)
32GB 單卡(RTX 6000 Pro/V100 32G)→ Q8_0(精度最優)
Apple Silicon 統一內存(M2 Max/M3 Max 32G+)→ Q4_K_M 或 Q5_K_M
純 CPU + 大內存(64GB+)→ Q8_0,速度慢但精度穩
這條路線適合喜歡命令行、想看清楚每個參數的玩家;關鍵點:必須用 PR 分支,不是 main——DiffusionGemma 是塊擴散架構,標準的llama-cli和llama-server還跑不起來
1. 編譯專用分支
git clone https://github. com/ggml-org/llama. cpp
cd llama. cpp
gh pr checkout 24423# CUDA 編譯(Apple Mac/Metal 改成 -DGGML_CUDA=OFF)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli
注意編譯目標是llama-diffusion-cli這個新二進制,不是llama-cli;這是 Daniel Han 在 PR 里專門加的,因為擴散模型生成路徑完全不同
2. 下載 GGUF
pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
--local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
--include "Q4_K_M" # 24GB 顯卡用這個
如果想跑 Q8_0 把*Q4_K_M*改成*Q8_0*即可
3. 啟動對話
./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048
參數解讀:
-ngl 99:所有層卸到 GPU(純 CPU 跑改-ngl 0)-cnv:開啟多輪對話模式-n 2048:目標 token 數;這個參數會自動推導--diffusion-blocks數量并擴展 batch / context 大小,所以你只需要管這一個長度參數
熵邊界采樣器(Entropy-Bound)默認開啟,這是 DiffusionGemma 推薦的標準配置——溫度 0.8 → 0.4 線性衰減、熵上限 0.1、最大去噪步數 48;直接用就行,調反而會掉分
下面是 llama-diffusion-cli 啟動后的樣子:
![]()
llama-diffusion-cli 啟動界面 跑法二:Unsloth Studio 一鍵路線(推薦新手)
如果你不想折騰 cmake 編譯,Unsloth 6 月 12 號剛推了一個更新——Unsloth Studio 已經內置 DiffusionGemma 支持,不用自己編 llama. cpp
Unsloth Studio 是個開源的本地 AI Web UI,相當于 Ollama + Open WebUI 的合體,但是把推理和訓練做到了一個面板里;MacOS / Windows / Linux 都支持
![]()
安裝(任選一行):
# MacOS / Linux / WSL
curl -fsSL https://unsloth. ai/install .sh | sh# Windows PowerShell
irm https://unsloth. ai/install .ps1 | iex
啟動 Web UI:
unsloth studio -H 0.0.0.0 -p 8888
然后瀏覽器打開http://127.0.0.1:8888,第一次會讓你設個密碼(保護本地賬戶),登進去之后到 Studio Chat 標簽頁搜 "DiffusionGemma",選量化版本下載,就能直接對話
最舒服的是:所有擴散采樣參數自動配好,不用記那串 entropy bound、temperature schedule、canvas length;新手黨直接起飛
下面是 Unsloth Studio 里跑 4-bit GGUF DiffusionGemma 并帶可執行代碼輸出的實際效果:
![]()
DiffusionGemma 在 Unsloth Studio 里運行 王炸功能:實時看擴散去噪
這是我覺得 DiffusionGemma 這次最值得玩的東西——加一個--diffusion-visual參數,可以親眼看到 256 個 token 怎么從噪聲一點點收斂成答案:
./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048 --diffusion-visual
效果是這樣的:
![]()
diffusion-visual 實時去噪
整個畫布上的字符在屏幕上反復擦寫、收斂、定型,最后一次性"啪"地全部清晰——這才是擴散語言模型的靈魂可視化;flicker-free 設計,不會糊屏,scrollback 也不會亂
我自己看了三分鐘才反應過來:原來"擴散模型生成文本"不是一個比喻,它真的就在你眼前像圖像擴散模型一樣工作
微調也能玩了
更狠的是 Unsloth 把 DiffusionGemma 的微調鏈路也打通了;官方 demo 是用數獨數據集 finetune,下面這張前后對比圖很說明問題——基礎模型解數獨完全瞎填,微調之后能穩定解出每一道:
![]()
Sudoku 微調前后對比
官方提供了 Colab 筆記本(A100 即可),擴散采樣器、溫度調度、熵閾值這些擴散專屬參數全部預置;如果你手頭有領域數據(金融文檔、醫療報告、代碼庫),完全可以拿這套直接 SFT,把 DiffusionGemma 微調成你領域的快速生成專家
速度的代價
老板要冷靜,2000+ tok/s 聽起來很爽,但有幾個固有局限要提前知道:
首 Token 延遲(TTFT)依然偏高:擴散模型必須先把整個 256 token 的 canvas 去噪到位才會吐出第一個字;如果你做的是流式聊天 / 實時打字效果,TTFT 會讓用戶感覺"卡了一下"——這是架構層面沒法繞開的代價
并發上不去:擴散模型每路對話都要維護一塊 canvas × vocab_size 的狀態緩沖區,顯存占用是 AR 模型的好幾倍;本地單用戶場景沒問題,多并發服務直接勸退
精度比 Gemma 4 略低:MMLU Pro 77.6% vs 82.6%、AIME 2026 69.1% vs 88.3%、Codeforces ELO 1429 vs 1718——拿速度換了大約 5-15% 的精度;如果你做的是奧數級推理或競賽編程,老老實實跑 Gemma 4 自回歸版
llama. cpp PR 還沒合并主線:PR 目前在 draft 狀態,被 ggml-gh-bot 標記"過大",社區也對 per-model server 設計有討論;短期內你只能在 Unsloth 的 PR 分支或 Unsloth Studio 里玩,原生 llama. cpp 還得等
誰適合
場景
是否推薦
24GB 單卡本地推理(4090/3090)
? 強烈推薦,Q4_K_M 起飛
Apple Silicon 大內存機器
? 推薦,Metal 默認支持
私有領域知識 SFT
? 推薦,擴散微調鏈路已通
想體驗擴散語言模型可視化
? 必玩--diffusion-visual
高并發 API 服務
? 別碰,AR 模型更合適
奧數 / 競賽級推理任務
? 跑 Gemma 4 26B AR 版
流式聊天 / 實時打字效果
? TTFT 太慢
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.