網易首頁 > 網易號 > 正文申請入駐

谷歌最新大模型 DiffusionGemma 續集：Unsloth 把它壓到 18GB，單卡飆到 2000+ Token/s

2026-06-14 16:54:03　來源: Ai學習的老章

北京舉報

分享至

大家好，我是 Ai 學習的老章

，當時 vLLM 在 H100 上跑出 1000+ tok/s 已經夠炸裂了，結果不到三天，Unsloth 直接把它壓成 GGUF，丟進 llama. cpp，單卡 2000+ tok/s 起飛——而且最低 18GB RAM 就能跑

這次有什么新東西

簡單說三句話：

GGUF 來了：Unsloth 把 DiffusionGemma-26B-A4B-it 量化成 5 個 GGUF 版本，最小 16GB，24GB 顯卡一張就吃得下
llama. cpp 上車：Daniel Han（Unsloth 創始人）給 llama .cpp 提了 PR ，新增了llama-diffusion-cli專用運行器
2000+ tok/s 實測：Unsloth 官方在 RTX 6000 上跑出了2000+ tokens/s的單請求速度，比 vLLM 在 H100 上的 1000 tok/s 還快一倍

也就是說，擴散式大模型從"云端 H100 專屬"直接下沉到了"消費級 24GB 顯卡"，門檻低到離譜

用一張圖直觀感受一下這三天的變化：

DiffusionGemma 三天進化對比量化版本怎么選

Unsloth 這次給了 5 檔量化，從 BF16 全精度到 Q4_K_M 都覆蓋了：

量化

體積

BF16

47 GB

全精度參考版，不建議日常用

Q8_0

25 GB

接近無損，推薦，單張 32GB+ 顯卡（如 RTX 6000 Pro / V100 32G）夠用

Q6_K

21 GB

折中選擇

Q5_K_M

18 GB

內存敏感場景可選

Q4_K_M

16 GB

最小，單張 24GB 顯卡（4090/3090/RTX 6000）即可塞下

? 注意是"塞下"，不是"跑得動"；Unsloth 官方推薦總內存（RAM + VRAM）≥ 18 GB，這是包含 KV Cache 和 canvas 狀態緩沖區的最低要求

我個人的選擇建議：

24GB 單卡（4090/3090/RTX 6000）→ Q4_K_M（16GB 模型 + 8GB 留給 KV cache）
32GB 單卡（RTX 6000 Pro/V100 32G）→ Q8_0（精度最優）
Apple Silicon 統一內存（M2 Max/M3 Max 32G+）→ Q4_K_M 或 Q5_K_M
純 CPU + 大內存（64GB+）→ Q8_0，速度慢但精度穩

跑法一：llama. cpp 原生路線

這條路線適合喜歡命令行、想看清楚每個參數的玩家；關鍵點：必須用 PR 分支，不是 main——DiffusionGemma 是塊擴散架構，標準的llama-cli和llama-server還跑不起來

1. 編譯專用分支

git clone https://github. com/ggml-org/llama. cpp
cd llama. cpp
gh pr checkout 24423


 # CUDA 編譯（Apple Mac/Metal 改成 -DGGML_CUDA=OFF）
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli

注意編譯目標是llama-diffusion-cli這個新二進制，不是llama-cli；這是 Daniel Han 在 PR 里專門加的，因為擴散模型生成路徑完全不同

2. 下載 GGUF

pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
    --local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
    --include "Q4_K_M"   # 24GB 顯卡用這個

如果想跑 Q8_0 把*Q4_K_M*改成*Q8_0*即可

3. 啟動對話

./build/bin/llama-diffusion-cli \
  -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
  -ngl 99 -cnv -n 2048

參數解讀：

-ngl 99：所有層卸到 GPU（純 CPU 跑改-ngl 0）
-cnv：開啟多輪對話模式
-n 2048：目標 token 數；這個參數會自動推導--diffusion-blocks數量并擴展 batch / context 大小，所以你只需要管這一個長度參數

熵邊界采樣器（Entropy-Bound）默認開啟，這是 DiffusionGemma 推薦的標準配置——溫度 0.8 → 0.4 線性衰減、熵上限 0.1、最大去噪步數 48；直接用就行，調反而會掉分

下面是 llama-diffusion-cli 啟動后的樣子：

llama-diffusion-cli 啟動界面跑法二：Unsloth Studio 一鍵路線（推薦新手）

如果你不想折騰 cmake 編譯，Unsloth 6 月 12 號剛推了一個更新——Unsloth Studio 已經內置 DiffusionGemma 支持，不用自己編 llama. cpp

Unsloth Studio 是個開源的本地 AI Web UI，相當于 Ollama + Open WebUI 的合體，但是把推理和訓練做到了一個面板里；MacOS / Windows / Linux 都支持

安裝（任選一行）：

# MacOS / Linux / WSL
curl -fsSL https://unsloth. ai/install .sh | sh


 # Windows PowerShell
irm https://unsloth. ai/install .ps1 | iex

啟動 Web UI：

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://127.0.0.1:8888，第一次會讓你設個密碼（保護本地賬戶），登進去之后到 Studio Chat 標簽頁搜 "DiffusionGemma"，選量化版本下載，就能直接對話

最舒服的是：所有擴散采樣參數自動配好，不用記那串 entropy bound、temperature schedule、canvas length；新手黨直接起飛

下面是 Unsloth Studio 里跑 4-bit GGUF DiffusionGemma 并帶可執行代碼輸出的實際效果：

DiffusionGemma 在 Unsloth Studio 里運行王炸功能：實時看擴散去噪

這是我覺得 DiffusionGemma 這次最值得玩的東西——加一個--diffusion-visual參數，可以親眼看到 256 個 token 怎么從噪聲一點點收斂成答案：

./build/bin/llama-diffusion-cli \
  -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
  -ngl 99 -cnv -n 2048 --diffusion-visual

效果是這樣的：

diffusion-visual 實時去噪

整個畫布上的字符在屏幕上反復擦寫、收斂、定型，最后一次性"啪"地全部清晰——這才是擴散語言模型的靈魂可視化；flicker-free 設計，不會糊屏，scrollback 也不會亂

我自己看了三分鐘才反應過來：原來"擴散模型生成文本"不是一個比喻，它真的就在你眼前像圖像擴散模型一樣工作

微調也能玩了

更狠的是 Unsloth 把 DiffusionGemma 的微調鏈路也打通了；官方 demo 是用數獨數據集 finetune，下面這張前后對比圖很說明問題——基礎模型解數獨完全瞎填，微調之后能穩定解出每一道：

Sudoku 微調前后對比

官方提供了 Colab 筆記本（A100 即可），擴散采樣器、溫度調度、熵閾值這些擴散專屬參數全部預置；如果你手頭有領域數據（金融文檔、醫療報告、代碼庫），完全可以拿這套直接 SFT，把 DiffusionGemma 微調成你領域的快速生成專家

速度的代價

老板要冷靜，2000+ tok/s 聽起來很爽，但有幾個固有局限要提前知道：

首 Token 延遲（TTFT）依然偏高：擴散模型必須先把整個 256 token 的 canvas 去噪到位才會吐出第一個字；如果你做的是流式聊天 / 實時打字效果，TTFT 會讓用戶感覺"卡了一下"——這是架構層面沒法繞開的代價

并發上不去：擴散模型每路對話都要維護一塊 canvas × vocab_size 的狀態緩沖區，顯存占用是 AR 模型的好幾倍；本地單用戶場景沒問題，多并發服務直接勸退

精度比 Gemma 4 略低：MMLU Pro 77.6% vs 82.6%、AIME 2026 69.1% vs 88.3%、Codeforces ELO 1429 vs 1718——拿速度換了大約 5-15% 的精度；如果你做的是奧數級推理或競賽編程，老老實實跑 Gemma 4 自回歸版

llama. cpp PR 還沒合并主線：PR 目前在 draft 狀態，被 ggml-gh-bot 標記"過大"，社區也對 per-model server 設計有討論；短期內你只能在 Unsloth 的 PR 分支或 Unsloth Studio 里玩，原生 llama. cpp 還得等

誰適合

場景

是否推薦

24GB 單卡本地推理（4090/3090）

? 強烈推薦，Q4_K_M 起飛

Apple Silicon 大內存機器

? 推薦，Metal 默認支持

私有領域知識 SFT

? 推薦，擴散微調鏈路已通

想體驗擴散語言模型可視化

? 必玩--diffusion-visual

高并發 API 服務

? 別碰，AR 模型更合適

奧數 / 競賽級推理任務

? 跑 Gemma 4 26B AR 版

流式聊天 / 實時打字效果

? TTFT 太慢

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.