无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

谷歌最新大模型 DiffusionGemma 續集:Unsloth 把它壓到 18GB,單卡飆到 2000+ Token/s

0
分享至

大家好,我是 Ai 學習的老章

,當時 vLLM 在 H100 上跑出 1000+ tok/s 已經夠炸裂了,結果不到三天,Unsloth 直接把它壓成 GGUF,丟進 llama. cpp,單卡 2000+ tok/s 起飛——而且最低 18GB RAM 就能跑


這次有什么新東西

簡單說三句話:

  1. GGUF 來了:Unsloth 把 DiffusionGemma-26B-A4B-it 量化成 5 個 GGUF 版本,最小 16GB,24GB 顯卡一張就吃得下

  2. llama. cpp 上車:Daniel Han(Unsloth 創始人)給 llama .cpp 提了 PR ,新增了llama-diffusion-cli專用運行器

  3. 2000+ tok/s 實測:Unsloth 官方在 RTX 6000 上跑出了2000+ tokens/s的單請求速度,比 vLLM 在 H100 上的 1000 tok/s 還快一倍

也就是說,擴散式大模型從"云端 H100 專屬"直接下沉到了"消費級 24GB 顯卡",門檻低到離譜

用一張圖直觀感受一下這三天的變化:


DiffusionGemma 三天進化對比 量化版本怎么選

Unsloth 這次給了 5 檔量化,從 BF16 全精度到 Q4_K_M 都覆蓋了:

量化

體積

BF16

47 GB

全精度參考版,不建議日常用

Q8_0

25 GB

接近無損,推薦,單張 32GB+ 顯卡(如 RTX 6000 Pro / V100 32G)夠用

Q6_K

21 GB

折中選擇

Q5_K_M

18 GB

內存敏感場景可選

Q4_K_M

16 GB

最小,單張 24GB 顯卡(4090/3090/RTX 6000)即可塞下


? 注意是"塞下",不是"跑得動";Unsloth 官方推薦總內存(RAM + VRAM)≥ 18 GB,這是包含 KV Cache 和 canvas 狀態緩沖區的最低要求

我個人的選擇建議:

  • 24GB 單卡(4090/3090/RTX 6000)→ Q4_K_M(16GB 模型 + 8GB 留給 KV cache)

  • 32GB 單卡(RTX 6000 Pro/V100 32G)→ Q8_0(精度最優)

  • Apple Silicon 統一內存(M2 Max/M3 Max 32G+)→ Q4_K_M 或 Q5_K_M

  • 純 CPU + 大內存(64GB+)→ Q8_0,速度慢但精度穩

跑法一:llama. cpp 原生路線

這條路線適合喜歡命令行、想看清楚每個參數的玩家;關鍵點:必須用 PR 分支,不是 main——DiffusionGemma 是塊擴散架構,標準的llama-clillama-server還跑不起來

1. 編譯專用分支

git clone https://github. com/ggml-org/llama. cpp
cd llama. cpp
gh pr checkout 24423


# CUDA 編譯(Apple Mac/Metal 改成 -DGGML_CUDA=OFF)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli

注意編譯目標是llama-diffusion-cli這個新二進制,不是llama-cli;這是 Daniel Han 在 PR 里專門加的,因為擴散模型生成路徑完全不同

2. 下載 GGUF

pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
--local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
--include "Q4_K_M" # 24GB 顯卡用這個

如果想跑 Q8_0 把*Q4_K_M*改成*Q8_0*即可

3. 啟動對話

./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048

參數解讀:

  • -ngl 99:所有層卸到 GPU(純 CPU 跑改-ngl 0

  • -cnv:開啟多輪對話模式

  • -n 2048:目標 token 數;這個參數會自動推導--diffusion-blocks數量并擴展 batch / context 大小,所以你只需要管這一個長度參數

熵邊界采樣器(Entropy-Bound)默認開啟,這是 DiffusionGemma 推薦的標準配置——溫度 0.8 → 0.4 線性衰減、熵上限 0.1、最大去噪步數 48;直接用就行,調反而會掉分

下面是 llama-diffusion-cli 啟動后的樣子:


llama-diffusion-cli 啟動界面 跑法二:Unsloth Studio 一鍵路線(推薦新手)

如果你不想折騰 cmake 編譯,Unsloth 6 月 12 號剛推了一個更新——Unsloth Studio 已經內置 DiffusionGemma 支持,不用自己編 llama. cpp

Unsloth Studio 是個開源的本地 AI Web UI,相當于 Ollama + Open WebUI 的合體,但是把推理和訓練做到了一個面板里;MacOS / Windows / Linux 都支持


安裝(任選一行):

# MacOS / Linux / WSL
curl -fsSL https://unsloth. ai/install .sh | sh


# Windows PowerShell
irm https://unsloth. ai/install .ps1 | iex

啟動 Web UI:

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://127.0.0.1:8888,第一次會讓你設個密碼(保護本地賬戶),登進去之后到 Studio Chat 標簽頁搜 "DiffusionGemma",選量化版本下載,就能直接對話

最舒服的是:所有擴散采樣參數自動配好,不用記那串 entropy bound、temperature schedule、canvas length;新手黨直接起飛

下面是 Unsloth Studio 里跑 4-bit GGUF DiffusionGemma 并帶可執行代碼輸出的實際效果:



DiffusionGemma 在 Unsloth Studio 里運行 王炸功能:實時看擴散去噪

這是我覺得 DiffusionGemma 這次最值得玩的東西——加一個--diffusion-visual參數,可以親眼看到 256 個 token 怎么從噪聲一點點收斂成答案

./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048 --diffusion-visual

效果是這樣的:


diffusion-visual 實時去噪

整個畫布上的字符在屏幕上反復擦寫、收斂、定型,最后一次性"啪"地全部清晰——這才是擴散語言模型的靈魂可視化;flicker-free 設計,不會糊屏,scrollback 也不會亂

我自己看了三分鐘才反應過來:原來"擴散模型生成文本"不是一個比喻,它真的就在你眼前像圖像擴散模型一樣工作

微調也能玩了

更狠的是 Unsloth 把 DiffusionGemma 的微調鏈路也打通了;官方 demo 是用數獨數據集 finetune,下面這張前后對比圖很說明問題——基礎模型解數獨完全瞎填,微調之后能穩定解出每一道:


Sudoku 微調前后對比

官方提供了 Colab 筆記本(A100 即可),擴散采樣器、溫度調度、熵閾值這些擴散專屬參數全部預置;如果你手頭有領域數據(金融文檔、醫療報告、代碼庫),完全可以拿這套直接 SFT,把 DiffusionGemma 微調成你領域的快速生成專家

速度的代價

老板要冷靜,2000+ tok/s 聽起來很爽,但有幾個固有局限要提前知道:

首 Token 延遲(TTFT)依然偏高:擴散模型必須先把整個 256 token 的 canvas 去噪到位才會吐出第一個字;如果你做的是流式聊天 / 實時打字效果,TTFT 會讓用戶感覺"卡了一下"——這是架構層面沒法繞開的代價

并發上不去:擴散模型每路對話都要維護一塊 canvas × vocab_size 的狀態緩沖區,顯存占用是 AR 模型的好幾倍;本地單用戶場景沒問題,多并發服務直接勸退

精度比 Gemma 4 略低:MMLU Pro 77.6% vs 82.6%、AIME 2026 69.1% vs 88.3%、Codeforces ELO 1429 vs 1718——拿速度換了大約 5-15% 的精度;如果你做的是奧數級推理或競賽編程,老老實實跑 Gemma 4 自回歸版

llama. cpp PR 還沒合并主線:PR 目前在 draft 狀態,被 ggml-gh-bot 標記"過大",社區也對 per-model server 設計有討論;短期內你只能在 Unsloth 的 PR 分支或 Unsloth Studio 里玩,原生 llama. cpp 還得等

誰適合

場景

是否推薦

24GB 單卡本地推理(4090/3090)

? 強烈推薦,Q4_K_M 起飛

Apple Silicon 大內存機器

? 推薦,Metal 默認支持

私有領域知識 SFT

? 推薦,擴散微調鏈路已通

想體驗擴散語言模型可視化

? 必玩--diffusion-visual

高并發 API 服務

? 別碰,AR 模型更合適

奧數 / 競賽級推理任務

? 跑 Gemma 4 26B AR 版

流式聊天 / 實時打字效果

? TTFT 太慢

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

都市快報橙柿互動
2026-06-17 22:17:34
上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態回春

上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態回春

一個小豹子
2026-06-16 20:23:20
陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復婚

陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復婚

喜歡歷史的阿繁
2026-06-18 02:13:58
還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

史料布籍
2026-06-17 10:27:47
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

健康科普365
2026-05-09 21:05:04
有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

圣西羅的太陽
2026-06-17 12:07:38
在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

每日經濟新聞
2026-06-17 15:58:49
20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩中向好”?

20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩中向好”?

戧詞奪理
2026-06-17 16:00:17
離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
3-2!3-0!世聯賽:有驚無險,中國女排3:2逆轉德國女排

3-2!3-0!世聯賽:有驚無險,中國女排3:2逆轉德國女排

寶哥精彩賽事
2026-06-17 21:49:22
穆勒曬和梅西的合照:這家伙是goat

穆勒曬和梅西的合照:這家伙是goat

懂球帝
2026-06-17 11:44:39
烏軍在多戰場取得重大突破,俄軍節節敗退。

烏軍在多戰場取得重大突破,俄軍節節敗退。

世界探索發現
2026-04-22 01:08:43
特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

追星雷達站
2026-06-18 01:00:22
你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

夢醉為紅顏一笑
2026-06-12 20:44:29
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

明天后天大后天
2026-06-17 04:42:38
佛山徹底失守!廣東第三城易主

佛山徹底失守!廣東第三城易主

洞見報告
2026-05-02 18:55:22
特朗普突然表態:以色列不用停火,但必須"保持分寸"

特朗普突然表態:以色列不用停火,但必須"保持分寸"

桂系007
2026-06-17 23:50:23
官方:B席加盟皇馬,雙方簽約至2028年

官方:B席加盟皇馬,雙方簽約至2028年

懂球帝
2026-06-17 17:23:22
再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

一條
2026-06-17 11:25:07
2026-06-18 04:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

數碼要聞

存儲漲價的荒誕現實:一塊游戲機硬盤已能抵三臺完整主機

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

家居
本地
教育
公開課
軍事航空

家居要聞

綠意盎然 自然之境

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

教育要聞

認知天性|一本改變你人生的書

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版