網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek V4 Flash 量化版火了

2026-05-17 18:20:40　來源: Ai學習的老章

北京舉報

分享至

最近 HuggingFace 上有個 DeepSeek V4 Flash 量化版 突然火了——更狠的是，作者是 antirez（Redis 作者 Salvatore Sanfilippo）

我查了一下 Hugging Face 模型倉庫，下載量已經(jīng) 26 萬+

老 Redis 用戶看到這名字應該會愣一下：他怎么跑去做大模型推理引擎了？

簡介

事情其實是這樣的：antirez 同步開源了兩件配套的事：

DeepSeek V4 Flash 的專用量化版 GGUF ：托管在 huggingface.co/antirez/deepseek-v4-gguf
DwarfStar 4（簡稱 ds4） ：一個 專門為 DeepSeek V4 Flash 設(shè)計 的推理引擎，托管在 github.com/antirez/ds4

注意定語：ds4 不是通用 GGUF runner，也不是某個 runtime 的 wrapper——它是為 DSv4 Flash 量身打造、完全自包含的引擎，這種"一個模型一個引擎"的做法在當前生態(tài)里挺反潮流的

為什么是 DeepSeek V4 Flash 值得這么干

antirez 在 README 里給了 8 條理由，我挑硬核的幾條：

更少的激活參數(shù) → 更快
Thinking 模式下，思考長度跟問題復雜度成正比 ——文檔里寫"thinking section 在很多情況下只有其他模型的 1/5"，對實際使用感受影響巨大
上下文窗口 100 萬 token
284B 總參數(shù) ，在知識邊緣采樣時明顯比 27B / 35B 這種小密集模型懂得多
**英語和意大利語寫作都"接近 frontier model 的感覺"**（antirez 是意大利人，這條評價比較真實）
KV cache 壓縮極致 ——這是 DSv4 在長 context + 本地推理上的殺手锏
特殊量化方法下 2bit 也能用 ——128GB 內(nèi)存的 MacBook 跑得動， 96GB 也有人實測可行 ，部分人甚至跑到 250k context
DeepSeek 大概率會持續(xù)放 v4 Flash 的更新版本

整篇 README 我讀下來感覺是：antirez 真的喜歡這個模型，所以才愿意花精力做一個"專用引擎+專用量化"的組合

量化方案（這部分是干貨）

倉庫里現(xiàn)在主要有幾類文件：

文件

適合場景

量化重點

DeepSeek-V4-Flash-IQ2XXS-w2Q2K-...-v2-imatrix.gguf

96GB / 128GB RAM 機器優(yōu)先試

路由 MoE 專家里 gate/up 用 IQ2_XXS ，down 用 Q2_K

DeepSeek-V4-Flash-Q4KExperts-...-v2-imatrix.gguf

256GB+ RAM 機器

路由專家用 Q4_K ，質(zhì)量更穩(wěn)，體積更大

DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf

可選 MTP 支持

不能單獨跑，搭配主模型做投機解碼實驗

imatrix/DeepSeek-V4-Flash-chat-v2-routed-moe-ds4-1p5m.dat

量化校準數(shù)據(jù)

給 imatrix 版本服務

怎么挑：

96GB / 128GB Mac ：優(yōu)先用 q2-imatrix
≥ 256GB 內(nèi)存機器 ：優(yōu)先用 q4-imatrix
MTP ：搭配前兩者做投機解碼實驗，README 里說目前最多是輕微加速
legacy 版本 ： q2 / q4 還在，但現(xiàn)在腳本里更推薦 imatrix 版本

DeepSeek V4 Flash 和 ds4 部署棧

量化思路里有一段我特別認同：

? 路由專家占了模型參數(shù)的大頭，但每個專家只處理一小部分 token，激進量化它們造成的平均質(zhì)量損失，遠小于對 router、投影矩陣、共享專家做同等量化，把"決策類組件"保留在 Q8_0，能完整保留模型行為；同時壓扁專家來換體積

簡單說：該壓的地方狠壓，不該壓的地方一點不讓——比一刀切的"統(tǒng)一 Q4"高級太多

推理引擎 ds4

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2-imatrix    # 96 / 128 GB RAM 機器
./download_model.sh q4-imatrix    # >= 256 GB RAM 機器
./download_model.sh mtp           # 可選：MTP 投機解碼實驗
make                              # macOS Metal


 ./ds4 -p "Explain Redis streams in one paragraph."
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

CUDA 機器走這兩條：

make cuda-spark     # DGX Spark / GB10
make cuda-generic   # 普通 CUDA 機器

特性亮點：

Metal 是主力后端 ：96GB 起的 MacBook 是目標硬件
NVIDIA CUDA ：對 DGX Spark 有特殊優(yōu)化
AMD ROCm ：在單獨的 rocm 分支，社區(qū)維護（antirez 沒 ROCm 硬件）
HTTP API server 內(nèi)置 ：開箱對接 Coding Agent
KV cache 一等公民可寫盤 ：DSv4 的壓縮 KV + Mac 的快速 SSD 讓這件事可行—— --kv-disk-dir + --kv-disk-space-mb 直接落盤
Logits 與官方實現(xiàn)對齊驗證 ：在不同 context size 上驗證，保證量化推理的正確性

這個項目的幾個獨特之處

1. "一個模型一個引擎"的窄路徑

antirez 自己在 README 里說得很直白：本地推理領(lǐng)域項目很多，但新模型不停出，注意力立刻被新模型搶走，他選了相反的方向——只押一個模型，做到端到端打磨

2. KV cache 是磁盤公民，不是內(nèi)存公民

這是一個反直覺但很務實的判斷：DSv4 的 KV cache 極度壓縮，結(jié)合現(xiàn)代 Mac 的高速 SSD，把 KV 當作 disk-first 資源處理，才有可能在消費級 Mac 上跑 100k+ context

3. GPT 5.5 + 人類作者共建

antirez 自己強調(diào)了一句：這個項目是在 GPT 5.5 強力輔助下、由人主導思路/測試/調(diào)試完成的，如果對 AI 寫的代碼有潔癖，這個項目可能不適合你——但 antirez 把這事兒亮在 README 第一段，這種坦誠就很 Redis 作者

4. 致敬 llama.cpp / GGML

README 里專門說"沒有 llama.cpp 和 GGML 這個項目就不存在"——感謝 Georgi Gerganov 和所有貢獻者，一個 OG 程序員對另一個 OG 程序員的真誠

我的幾點感受

1. 真大佬玩的就是手感

這事兒不像商業(yè)項目，更像 antirez "我就想讓我那臺 MacBook 跑得最爽"的私房作品，但因為他是 antirez，做出來的東西自帶工程美學

2. 量化思路值得學習

不要"一刀 Q4 切下去"，要按"參數(shù)貢獻度 + 處理 token 量"分層處理，這套方法論以后會越來越主流

3. macOS / 高內(nèi)存 Mac 用戶：值得裝

如果你恰好有一臺 96GB / 128GB / 192GB 內(nèi)存的 Mac，又喜歡 DeepSeek V4 Flash，這套組合是當前能找到的"最爽配置"之一

4. 通用性差是事實

不要指望它能跑 Qwen、Llama、其他 DeepSeek——它就只跑 V4 Flash，換模型就得換引擎

總結(jié)

ds4 + DeepSeek V4 Flash GGUF 這套組合，是"專用化"思路的一次有趣實驗：砍掉通用性，換來端到端的絲滑，再加上 antirez 這個名字加成，關(guān)注度自然就來了

如果你正好滿足"高內(nèi)存 Mac + 喜歡折騰本地大模型 + 對 DeepSeek 有偏愛"三個條件，強烈推薦試一下，裝完跑出來 100k context、磁盤 KV、Metal 加速的那個瞬間，會覺得很有意思

制作不易，如果這篇文章覺得對你有用，可否點個關(guān)注，給我個三連擊：點贊、轉(zhuǎn)發(fā)和在看，若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.