最近 HuggingFace 上有個 DeepSeek V4 Flash 量化版 突然火了——更狠的是,作者是 antirez(Redis 作者 Salvatore Sanfilippo)
我查了一下 Hugging Face 模型倉庫,下載量已經(jīng) 26 萬+
![]()
老 Redis 用戶看到這名字應該會愣一下:他怎么跑去做大模型推理引擎了?
簡介
事情其實是這樣的:antirez 同步開源了兩件配套的事:
DeepSeek V4 Flash 的專用量化版 GGUF :托管在
huggingface.co/antirez/deepseek-v4-ggufDwarfStar 4(簡稱 ds4) :一個 專門為 DeepSeek V4 Flash 設(shè)計 的推理引擎,托管在
github.com/antirez/ds4
注意定語:ds4 不是通用 GGUF runner,也不是某個 runtime 的 wrapper——它是為 DSv4 Flash 量身打造、完全自包含的引擎,這種"一個模型一個引擎"的做法在當前生態(tài)里挺反潮流的
為什么是 DeepSeek V4 Flash 值得這么干
antirez 在 README 里給了 8 條理由,我挑硬核的幾條:
更少的激活參數(shù) → 更快
Thinking 模式下,思考長度跟問題復雜度成正比 ——文檔里寫"thinking section 在很多情況下只有其他模型的 1/5",對實際使用感受影響巨大
上下文窗口 100 萬 token
284B 總參數(shù) ,在知識邊緣采樣時明顯比 27B / 35B 這種小密集模型懂得多
**英語和意大利語寫作都"接近 frontier model 的感覺"**(antirez 是意大利人,這條評價比較真實)
KV cache 壓縮極致 ——這是 DSv4 在長 context + 本地推理上的殺手锏
特殊量化方法下 2bit 也能用 ——128GB 內(nèi)存的 MacBook 跑得動, 96GB 也有人實測可行 ,部分人甚至跑到 250k context
DeepSeek 大概率會持續(xù)放 v4 Flash 的更新版本
整篇 README 我讀下來感覺是:antirez 真的喜歡這個模型,所以才愿意花精力做一個"專用引擎+專用量化"的組合
量化方案(這部分是干貨)
倉庫里現(xiàn)在主要有幾類文件:
文件
適合場景
量化重點
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-...-v2-imatrix.gguf
96GB / 128GB RAM 機器優(yōu)先試
路由 MoE 專家里 gate/up 用 IQ2_XXS ,down 用 Q2_K
DeepSeek-V4-Flash-Q4KExperts-...-v2-imatrix.gguf
256GB+ RAM 機器
路由專家用 Q4_K ,質(zhì)量更穩(wěn),體積更大
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf
可選 MTP 支持
不能單獨跑,搭配主模型做投機解碼實驗
imatrix/DeepSeek-V4-Flash-chat-v2-routed-moe-ds4-1p5m.dat
量化校準數(shù)據(jù)
給 imatrix 版本服務
怎么挑:
96GB / 128GB Mac :優(yōu)先用
q2-imatrix≥ 256GB 內(nèi)存機器 :優(yōu)先用
q4-imatrixMTP :搭配前兩者做投機解碼實驗,README 里說目前最多是輕微加速
legacy 版本 :
q2/q4還在,但現(xiàn)在腳本里更推薦 imatrix 版本
量化思路里有一段我特別認同:
? 路由專家占了模型參數(shù)的大頭,但每個專家只處理一小部分 token,激進量化它們造成的平均質(zhì)量損失,遠小于對 router、投影矩陣、共享專家做同等量化,把"決策類組件"保留在 Q8_0,能完整保留模型行為;同時壓扁專家來換體積
簡單說:該壓的地方狠壓,不該壓的地方一點不讓——比一刀切的"統(tǒng)一 Q4"高級太多
推理引擎 ds4
git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2-imatrix # 96 / 128 GB RAM 機器
./download_model.sh q4-imatrix # >= 256 GB RAM 機器
./download_model.sh mtp # 可選:MTP 投機解碼實驗
make # macOS Metal./ds4 -p "Explain Redis streams in one paragraph."
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
CUDA 機器走這兩條:
make cuda-spark # DGX Spark / GB10
make cuda-generic # 普通 CUDA 機器
特性亮點:
Metal 是主力后端 :96GB 起的 MacBook 是目標硬件
NVIDIA CUDA :對 DGX Spark 有特殊優(yōu)化
AMD ROCm :在單獨的
rocm分支,社區(qū)維護(antirez 沒 ROCm 硬件)HTTP API server 內(nèi)置 :開箱對接 Coding Agent
KV cache 一等公民可寫盤 :DSv4 的壓縮 KV + Mac 的快速 SSD 讓這件事可行——
--kv-disk-dir+--kv-disk-space-mb直接落盤Logits 與官方實現(xiàn)對齊驗證 :在不同 context size 上驗證,保證量化推理的正確性
1. "一個模型一個引擎"的窄路徑
antirez 自己在 README 里說得很直白:本地推理領(lǐng)域項目很多,但新模型不停出,注意力立刻被新模型搶走,他選了相反的方向——只押一個模型,做到端到端打磨
2. KV cache 是磁盤公民,不是內(nèi)存公民
這是一個反直覺但很務實的判斷:DSv4 的 KV cache 極度壓縮,結(jié)合現(xiàn)代 Mac 的高速 SSD,把 KV 當作 disk-first 資源處理,才有可能在消費級 Mac 上跑 100k+ context
3. GPT 5.5 + 人類作者共建
antirez 自己強調(diào)了一句:這個項目是在 GPT 5.5 強力輔助下、由人主導思路/測試/調(diào)試完成的,如果對 AI 寫的代碼有潔癖,這個項目可能不適合你——但 antirez 把這事兒亮在 README 第一段,這種坦誠就很 Redis 作者
4. 致敬 llama.cpp / GGML
README 里專門說"沒有 llama.cpp 和 GGML 這個項目就不存在"——感謝 Georgi Gerganov 和所有貢獻者,一個 OG 程序員對另一個 OG 程序員的真誠
我的幾點感受
1. 真大佬玩的就是手感
這事兒不像商業(yè)項目,更像 antirez "我就想讓我那臺 MacBook 跑得最爽"的私房作品,但因為他是 antirez,做出來的東西自帶工程美學
2. 量化思路值得學習
不要"一刀 Q4 切下去",要按"參數(shù)貢獻度 + 處理 token 量"分層處理,這套方法論以后會越來越主流
3. macOS / 高內(nèi)存 Mac 用戶:值得裝
如果你恰好有一臺 96GB / 128GB / 192GB 內(nèi)存的 Mac,又喜歡 DeepSeek V4 Flash,這套組合是當前能找到的"最爽配置"之一
4. 通用性差是事實
不要指望它能跑 Qwen、Llama、其他 DeepSeek——它就只跑 V4 Flash,換模型就得換引擎
總結(jié)
ds4 + DeepSeek V4 Flash GGUF 這套組合,是"專用化"思路的一次有趣實驗:砍掉通用性,換來端到端的絲滑,再加上 antirez 這個名字加成,關(guān)注度自然就來了
如果你正好滿足"高內(nèi)存 Mac + 喜歡折騰本地大模型 + 對 DeepSeek 有偏愛"三個條件,強烈推薦試一下,裝完跑出來 100k context、磁盤 KV、Metal 加速的那個瞬間,會覺得很有意思
制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注,給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看,若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.