網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-V4-Flash 本地部署，2 x H20（96GB版本），性能簡(jiǎn)測(cè)

2026-04-26 00:10:33　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

繼續(xù)看看 V4，本文看下 DeepSeek-V4-Flash 本地部署

我的設(shè)備

CPU ：Intel Xeon Platinum 8457C
內(nèi)存 ：480 GiB
GPU ：2 x NVIDIA H20，單卡顯存 96 GB
驅(qū)動(dòng)版本：580.126.09
CUDA 版本：13.0
系統(tǒng)盤：100G
數(shù)據(jù)盤：1T

1、模型下載

模型文件 160GB

國(guó)內(nèi)網(wǎng)絡(luò)，模型下載

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash

2、vLLM Docker 鏡像準(zhǔn)備

安裝vllm-nightly我從沒有成功過，只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、啟動(dòng)腳本

大家也看到了，即便是 Flash，能跑得起的設(shè)備也很少，AMD 全軍覆沒

看了幾個(gè) issues，消費(fèi)級(jí)英偉達(dá)顯卡也都不配

上面的啟動(dòng)腳本我的 2xH20 自然也不配，啟動(dòng) N 次，都是 OOM

不斷試錯(cuò)之后，實(shí)際使用的腳本：

docker run -d \
  --name vllm-deepseek-v4-flash \
  --restart unless-stopped \
  --gpus all \
  --privileged \
  --ipc=host \
  -p 8000:8000 \
  -v /data/models:/models:ro \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu129 \
  /models/DeepSeek-V4-Flash \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 7000 \
  --tokenizer-mode deepseek_v4 \
  --tool-call-parser deepseek_v4 \
  --enable-auto-tool-choice \
  --enforce-eager

模型默認(rèn) max seq len 是 1048576，完全搞不動(dòng)，所以我這里 --max-model-len 只設(shè) 7K

啟動(dòng)正常，幾個(gè)日志關(guān)鍵信息分享一下：

1、模型原始 Safetensors 權(quán)重文件高達(dá) 148.66 GiB（EXT4 文件系統(tǒng)顯示的 size），但在啟用 FP8 量化和 Expert Parallelism(EP) 后，單個(gè) Worker 進(jìn)程（Rank）加載的權(quán)重被壓縮到了 77.6 GiB

2、扣除權(quán)重和系統(tǒng)預(yù)留后，只剩下了約 9.29 GiB 用于緩存

3、并發(fā)能力，日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長(zhǎng)文本（7k tokens）情況下，系統(tǒng)僅能支持約 3.72 個(gè)并發(fā)請(qǐng)求

4、模型總共有 256 個(gè)專家，通過并行配置，每個(gè) Worker 維護(hù) 128 個(gè)。這樣做既利用了多卡的算力，又分?jǐn)偭藢＜覚?quán)重的顯存壓力

5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨(dú)門絕技”，通過低秩壓縮技術(shù)（Multi-head Latent Attention），在 FP8 模式下極大地緩解了內(nèi)存帶寬壓力（擴(kuò)展閱讀：）

6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內(nèi)核的編譯

7、啟動(dòng)速度：整個(gè)引擎初始化（Profile + Cache 創(chuàng)建 + Warmup）耗時(shí)約 233 秒。對(duì)于這種規(guī)模的模型，這個(gè)速度表現(xiàn)尚可，大部分時(shí)間花在了 DeepGEMM warmup（2 分 36 秒）

性能情況

效果就別追求了，看看性能

平均生成速度 8.33！！！遙遙領(lǐng)先的卡嗎？

哦哦，不對(duì)是 H20

難以置信，要知道我測(cè)試

關(guān)閉思考

查了一下 DeepSeek API 文檔，可以關(guān)閉思考

寫了一個(gè)腳本再測(cè)、，對(duì)比思考與非思考下性能，各跑 10 次取平均，同樣的 prompt，max_tokens=1024

結(jié)果如下：

再見，浪費(fèi)了寶貴的幾個(gè)小時(shí)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.