繼續(xù)看看 V4,本文看下 DeepSeek-V4-Flash 本地部署
我的設(shè)備
CPU :Intel Xeon Platinum 8457C
內(nèi)存 :480 GiB
GPU :2 x NVIDIA H20,單卡顯存 96 GB
驅(qū)動(dòng)版本:580.126.09
CUDA 版本:13.0
系統(tǒng)盤:100G
數(shù)據(jù)盤:1T
模型文件 160GB
國(guó)內(nèi)網(wǎng)絡(luò),模型下載
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 鏡像準(zhǔn)備安裝vllm-nightly我從沒有成功過,只有Docker最省心
docker pull vllm/vllm-openai:deepseekv4-cu129
3、啟動(dòng)腳本 ![]()
大家也看到了,即便是 Flash,能跑得起的設(shè)備也很少,AMD 全軍覆沒
看了幾個(gè) issues,消費(fèi)級(jí)英偉達(dá)顯卡也都不配
上面的啟動(dòng)腳本我的 2xH20 自然也不配,啟動(dòng) N 次,都是 OOM
![]()
不斷試錯(cuò)之后,實(shí)際使用的腳本:
docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager
模型默認(rèn) max seq len 是 1048576,完全搞不動(dòng),所以我這里 --max-model-len 只設(shè) 7K
![]()
啟動(dòng)正常,幾個(gè)日志關(guān)鍵信息分享一下:
1、模型原始 Safetensors 權(quán)重文件高達(dá) 148.66 GiB(EXT4 文件系統(tǒng)顯示的 size),但在啟用 FP8 量化 和 Expert Parallelism(EP) 后,單個(gè) Worker 進(jìn)程(Rank)加載的權(quán)重被壓縮到了 77.6 GiB
2、扣除權(quán)重和系統(tǒng)預(yù)留后,只剩下了約 9.29 GiB 用于緩存
3、并發(fā)能力,日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長(zhǎng)文本(7k tokens)情況下,系統(tǒng)僅能支持約 3.72 個(gè)并發(fā)請(qǐng)求
4、模型總共有 256 個(gè)專家,通過并行配置,每個(gè) Worker 維護(hù) 128 個(gè)。這樣做既利用了多卡的算力,又分?jǐn)偭藢<覚?quán)重的顯存壓力
5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨(dú)門絕技”,通過低秩壓縮技術(shù)(Multi-head Latent Attention),在 FP8 模式下極大地緩解了內(nèi)存帶寬壓力(擴(kuò)展閱讀:)
6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內(nèi)核的編譯
7、啟動(dòng)速度:整個(gè)引擎初始化(Profile + Cache 創(chuàng)建 + Warmup)耗時(shí)約 233 秒。對(duì)于這種規(guī)模的模型,這個(gè)速度表現(xiàn)尚可,大部分時(shí)間花在了 DeepGEMM warmup(2 分 36 秒)
![]()
性能情況
效果就別追求了,看看性能
![]()
平均生成速度 8.33!!!遙遙領(lǐng)先的卡嗎?
哦哦,不對(duì)是 H20
難以置信,要知道我測(cè)試
關(guān)閉思考
查了一下 DeepSeek API 文檔,可以關(guān)閉思考
![]()
寫了一個(gè)腳本再測(cè)、,對(duì)比思考與非思考下性能,各跑 10 次取平均,同樣的 prompt,max_tokens=1024
結(jié)果如下:
![]()
再見,浪費(fèi)了寶貴的幾個(gè)小時(shí)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.