網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能簡測

0
分享至

繼續看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的設備

  • CPU :Intel Xeon Platinum 8457C

  • 內存 :480 GiB

  • GPU :2 x NVIDIA H20,單卡顯存 96 GB

  • 驅動版本:580.126.09

  • CUDA 版本:13.0

  • 系統盤:100G

  • 數據盤:1T

1、模型下載

模型文件 160GB

國內網絡,模型下載

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 鏡像準備

安裝vllm-nightly我從沒有成功過,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、啟動腳本

大家也看到了,即便是 Flash,能跑得起的設備也很少,AMD 全軍覆沒

看了幾個 issues,消費級英偉達顯卡也都不配

上面的啟動腳本我的 2xH20 自然也不配,啟動 N 次,都是 OOM


不斷試錯之后,實際使用的腳本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默認 max seq len1048576,完全搞不動,所以我這里 --max-model-len 只設 7K


啟動正常,幾個日志關鍵信息分享一下:

1、模型原始 Safetensors 權重文件高達 148.66 GiB(EXT4 文件系統顯示的 size),但在啟用 FP8 量化 和 Expert Parallelism(EP) 后,單個 Worker 進程(Rank)加載的權重被壓縮到了 77.6 GiB

2、扣除權重和系統預留后,只剩下了約 9.29 GiB 用于緩存

3、并發能力,日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長文本(7k tokens)情況下,系統僅能支持約 3.72 個并發請求

4、模型總共有 256 個專家,通過并行配置,每個 Worker 維護 128 個。這樣做既利用了多卡的算力,又分攤了專家權重的顯存壓力

5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨門絕技”,通過低秩壓縮技術(Multi-head Latent Attention),在 FP8 模式下極大地緩解了內存帶寬壓力(擴展閱讀:)

6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內核的編譯

7、啟動速度:整個引擎初始化(Profile + Cache 創建 + Warmup)耗時約 233 秒。對于這種規模的模型,這個速度表現尚可,大部分時間花在了 DeepGEMM warmup(2 分 36 秒)


性能情況

效果就別追求了,看看性能


平均生成速度 8.33!!!遙遙領先的卡嗎?

哦哦,不對是 H20

難以置信,要知道我測試

關閉思考

查了一下 DeepSeek API 文檔,可以關閉思考


寫了一個腳本再測、,對比思考與非思考下性能,各跑 10 次取平均,同樣的 prompt,max_tokens=1024

結果如下:


再見,浪費了寶貴的幾個小時!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
65至85歲抓緊4月申報,錯過又要等一整年時間!

65至85歲抓緊4月申報,錯過又要等一整年時間!

小蜜情感說
2026-04-25 13:08:24
白宮晚宴槍擊發生地是里根遇刺酒店

白宮晚宴槍擊發生地是里根遇刺酒店

界面新聞
2026-04-26 11:54:58
自動售賣機,竟也能如此性感?

自動售賣機,竟也能如此性感?

貴圈真亂
2026-04-26 11:39:47
雷軍“被圍堵維權”?知情人士:造謠者被行拘十日

雷軍“被圍堵維權”?知情人士:造謠者被行拘十日

每日經濟新聞
2026-04-26 00:35:05
保時捷純電 Cayenne Turbo上市,111.8萬起售

保時捷純電 Cayenne Turbo上市,111.8萬起售

新京報
2026-04-26 13:28:22
70歲老人哭訴:請親戚當住家保姆,本以為很靠譜,結果卻很窩火

70歲老人哭訴:請親戚當住家保姆,本以為很靠譜,結果卻很窩火

烙任情感
2026-04-25 11:41:04
北京一男子夜晚爬樹摘香椿掉落被卡,次日清晨才被發現,肢體受壓、倒掛懸空達7個多小時……

北京一男子夜晚爬樹摘香椿掉落被卡,次日清晨才被發現,肢體受壓、倒掛懸空達7個多小時……

環球網資訊
2026-04-25 12:28:19
身價暴漲!季后賽這5位球員打出了價值

身價暴漲!季后賽這5位球員打出了價值

舟望停云
2026-04-25 21:09:48
澳洲首創! 全新癌癥治療法重磅突破: 不化療, 不手術, 能治愈80%癌癥, 已開始人體實驗!

澳洲首創! 全新癌癥治療法重磅突破: 不化療, 不手術, 能治愈80%癌癥, 已開始人體實驗!

澳微Daily
2026-04-25 15:43:13
35歲離婚,因嗜酒家財散盡,50歲中年又喪女,如今66歲騰格爾如何

35歲離婚,因嗜酒家財散盡,50歲中年又喪女,如今66歲騰格爾如何

白面書誏
2026-04-25 15:13:17
雅迪電動車集體鎖死:智能系統的代價

雅迪電動車集體鎖死:智能系統的代價

算力游俠
2026-04-23 15:12:24
歐爾班宣布退出匈牙利國會

歐爾班宣布退出匈牙利國會

參考消息
2026-04-26 13:18:23
中國籍32歲男子在日本公交車站縱火!致使候車室全部燒毀,疑似還放火燒度假酒店!

中國籍32歲男子在日本公交車站縱火!致使候車室全部燒毀,疑似還放火燒度假酒店!

東京新青年
2026-04-25 18:07:25
馬蹄露緊急發文澄清信息量不少,評論區兩極分化,還有更可怕一幕

馬蹄露緊急發文澄清信息量不少,評論區兩極分化,還有更可怕一幕

冷紫葉
2026-04-25 19:18:16
生理旺盛的女性,大多有這3個特征,超準!

生理旺盛的女性,大多有這3個特征,超準!

皓皓情感說
2026-04-25 19:09:10
后悔嗎?狂砍43分悍將曾接近火箭 公牛要價伊森被火箭拒絕

后悔嗎?狂砍43分悍將曾接近火箭 公牛要價伊森被火箭拒絕

驚奇侃球
2026-04-26 13:02:41
湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

莫地方
2026-04-24 00:10:03
《八千里路云和月》大結局:張云魁犧牲,萬福也死了?玉嬌意難平

《八千里路云和月》大結局:張云魁犧牲,萬福也死了?玉嬌意難平

宇林網絡
2026-04-26 09:28:20
東方甄選 “剩者為王”!YOYO 熬走所有對手,終成獨苗主播

東方甄選 “剩者為王”!YOYO 熬走所有對手,終成獨苗主播

南萬說娛26
2026-04-26 10:54:10
把孫楊請來參加《妻子的浪漫旅行2026》的人,可真是一個天才!

把孫楊請來參加《妻子的浪漫旅行2026》的人,可真是一個天才!

八卦南風
2026-04-25 10:26:26
2026-04-26 13:55:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3351文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

時尚
手機
本地
家居
數碼

IU的臉,真的有自己的時間線

手機要聞

iPhone 17 Pro Max重回榜首,W16周單品Top30分析

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

家居要聞

自然肌理 溫潤美學

數碼要聞

同檔最強小平板!OPPO Pad Mini下周首銷:3199元起

無障礙瀏覽 進入關懷版