網易首頁 > 網易號 > 正文 申請入駐

英偉達加速版 Qwen3.6-35B,雙4090本地部署,性能實測

0
分享至

前文:,我用 vLLM 部署的這個版本


本文測下 Red Hat 量化團隊 Qwen3.6-35B-A3B-NVFP4(4-bit 浮點)的性能

NVFP4 量化版:Red Hat 出品
模型地址:huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

這個 NVFP4 版本由 Red Hat AI 團隊使用 llm-compressor 完成量化

? llm-compressor 是 vLLM 項目下的量化工具庫,專門為 vLLM 推理做優化,支持 GPTQ、AWQ、SmoothQuant、FP8、NVFP4 等多種方案

NVFP4 的核心:權重和激活都量化到 FP4(W4A4),使用 E2M1 格式 + 16 元素微塊縮放

Red Hat 跑了 GSM8K Platinum 評測,初步結果相當驚艷:

版本

GSM8K Platinum 準確率

原版 BF16

NVFP4 量化版

恢復率

100.69%

量化后精度居然比原版高了一丟丟

當然這有統計波動因素,但至少說明 NVFP4 量化對精度的損失可以忽略不計

實測部署:vLLM + Docker

我在雙 4090 GPU 服務器上用 Docker + vLLM 部署了這個模型

Docker 啟動命令

docker run -d --name qwen36-35b-a3b-int4 \
--gpus all \
-v /data/llm-models/Qwen3.6-35B-A3B-NVFP4:/model \
-p 8000:8000 \
vllm/vllm-openai:v0.19.1 \
--model /model \
--served-model-name qwen3.6-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--enable-prefix-caching \
--language-model-only \
--max-num-batched-tokens 8192 \
--max-num-seqs 24 \
--default-chat-template-kwargs '{"enable_thinking": false}'

幾個關鍵參數說明

  • --tensor-parallel-size 2:雙卡張量并行

  • --kv-cache-dtype fp8:KV Cache 用 FP8 存儲,進一步節省顯存

  • --language-model-only:跳過視覺編碼器,把顯存省給 KV Cache

  • --enable-prefix-caching:開啟前綴緩存加速

  • --default-chat-template-kwargs '{"enable_thinking": false}':默認關閉思考模式,需要的時候再開

部署數據一覽

從啟動日志里扒出來的關鍵數據:

指標

數值

vLLM 版本

0.19.1

模型加載耗時

24 秒

模型顯存占用10.61 GiB

(每卡)

torch.compile 編譯耗時

39.49 秒

初始化總耗時

136.49 秒

GPU KV Cache 容量

494,656 tokens

最大并發(102K 上下文)

17.18x

CUDA Graph 顯存

0.81 GiB


非 Blackwell GPU 跑 NVFP4

WARNING: Your GPU does not have native support for FP4 computation 
but FP4 quantization is being used. Weight-only FP4 compression
will be used leveraging the Marlin kernel. This may degrade
performance for compute-heavy workloads.

我的 GPU 設備能力是 8.9(Ada Lovelace 架構),不支持原生 FP4 計算

vLLM 自動退回到Marlin 內核做 weight-only FP4 解壓——推理時權重從 FP4 解壓到高精度再參與計算,激活量化的加速效果就沒了

GPU 架構

FP4 原生支持

NVFP4 實際行為

Blackwell (B100/B200)

支持

W4A4 全量化加速

Hopper (H100/H200)

不支持

Weight-only + Marlin 解壓

Ada (L40S/4090)不支持Weight-only + Marlin 解壓

所以如果你和我一樣用 Ada 架構的 GPU,NVFP4 的核心收益是省顯存

推理速度的提升主要來自模型變小后降低的內存帶寬需求,要拿到 NVFP4 真正的 W4A4 全量化加速,需要 Blackwell GPU

還有兩個值得留意的細節:

  • Mamba Cache 實驗性支持:日志里提示 prefix caching 對 Mamba 層的支持還在實驗階段。Qwen3.6 用了 Gated DeltaNet(一種線性注意力變體),vLLM 對這類層的緩存機制還在打磨中

  • Custom AllReduce 被禁用:因為 GPU 之間不支持 P2P 直連,退回到 NCCL 通信。多卡并行的效率會有一點點損失

對比前文同為 vLLM 0.19.1 拉起的 Qwen3.6-35B-A3B-AWQ-4bit

各方面都有提升


部署建議

硬件選擇

  • 最低 2x RTX 4090(24GB),可以跑 100K 上下文,或許可以更高,我沒再加

  • 有 Blackwell GPU 的話能獲得最完整的 NVFP4 加速

推理框架

  • vLLM 版本 0.19.0 以上,推薦 0.19.1,前文我也測了 v0.17 也可以

  • 官方同時支持 SGLang 和 KTransformers

采樣參數建議

  • Thinking 模式:temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

  • 精確編程任務:temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0.0

  • 非思考模式:temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5

Agent 場景推薦開啟preserve_thinking,能在多輪對話中保留思維鏈上下文,減少重復推理的 token 消耗

.6

制作不易,如果這篇文章對你有幫助,可否幫我個忙。給我個三連擊:點贊、轉發和在看。若可以再給我加個星標,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

小祁談歷史
2026-04-24 05:23:52
一位漂亮素雅的新娘子!

一位漂亮素雅的新娘子!

情感大頭說說
2026-04-24 04:45:22
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

小椰的奶奶
2026-04-23 14:52:12
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
更大規模海戰來了?

更大規模海戰來了?

中國新聞周刊
2026-04-22 20:50:08
段睿深夜悲痛發文:再也沒有人等我回去了!

段睿深夜悲痛發文:再也沒有人等我回去了!

原夢叁生
2026-04-22 20:06:36
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

離離言幾許
2026-04-24 07:12:13
她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

混沌錄
2026-04-23 17:11:04
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

今朝牛馬
2026-04-23 23:23:59
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

游古史
2026-04-24 04:01:53
10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

環球網資訊
2026-04-23 19:39:20
高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

瘋狂小菠蘿
2026-04-23 14:27:12
2026-04-24 09:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

數碼
房產
教育
手機
健康

數碼要聞

榮耀新平板發布,全球最薄OLED,起步價3499元

房產要聞

三亞安居房,突然官宣!

教育要聞

相似無刻度直尺作圖,一個視頻學會!

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版