前文:,我用 vLLM 部署的這個版本
![]()
本文測下 Red Hat 量化團隊 Qwen3.6-35B-A3B-NVFP4(4-bit 浮點)的性能
NVFP4 量化版:Red Hat 出品![]()
模型地址:huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4
這個 NVFP4 版本由 Red Hat AI 團隊使用 llm-compressor 完成量化
? llm-compressor 是 vLLM 項目下的量化工具庫,專門為 vLLM 推理做優化,支持 GPTQ、AWQ、SmoothQuant、FP8、NVFP4 等多種方案
NVFP4 的核心:權重和激活都量化到 FP4(W4A4),使用 E2M1 格式 + 16 元素微塊縮放
Red Hat 跑了 GSM8K Platinum 評測,初步結果相當驚艷:
版本
GSM8K Platinum 準確率
原版 BF16
NVFP4 量化版
恢復率
100.69%
量化后精度居然比原版高了一丟丟
當然這有統計波動因素,但至少說明 NVFP4 量化對精度的損失可以忽略不計
實測部署:vLLM + Docker
我在雙 4090 GPU 服務器上用 Docker + vLLM 部署了這個模型
Docker 啟動命令:
docker run -d --name qwen36-35b-a3b-int4 \
--gpus all \
-v /data/llm-models/Qwen3.6-35B-A3B-NVFP4:/model \
-p 8000:8000 \
vllm/vllm-openai:v0.19.1 \
--model /model \
--served-model-name qwen3.6-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--enable-prefix-caching \
--language-model-only \
--max-num-batched-tokens 8192 \
--max-num-seqs 24 \
--default-chat-template-kwargs '{"enable_thinking": false}'
幾個關鍵參數說明:
--tensor-parallel-size 2:雙卡張量并行--kv-cache-dtype fp8:KV Cache 用 FP8 存儲,進一步節省顯存--language-model-only:跳過視覺編碼器,把顯存省給 KV Cache--enable-prefix-caching:開啟前綴緩存加速--default-chat-template-kwargs '{"enable_thinking": false}':默認關閉思考模式,需要的時候再開
從啟動日志里扒出來的關鍵數據:
指標
數值
vLLM 版本
0.19.1
模型加載耗時
24 秒
模型顯存占用10.61 GiB
(每卡)
torch.compile 編譯耗時
39.49 秒
初始化總耗時
136.49 秒
GPU KV Cache 容量
494,656 tokens
最大并發(102K 上下文)
17.18x
CUDA Graph 顯存
0.81 GiB
非 Blackwell GPU 跑 NVFP4
WARNING: Your GPU does not have native support for FP4 computation
but FP4 quantization is being used. Weight-only FP4 compression
will be used leveraging the Marlin kernel. This may degrade
performance for compute-heavy workloads.
我的 GPU 設備能力是 8.9(Ada Lovelace 架構),不支持原生 FP4 計算
vLLM 自動退回到Marlin 內核做 weight-only FP4 解壓——推理時權重從 FP4 解壓到高精度再參與計算,激活量化的加速效果就沒了
GPU 架構
FP4 原生支持
NVFP4 實際行為
Blackwell (B100/B200)
支持
W4A4 全量化加速
Hopper (H100/H200)
不支持
Weight-only + Marlin 解壓
Ada (L40S/4090)不支持Weight-only + Marlin 解壓
所以如果你和我一樣用 Ada 架構的 GPU,NVFP4 的核心收益是省顯存
推理速度的提升主要來自模型變小后降低的內存帶寬需求,要拿到 NVFP4 真正的 W4A4 全量化加速,需要 Blackwell GPU
還有兩個值得留意的細節:
Mamba Cache 實驗性支持:日志里提示 prefix caching 對 Mamba 層的支持還在實驗階段。Qwen3.6 用了 Gated DeltaNet(一種線性注意力變體),vLLM 對這類層的緩存機制還在打磨中
Custom AllReduce 被禁用:因為 GPU 之間不支持 P2P 直連,退回到 NCCL 通信。多卡并行的效率會有一點點損失
對比前文同為 vLLM 0.19.1 拉起的 Qwen3.6-35B-A3B-AWQ-4bit
各方面都有提升
![]()
部署建議
硬件選擇:
最低 2x RTX 4090(24GB),可以跑 100K 上下文,或許可以更高,我沒再加
有 Blackwell GPU 的話能獲得最完整的 NVFP4 加速
推理框架:
vLLM 版本 0.19.0 以上,推薦 0.19.1,前文我也測了 v0.17 也可以
官方同時支持 SGLang 和 KTransformers
采樣參數建議:
Thinking 模式:
temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5精確編程任務:
temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0.0非思考模式:
temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5
Agent 場景推薦開啟preserve_thinking,能在多輪對話中保留思維鏈上下文,減少重復推理的 token 消耗
.6
制作不易,如果這篇文章對你有幫助,可否幫我個忙。給我個三連擊:點贊、轉發和在看。若可以再給我加個星標,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.