无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

英偉達加速版 Qwen3.6-35B,雙4090本地部署,性能實測

0
分享至

前文:,我用 vLLM 部署的這個版本


本文測下 Red Hat 量化團隊 Qwen3.6-35B-A3B-NVFP4(4-bit 浮點)的性能

NVFP4 量化版:Red Hat 出品
模型地址:huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

這個 NVFP4 版本由 Red Hat AI 團隊使用 llm-compressor 完成量化

? llm-compressor 是 vLLM 項目下的量化工具庫,專門為 vLLM 推理做優化,支持 GPTQ、AWQ、SmoothQuant、FP8、NVFP4 等多種方案

NVFP4 的核心:權重和激活都量化到 FP4(W4A4),使用 E2M1 格式 + 16 元素微塊縮放

Red Hat 跑了 GSM8K Platinum 評測,初步結果相當驚艷:

版本

GSM8K Platinum 準確率

原版 BF16

NVFP4 量化版

恢復率

100.69%

量化后精度居然比原版高了一丟丟

當然這有統計波動因素,但至少說明 NVFP4 量化對精度的損失可以忽略不計

實測部署:vLLM + Docker

我在雙 4090 GPU 服務器上用 Docker + vLLM 部署了這個模型

Docker 啟動命令

docker run -d --name qwen36-35b-a3b-int4 \
--gpus all \
-v /data/llm-models/Qwen3.6-35B-A3B-NVFP4:/model \
-p 8000:8000 \
vllm/vllm-openai:v0.19.1 \
--model /model \
--served-model-name qwen3.6-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--enable-prefix-caching \
--language-model-only \
--max-num-batched-tokens 8192 \
--max-num-seqs 24 \
--default-chat-template-kwargs '{"enable_thinking": false}'

幾個關鍵參數說明

  • --tensor-parallel-size 2:雙卡張量并行

  • --kv-cache-dtype fp8:KV Cache 用 FP8 存儲,進一步節省顯存

  • --language-model-only:跳過視覺編碼器,把顯存省給 KV Cache

  • --enable-prefix-caching:開啟前綴緩存加速

  • --default-chat-template-kwargs '{"enable_thinking": false}':默認關閉思考模式,需要的時候再開

部署數據一覽

從啟動日志里扒出來的關鍵數據:

指標

數值

vLLM 版本

0.19.1

模型加載耗時

24 秒

模型顯存占用10.61 GiB

(每卡)

torch.compile 編譯耗時

39.49 秒

初始化總耗時

136.49 秒

GPU KV Cache 容量

494,656 tokens

最大并發(102K 上下文)

17.18x

CUDA Graph 顯存

0.81 GiB


非 Blackwell GPU 跑 NVFP4

WARNING: Your GPU does not have native support for FP4 computation 
but FP4 quantization is being used. Weight-only FP4 compression
will be used leveraging the Marlin kernel. This may degrade
performance for compute-heavy workloads.

我的 GPU 設備能力是 8.9(Ada Lovelace 架構),不支持原生 FP4 計算

vLLM 自動退回到Marlin 內核做 weight-only FP4 解壓——推理時權重從 FP4 解壓到高精度再參與計算,激活量化的加速效果就沒了

GPU 架構

FP4 原生支持

NVFP4 實際行為

Blackwell (B100/B200)

支持

W4A4 全量化加速

Hopper (H100/H200)

不支持

Weight-only + Marlin 解壓

Ada (L40S/4090)不支持Weight-only + Marlin 解壓

所以如果你和我一樣用 Ada 架構的 GPU,NVFP4 的核心收益是省顯存

推理速度的提升主要來自模型變小后降低的內存帶寬需求,要拿到 NVFP4 真正的 W4A4 全量化加速,需要 Blackwell GPU

還有兩個值得留意的細節:

  • Mamba Cache 實驗性支持:日志里提示 prefix caching 對 Mamba 層的支持還在實驗階段。Qwen3.6 用了 Gated DeltaNet(一種線性注意力變體),vLLM 對這類層的緩存機制還在打磨中

  • Custom AllReduce 被禁用:因為 GPU 之間不支持 P2P 直連,退回到 NCCL 通信。多卡并行的效率會有一點點損失

對比前文同為 vLLM 0.19.1 拉起的 Qwen3.6-35B-A3B-AWQ-4bit

各方面都有提升


部署建議

硬件選擇

  • 最低 2x RTX 4090(24GB),可以跑 100K 上下文,或許可以更高,我沒再加

  • 有 Blackwell GPU 的話能獲得最完整的 NVFP4 加速

推理框架

  • vLLM 版本 0.19.0 以上,推薦 0.19.1,前文我也測了 v0.17 也可以

  • 官方同時支持 SGLang 和 KTransformers

采樣參數建議

  • Thinking 模式:temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

  • 精確編程任務:temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0.0

  • 非思考模式:temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5

Agent 場景推薦開啟preserve_thinking,能在多輪對話中保留思維鏈上下文,減少重復推理的 token 消耗

.6

制作不易,如果這篇文章對你有幫助,可否幫我個忙。給我個三連擊:點贊、轉發和在看。若可以再給我加個星標,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

看盡落塵花q
2026-05-21 04:47:45
6.20早評|又傳變局!美伊大消息!A股怎么辦?

6.20早評|又傳變局!美伊大消息!A股怎么辦?

龍行天下虎
2026-06-20 11:34:18
求是網:消費提振需要三管齊下

求是網:消費提振需要三管齊下

野生運營
2026-06-20 03:25:55
比打仗還可怕的事來了,戰后第一批完蛋的國家名單出爐

比打仗還可怕的事來了,戰后第一批完蛋的國家名單出爐

云隱南山
2026-06-20 15:38:36
ESPN女主播坦言當媽后"我還沒準備好"

ESPN女主播坦言當媽后"我還沒準備好"

賽場速報局
2026-06-19 00:16:00
李佳琦回應“嬰兒紙尿褲檢出甲酰胺”

李佳琦回應“嬰兒紙尿褲檢出甲酰胺”

新浪財經
2026-06-19 12:28:30
C羅大姐炮轟葡萄牙隊員:連自己的家人都不尊重 忘恩負義的無知者

C羅大姐炮轟葡萄牙隊員:連自己的家人都不尊重 忘恩負義的無知者

念洲
2026-06-20 07:40:57
俄稱莫斯科再遭烏大規模無人機襲擊

俄稱莫斯科再遭烏大規模無人機襲擊

界面新聞
2026-06-20 06:38:46
20日CCTV-5女排賽程:中國VS巴西,美國PK意大利

20日CCTV-5女排賽程:中國VS巴西,美國PK意大利

陳鋅特色美食
2026-06-20 06:42:14
穆里尼奧臉都綠了!皇馬硬砸 2.2 億世界杯天王,根本不聽他的!

穆里尼奧臉都綠了!皇馬硬砸 2.2 億世界杯天王,根本不聽他的!

奶蓋熊本熊
2026-06-20 02:55:35
1949年,黨中央安排毛澤東入住中南海遭拒絕,毛主席:我不做皇帝

1949年,黨中央安排毛澤東入住中南海遭拒絕,毛主席:我不做皇帝

雍親王府
2026-06-20 13:00:11
科內下場時口含綠色物體,TyC解釋:那是一種口含止痛劑

科內下場時口含綠色物體,TyC解釋:那是一種口含止痛劑

懂球帝
2026-06-19 22:44:25
恩西索:我們為阿爾米隆而戰;過去一周承受了很大壓力

恩西索:我們為阿爾米隆而戰;過去一周承受了很大壓力

懂球帝
2026-06-20 16:25:13
日本養老體系徹底崩塌,給中國提個醒:最先倒下的,恐怕不是老人

日本養老體系徹底崩塌,給中國提個醒:最先倒下的,恐怕不是老人

原諒你
2026-06-20 15:20:48
壞消息不斷送進克里姆林宮,普京開始“打土豪”,寡頭秒掏千億

壞消息不斷送進克里姆林宮,普京開始“打土豪”,寡頭秒掏千億

浪子說
2026-06-09 00:05:03
半場天堂半場地獄:巴西3-0大勝背后,三大死穴已掐住爭冠咽喉!

半場天堂半場地獄:巴西3-0大勝背后,三大死穴已掐住爭冠咽喉!

落夜足球
2026-06-20 15:18:39
離家9年男子甩離婚協議,雙胞胎女兒沖過來喊爸爸,他當場懵了

離家9年男子甩離婚協議,雙胞胎女兒沖過來喊爸爸,他當場懵了

墨染塵香
2026-06-19 14:40:52
錢再多有何用?向佐自曝家丑后,向太也不再隱瞞,袒露自殺真相

錢再多有何用?向佐自曝家丑后,向太也不再隱瞞,袒露自殺真相

林雁飛
2026-06-19 17:06:19
走還是不走?27歲頂薪先生陷兩難,正式表態,下家4選1,早點抉擇

走還是不走?27歲頂薪先生陷兩難,正式表態,下家4選1,早點抉擇

萌蘭聊個球
2026-06-20 16:24:28
為什么中國女排沒有朱婷的位置,真相大白了,她不會回來了

為什么中國女排沒有朱婷的位置,真相大白了,她不會回來了

體育快遞小哥哥
2026-05-11 16:32:52
2026-06-20 17:04:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3436文章數 11166關注度
往期回顧 全部

科技要聞

DeepSeek上線識圖模式,看誰都像梁文鋒

頭條要聞

特朗普和高市早苗當眾發生口角 日媒:真是令人震驚

頭條要聞

特朗普和高市早苗當眾發生口角 日媒:真是令人震驚

體育要聞

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

娛樂要聞

官媒發文,張柏芝終迎一大喜訊

財經要聞

金飾克價年內大跌近450元 跌幅最高達26%

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

健康
房產
手機
教育
家居

吃粽子的3條保胃法則,消化科醫生推薦

房產要聞

商業清零式退潮,大量住宅登場!三亞又要大規模調規!

手機要聞

高通抄襲三星HPB散熱翻車!驍龍8 Elite Gen 6 Pro效果遠不如Exynos 2600

教育要聞

中考加油!廈門5.32萬名中考生明天開考

家居要聞

綠意盎然 自然之境

無障礙瀏覽 進入關懷版