一文中我已經把這個模型和部署(原版 + 量化版)介紹的很清楚了,閑逛又發現幾個版本(4bit 量化版、推理加速版、Claude Opus 蒸餾版)很亮眼,推薦給大家。
第一路:三個 4bit 量化版本
Qwen3.6 發布還沒捂熱,社區已經搞出了三個 4bit 量化版本
目標很明確:把顯存需求壓下來,讓消費級顯卡能跑起來
1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit
AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起來
網友測試 2x4060 可以跑出 83tok/s
![]()
2. QuantTrio/Qwen3.6-35B-A3B-AWQ
同樣是 AWQ 量化,這個版本出自 QuantTrio 團隊,量化后模型大小約 24GB
有詳細的 vLLM 啟動腳本,支持 MTP(Multi-Token Prediction)推測解碼
啟動命令參考:
vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
--served-model-name MY_MODEL \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
--trust-remote-code
注意 TP=8 時要加--enable-expert-parallel,否則專家參數分片不均勻會出問題。
效果在線
![]()
3. RedHatAI/Qwen3.6-35B-A3B-NVFP4
這個來自 Red Hat AI 團隊,用的是 NVFP4 格式——權重和激活都量化到 FP4
用 llm-compressor 工具做的量化
初步評測結果有個小驚喜:
模型
GSM8K Platinum 準確率
Qwen3.6-35B-A3B(原版)
95.62%
Qwen3.6-35B-A3B-NVFP4
96.28%
恢復率
100.69%
量化后準確率居然還漲了一點點
當然 Red Hat 團隊也說了這只是初步結果,更嚴格的評測還在進行中
三個量化版本怎么選?
版本
量化格式
特點
推薦場景
cyankiwi
AWQ 4bit
快速可用
想嘗鮮、快速驗證
QuantTrio
AWQ
文檔詳細、附啟動腳本
生產部署參考
RedHatAI
NVFP4
權重 + 激活雙量化、官方團隊出品
追求更極致壓縮
三個版本都兼容 vLLM 0.19+,直接vllm serve就能跑
第二路:DFlash 推理加速版
DFlash 我介紹過兩次了,老讀者應該不陌生
簡單回顧一下:DFlash 是一種基于塊擴散模型(Block Diffusion)的推測解碼方法。傳統推測解碼(比如 EAGLE-3)的草稿模型還是自回歸的,一次只能預測一個 token。DFlash 換了個思路——用一個輕量的擴散模型,一次并行生成一整個 block 的 token。
核心技巧在于:DFlash 不讓小模型從零開始預測,而是從目標大模型的隱層特征中提取上下文信息,注入到草稿模型的每一層 KV Cache 中。這樣即使草稿模型很小,也能"借用"大模型的推理能力。
在 Qwen3-8B 上的實測數據:
基準測試
原版
EAGLE-3 加速
DFlash 加速
GSM8K
1×
2.13×
5.20×
MATH-500
1×
2.18×
6.17×
HumanEval
1×
2.48×
5.20×
MBPP
1×
2.27×
4.75×
EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍
而且這是完全無損的——輸出跟原版一模一樣
現在 z-lab 團隊第一時間跟進了 Qwen3.6:
? z-lab/Qwen3.6-35B-A3B-DFlash
需要注意的是,這個草稿模型還在訓練中(目前 2000 步),所以效果還會繼續提升。
使用方式也很簡單,vLLM 一行命令:
vllm serve Qwen/Qwen3.6-35B-A3B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768
SGLang 也已經支持了:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
--speculative-num-draft-tokens 16 \
--tp-size 1 \
--attention-backend fa3 \
--mem-fraction-static 0.75 \
--trust-remote-code
早期測試的接受長度(Accept Length)數據:
數據集
接受長度
GSM8K
6.5
Math500
7.2
HumanEval
6.2
MBPP
5.6
MT-Bench
5.0
接受長度越高意味著加速比越大
Math500 上平均每次能接受 7.2 個 token,這個數字相當可觀
![]()
第三路:Claude Opus 4.6 蒸餾版
這條路線大家也應該很熟悉了,我一直在追
Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸餾系列我介紹過 V2 和 V3,每一版都有明顯提升
現在社區開發者 hesamation 把這套思路搬到了 Qwen3.6 上:
? hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
核心思路:保留 Qwen3.6 強大的 Agentic Coding 底座,同時注入 Claude Opus 4.6 風格的結構化推理能力
訓練方式是用 LoRA 做有監督微調(SFT),然后合并回完整模型
訓練數據來自三個公開數據集:
數據集
樣本量
用途
nohurry/Opus-4.6-Reasoning-3000x-filtered
3,900
Claude Opus 推理軌跡
Jackrong/Qwen3.5-reasoning-700x
700
精選 Qwen 推理樣本
Roman1111111/claude-opus-4.6-10000x
9,633
更多 Claude Opus 推理示例
總共約 14,000 條數據,規模不大,但質量很高——都是經過篩選的鏈式推理(Chain-of-Thought)示例。
訓練配置:
配置項
微調方法
LoRA(僅 Attention 模塊)
LoRA rank / alpha
32 / 32
梯度累積
32
訓練輪次
2
最終訓練 loss
最大序列長度
初步評測數據很亮眼:
基準測試
Base 模型
蒸餾后
提升
MMLU-Pro(70 題子集)
42.86%
75.71%+32.85pp
當然,作者也說了這只是 70 道題的小規模測試(14 個學科各 5 題),應該當做 smoke test 看,不是完整評測。但 +32.85 個百分點的提升還是很說明問題的——Claude Opus 的推理數據確實能顯著增強模型的結構化推理能力。
值得注意的是,這個微調是純文本的。Qwen3.6 底座雖然自帶視覺編碼器,但這輪訓練沒有用到圖像/視頻數據,所以多模態能力基本就是繼承自 base model。
三路并行,選哪個?
需求
推薦方案
顯存有限,想跑 Qwen3.6
AWQ/NVFP4 量化版
追求推理速度,愿意多占點顯存
DFlash 加速版
需要更強的推理/分析能力
Claude Opus 蒸餾版
又想快又想省顯存
量化版 + DFlash(理論可疊加,待驗證)
這三條路線其實不沖突
量化解決的是"跑得起"的問題
DFlash 解決的是"跑得快"的問題
蒸餾解決的是"跑得好"的問題
我的看法
評測數據普遍不夠充分。蒸餾版只跑了 70 道 MMLU-Pro 題,NVFP4 版只有一個 GSM8K 分數,量化版基本沒有獨立評測。社區還需要更多人來做嚴格的 benchmark
DFlash 版本還在訓練中。2000 步的草稿模型效果肯定不是最終水平,現階段的性能數據參考價值有限
Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看著很強,但實際使用中的表現還需要時間檢驗
總的來說,開源 AI 社區圍繞一個模型形成了量化→加速→蒸餾的完整優化鏈,每條路線都有獨立團隊在推進。
這種分布式協作的效率和活力,可能比任何單個模型的發布都更值得關注
.6
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.