網易首頁 > 網易號 > 正文申請入駐

Qwen3.6-27B 量化版本推薦，本地部署

2026-04-23 19:29:36　來源: Ai學習的老章

北京舉報

分享至

一文講過 Qwen3.6-27B 原版 FP16 的 27B 模型，文件 55GB，太大了

好消息是 Qwen3.6-27B 開源24小時內，量化版本就已經百花齊放了——FP8、AWQ-INT4、NVFP4、GGUF、MLX，從服務端 vLLM 到 Mac 本地、到消費級顯卡，各種部署場景都能找到對應的版本

本文推薦幾個 Qwen3.6-27B 量化版本，以及本地部署教程

第一路：vLLM 服務端部署

生產環境的首選，兼顧速度和并發，Qwen3.6 官方推薦 vllm>=0.19.0 起步

1. 官方 FP8 版本（最穩）

Qwen/Qwen3.6-27B-FP8

這是 Qwen 官方自己放出來的 FP8 量化，細粒度 fp8 量化，block size = 128，官方原話：性能指標幾乎跟原版一模一樣

文件大小比 FP16 原版直接砍半（27B 模型約 27GB 權重），兼容 Transformers / vLLM / SGLang / KTransformers，基本上是零風險選項

啟動命令：

vllm serve Qwen/Qwen3.6-27B-FP8 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

要開工具調用加一句：

  --enable-auto-tool-choice --tool-call-parser qwen3_coder

想開 MTP（Multi-Token Prediction）推測解碼提速：

  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

適合誰：兩張 A100/H100/L40S 起，追求最穩妥部署的生產環境

2. AWQ-INT4 版本（消費級友好）

cyankiwi/Qwen3.6-27B-AWQ-INT4

社區開發者 cyankiwi 做的 AWQ（Activation-aware Weight Quantization）4bit 量化，文件壓到 20GB 左右

這個版本上個周期的 Qwen3.5-35B-A3B 就是他家出的，vLLM 0.19 直接拉起來，單卡 4090 就能跑，雙卡可以支撐更大上下文

啟動腳本參考：

vllm serve cyankiwi/Qwen3.6-27B-AWQ-INT4 \
  --port 8000 \
  --max-model-len 65536 \
  --gpu-memory-utilization 0.9 \
  --reasoning-parser qwen3 \
  --trust-remote-code

適合誰：家用消費級卡（4090、3090、5090）、或者兩張 4090 想拉高上下文的玩家

3. NVFP4 版本（Blackwell 專屬）

sakamakismile/Qwen3.6-27B-NVFP4

這個是 Lna-Lab 團隊用 NVFP4 格式做的量化——權重 FP4、激活 FP4、scale FP8，真正的 W4A4

關鍵數據：55.6 GB → 19.7 GB，壓縮比 0.35x，vision tower 保留在 BF16，單張 Blackwell GPU 能跑

量化配方很克制，只量化語言模型的 Linear 層：

QuantizationModifier:
  targets: [Linear]
  ignore: [lm_head, 're:.*visual.*', 're:.*mlp.gate$', 're:.*mlp.shared_expert_gate$']
  scheme: NVFP4

啟動：

vllm serve sakamakismile/Qwen3.6-27B-NVFP4 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.92 \
  --dtype auto \
  --trust-remote-code

硬性要求：NVIDIA Blackwell GPU（SM 120），vLLM ≥ 0.19

作者在 RTX PRO 6000 Blackwell（96GB）上實測過

適合誰：手里有 5090 / 5090D / RTX PRO 6000 這類 Blackwell 卡的，NVFP4 是目前 Blackwell 架構吃得最香的格式

第二路：GGUF 本地部署（llama.cpp）

GGUF 是 llama.cpp 的親兒子格式，家用 PC、Mac、甚至 CPU 純推都能跑

1. Unsloth Dynamic 2.0 GGUF（推薦）

unsloth/Qwen3.6-27B-GGUF

Unsloth 家的 Dynamic 2.0 量化，基于真實世界數據集做校準，關鍵層做 upcast，同等 bit 數下質量比普通 GGUF 好不少

官方的硬件表直接給出需求（RAM+VRAM 總和，或統一內存）：

量化

27B 需求

UD-Q2_K_XL

15 GB

UD-Q4_K_XL

18 GB

Q5_K_M

24 GB

Q6_K

30 GB

Q8_0

55 GB

Unsloth 推薦日常用 UD-Q4_K_XL，24GB RAM 或者 Mac 設備都能流暢跑

?? 兩個關鍵坑位（Unsloth 官方文檔明確提醒）：

不要用 CUDA 13.2 ，會輸出亂碼，NVIDIA 正在修
目前 Ollama 跑不了 Qwen3.6 GGUF ，因為 mmproj 視覺文件是分離的，只能用兼容 llama.cpp 的后端

llama.cpp 啟動命令示例：

./llama-server \
  -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
  --jinja \
  --ctx-size 32768 \
  --n-gpu-layers 99

推理參數（非常重要，hybrid reasoning 兩種模式不一樣）：

Thinking 模式（一般任務）：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0

Non-thinking 模式（一般任務）：temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

2. LM Studio 社區版 GGUF

lmstudio-community/Qwen3.6-27B-GGUF

LM Studio 團隊基于 llama.cpp b8883 做的量化。如果你用 LM Studio 作為本地大模型面板，這個版本集成度最好，直接在 LM Studio 里搜索就能下載。

量化質量上，比 Unsloth Dynamic 2.0 略樸素——沒有針對關鍵層 upcast，但勝在工具鏈集成完整、開箱即用

3. Unsloth UD-MLX-4bit（Mac 專屬）

unsloth/Qwen3.6-27B-UD-MLX-4bit

Unsloth 團隊也出了動態 MLX 4bit 版本，專門給 Apple Silicon 用。

Unsloth 給了一鍵腳本：

curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_qwen3_6_mlx.sh | sh
source ~/.unsloth/unsloth_qwen3_6_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/Qwen3.6-27B-UD-MLX-4bit

Mac Studio / MacBook Pro M 系列，32GB 以上統一內存都能跑

第三路：蘋果 MLX 生態 mlx-community/Qwen3.6-27B-nvfp4

mlx-community/Qwen3.6-27B-nvfp4

MLX 社區基于 mlx-vlm 0.4.4 做的 NVFP4 格式 Mac 專用版。跟服務端的 NVFP4 不是一回事——這個是 MLX 格式，走 Apple Silicon 的 Metal。

調用非常簡單：

pip install -U mlx-vlm


 python -m mlx_vlm.generate \
  --model mlx-community/Qwen3.6-27B-nvfp4 \
  --max-tokens 100 \
  --temperature 0.0 \
  --prompt "Describe this image." \
  --image

適合誰：Mac 用戶里想吃 MLX 生態的（MLX 在蘋果芯片上的性能往往比 llama.cpp-metal 更好）。

怎么選？一張表決定

場景

推薦版本

核心原因

生產部署（雙卡 A100/H100）

官方 FP8

原汁原味，幾乎無損

消費級單卡（4090/3090）

cyankiwi AWQ-INT4

15GB 能裝下，vLLM 直接跑

Blackwell 卡（5090/RTX PRO 6000）

sakamakismile NVFP4

充分利用 FP4 算力

Windows/Linux PC + 24GB 顯存

Unsloth UD-Q4_K_XL

動態量化質量最好

用 LM Studio 做面板

lmstudio-community GGUF

工具鏈集成最好

Mac Studio / MacBook

Unsloth MLX-4bit 或 mlx-community nvfp4

走 MLX 吃滿 Metal

低配機器 + 大內存

Unsloth UD-Q2_K_XL

15GB 就能跑

幾個通用注意事項

Qwen3.6-27B 是 dense 模型，不是 MoE 。跟 Qwen3.6-35B-A3B 不一樣，后者是 3B 激活的 MoE，跑起來更快。27B dense 的優勢是能力更穩定、沒有專家路由的不確定性
上下文默認 262K 。OOM 的話把 --max-model-len / --ctx-size 降下來，但 Unsloth 建議至少保 128K 來保住 thinking 能力
hybrid reasoning 兩種模式參數差異大 。寫代碼用 thinking 模式 + temp=0.6，寫文用 non-thinking + temp=1.0，別搞混
Ollama 暫時跑不了 ，等 Ollama 適配 mmproj 分離結構

下篇文章咱們聊聊 Qwen3.6-27B 的另一個神奇版本，推理風格有大變化

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.