網易首頁 > 網易號 > 正文申請入駐

Qwen3.6-27B 開源了，27B 小身板干翻 397B 巨無霸

2026-04-22 21:47:48　來源: Ai學習的老章

北京舉報

分享至

一文中，我就表達了對 Qwen 開源順序的稍稍不滿，大家明明最期待的是 27B 啊

后來又測了幾個 Qwen3.6-35B 的量化版本，都是關閉思考，已經完全可以取代釘子戶 Qwen3-32B 了

剛剛，萬眾期待的 Qwen3.6-27B 終于來了

FP8 版的模型權重已經來到 30GB 級別，后面再來個 AWQ-4bit，簡直完美，單卡 4090 都輕松

簡介

先說結論：這是一個 27B 的 Dense 多模態模型，把上一代開源旗艦 Qwen3.5-397B-A17B（397B 總參 / 17B 激活）在幾乎所有編碼 Benchmark 上都干翻了

是的，你沒看錯，小了 15 倍，反手給了老大哥一巴掌

上圖是官方放出的分數對比，我挑幾個關鍵的給大家翻譯翻譯：

SWE-bench Verified ：77.2（3.5-397B 是 76.2）
SWE-bench Pro ：53.5（3.5-397B 是 50.9）
Terminal-Bench 2.0 ：59.3（3.5-397B 是 52.5）
SkillsBench Avg5 ：48.2（3.5-397B 只有 30.0，這個差距有點離譜）
GPQA Diamond ：87.8
AIME 2026 ：94.1

橫向對比 Claude 4.5 Opus 這種閉源旗艦，編碼上基本也就差個 1~5 分，Terminal-Bench 居然打平（都是 59.3）

這個參數量做到這個水平，我只能說阿里這波是真卷出來了，對得起大家的期待

這次更新的核心賣點就兩個：

Agentic Coding ：前端任務、倉庫級代碼推理都明顯更順滑，這次是 real-world coding 直接對標 Claude
Thinking Preservation ：多輪對話時可以保留歷史的 thinking 上下文，代碼迭代開發場景下，不用每輪都重新"想一遍"了

模型架構也有點意思：

參數量：27B（Dense，不是 MoE，部署簡單）
上下文：原生 262,144 tokens，可擴展到 1,010,000 tokens （百萬級）
層數：64 層，隱藏維度 5120
Hidden Layout： 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
多模態：自帶 Vision Encoder，圖片、視頻、文檔通吃
支持 MTP（Multi-Token Prediction），推理速度有加成

Gated DeltaNet + Gated Attention 的混合架構，是 Qwen3.5 就開始用的，和純 Attention 比，長上下文時顯存友好很多。這也是為什么它敢說百萬上下文。

順便提一句，這次還同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8：fine-grained fp8、block size 128，官方說「性能指標幾乎與原始模型一致」，顯存能砍掉一半左右，對本地部署是重磅利好

為什么這個 27B 值得你重點關注

老章這里掰開聊一下，27B Dense 這個尺寸對社區為什么是 sweet spot：

部署簡單 ：Dense 架構沒有 MoE 路由那一套，不用折騰專家并行，vLLM/SGLang 直接一把梭
硬件門檻適中 ：BF16 大約需要 54GB 顯存，2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑； FP8 版只要 27GB 左右，單張 48G 的 L40S / A6000 Ada 就能跑
能力不妥協 ：前面 benchmark 已經證明了，它比上一代 397B 還強
純開源權重 ：Hugging Face 和 ModelScope 都有官方權重，商用隨便

你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不動的，現在中間這檔終于有了像樣的選手

本地部署（重點來了）

這次官方推薦 3 條路子：SGLang / vLLM / Hugging Face Transformers，另外還支持 KTransformers 做 CPU-GPU 異構推理。

老章個人生產環境里最喜歡的是 vLLM

1. vLLM 部署（推薦）

版本要求 vllm>=0.19.0，裝新一點準沒錯：

uv pip install vllm --torch-backend=auto

標準啟動（8 卡 tensor parallel、262K 上下文）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

帶 Tool Call（Coding Agent 場景必開）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

開啟 MTP（多 Token 預測，推理提速）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

只用文本能力（省顯存，砍掉視覺編碼器，給 KV Cache 讓路）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

老章提個醒：官方明確說"如果 OOM 別無腦降 context，建議最少保留 128K，否則 thinking 能力會被閹割"

2. SGLang 部署

版本 sglang>=0.5.10：

uv pip install sglang[all]

標準啟動：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

帶 Tool Use：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder

開啟 MTP（投機解碼）：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

3. Transformers 輕量部署（測試用）

顯存夠、但懶得裝 vLLM/SGLang，直接官方 Transformers 自帶的 server 也行：

pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

注意這個是輕量級的，測試可以，上生產還是老老實實 vLLM/SGLang。

4. 顯存不夠？上 FP8 版

本地卡不夠的兄弟，直接把模型名換成 Qwen/Qwen3.6-27B-FP8 即可，其他啟動參數一毛一樣

官方說指標幾乎無損，顯存需求直接腰斬

vllm serve Qwen/Qwen3.6-27B-FP8 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --reasoning-parser qwen3

雙卡 4090、單卡 L40S/A6000 Ada 跑起來都挺香

使用

起好服務后，接口完全兼容 OpenAI，老配方了

采樣參數官方推薦值（這個很關鍵，別瞎調）：

思考模式（通用）： temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0
思考模式（精確編碼，如 WebDev）： temperature=0.6, top_p=0.95, top_k=20
非思考模式： temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

純文本請求：

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

 messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

 resp = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={"top_k": 20},
)
print(resp)

默認開啟思考，輸出里會有 ... 包裹的思考內容，不想要就按非思考模式的參數調。

多模態（圖片）請求：

messages = [{
    "role": "user",
    "content": [
        {"type": "image_url",
         "image_url": {"url": "https://your-image-url.jpg"}},
        {"type": "text", "text": "這張圖里有幾個圓？"},
    ]
}]


 resp = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    extra_body={"top_k": 20},
)

視頻輸入也一樣，把 type 換成 video_url 即可，官方 demo 里都有。

老章小結

優點：

27B Dense，部署友好，社區期盼已久的甜點尺寸終于來了
Agentic Coding 能力真的強，SWE-bench 干翻 397B MoE 老大哥
原生 262K，可擴到 1M 上下文，倉庫級代碼任務夠用
多模態 + 文本雙修，一個模型吃到底
FP8 量化版同步放出，本地部署門檻再降一半
vLLM / SGLang / Transformers / KTransformers 全棧支持

局限：

27B 的盤子再怎么煉，HLE 這種超硬核推理題還是打不過 397B 和 Claude 4.5 Opus
默認開啟 thinking，某些對延遲敏感的線上場景要注意切模式
context 不建議壓縮到 128K 以下，否則 thinking 會退化（說明這個長上下文是設計內的，硬核縮不動）

關注?一波，明天出本地部署性能實測

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.