一文中,我就表達了對 Qwen 開源順序的稍稍不滿,大家明明最期待的是 27B 啊
后來又測了幾個 Qwen3.6-35B 的量化版本,都是關閉思考,已經完全可以取代釘子戶 Qwen3-32B 了
剛剛,萬眾期待的 Qwen3.6-27B 終于來了
![]()
FP8 版的模型權重已經來到 30GB 級別,后面再來個 AWQ-4bit,簡直完美,單卡 4090 都輕松
簡介
先說結論:這是一個 27B 的 Dense 多模態模型,把上一代開源旗艦 Qwen3.5-397B-A17B(397B 總參 / 17B 激活)在幾乎所有編碼 Benchmark 上都干翻了
是的,你沒看錯,小了 15 倍,反手給了老大哥一巴掌
![]()
上圖是官方放出的分數對比,我挑幾個關鍵的給大家翻譯翻譯:
SWE-bench Verified :77.2(3.5-397B 是 76.2)
SWE-bench Pro :53.5(3.5-397B 是 50.9)
Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)
SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,這個差距有點離譜)
GPQA Diamond :87.8
AIME 2026 :94.1
橫向對比 Claude 4.5 Opus 這種閉源旗艦,編碼上基本也就差個 1~5 分,Terminal-Bench 居然打平(都是 59.3)
這個參數量做到這個水平,我只能說阿里這波是真卷出來了,對得起大家的期待
這次更新的核心賣點就兩個:
Agentic Coding :前端任務、倉庫級代碼推理都明顯更順滑,這次是 real-world coding 直接對標 Claude
Thinking Preservation :多輪對話時可以保留歷史的 thinking 上下文,代碼迭代開發場景下,不用每輪都重新"想一遍"了
模型架構也有點意思:
參數量:27B(Dense,不是 MoE,部署簡單)
上下文:原生 262,144 tokens,可擴展到 1,010,000 tokens (百萬級)
層數:64 層,隱藏維度 5120
Hidden Layout:
16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))多模態:自帶 Vision Encoder,圖片、視頻、文檔通吃
支持 MTP(Multi-Token Prediction),推理速度有加成
Gated DeltaNet + Gated Attention 的混合架構,是 Qwen3.5 就開始用的,和純 Attention 比,長上下文時顯存友好很多。這也是為什么它敢說百萬上下文。
順便提一句,這次還同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方說「性能指標幾乎與原始模型一致」,顯存能砍掉一半左右,對本地部署是重磅利好
為什么這個 27B 值得你重點關注
老章這里掰開聊一下,27B Dense 這個尺寸對社區為什么是 sweet spot:
部署簡單 :Dense 架構沒有 MoE 路由那一套,不用折騰專家并行,vLLM/SGLang 直接一把梭
硬件門檻適中 :BF16 大約需要 54GB 顯存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,單張 48G 的 L40S / A6000 Ada 就能跑
能力不妥協 :前面 benchmark 已經證明了,它比上一代 397B 還強
純開源權重 :Hugging Face 和 ModelScope 都有官方權重,商用隨便
你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不動的,現在中間這檔終于有了像樣的選手
本地部署(重點來了)
這次官方推薦 3 條路子:SGLang / vLLM / Hugging Face Transformers,另外還支持 KTransformers 做 CPU-GPU 異構推理。
老章個人生產環境里最喜歡的是 vLLM
1. vLLM 部署(推薦)
版本要求 vllm>=0.19.0,裝新一點準沒錯:
uv pip install vllm --torch-backend=auto
標準啟動(8 卡 tensor parallel、262K 上下文):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3
帶 Tool Call(Coding Agent 場景必開):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
開啟 MTP(多 Token 預測,推理提速):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
只用文本能力(省顯存,砍掉視覺編碼器,給 KV Cache 讓路):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only
老章提個醒:官方明確說"如果 OOM 別無腦降 context,建議最少保留 128K,否則 thinking 能力會被閹割"
2. SGLang 部署
版本 sglang>=0.5.10:
uv pip install sglang[all]
標準啟動:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
帶 Tool Use:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder
開啟 MTP(投機解碼):
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
3. Transformers 輕量部署(測試用)顯存夠、但懶得裝 vLLM/SGLang,直接官方 Transformers 自帶的 server 也行:
pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching
注意這個是輕量級的,測試可以,上生產還是老老實實 vLLM/SGLang。
4. 顯存不夠?上 FP8 版
本地卡不夠的兄弟,直接把模型名換成 Qwen/Qwen3.6-27B-FP8 即可,其他啟動參數一毛一樣
官方說指標幾乎無損,顯存需求直接腰斬
vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3
雙卡 4090、單卡 L40S/A6000 Ada 跑起來都挺香
使用
起好服務后,接口完全兼容 OpenAI,老配方了
采樣參數官方推薦值(這個很關鍵,別瞎調):
思考模式(通用):
temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0思考模式(精確編碼,如 WebDev):
temperature=0.6, top_p=0.95, top_k=20非思考模式:
temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5
純文本請求:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=0.0,
extra_body={"top_k": 20},
)
print(resp)
默認開啟思考,輸出里會有
...
包裹的思考內容,不想要就按非思考模式的參數調。
多模態(圖片)請求:
messages = [{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": "https://your-image-url.jpg"}},
{"type": "text", "text": "這張圖里有幾個圓?"},
]
}]resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)
視頻輸入也一樣,把 type 換成 video_url 即可,官方 demo 里都有。
老章小結
優點:
27B Dense,部署友好,社區期盼已久的甜點尺寸終于來了
Agentic Coding 能力真的強,SWE-bench 干翻 397B MoE 老大哥
原生 262K,可擴到 1M 上下文,倉庫級代碼任務夠用
多模態 + 文本雙修,一個模型吃到底
FP8 量化版同步放出,本地部署門檻再降一半
vLLM / SGLang / Transformers / KTransformers 全棧支持
局限:
27B 的盤子再怎么煉,HLE 這種超硬核推理題還是打不過 397B 和 Claude 4.5 Opus
默認開啟 thinking,某些對延遲敏感的線上場景要注意切模式
context 不建議壓縮到 128K 以下,否則 thinking 會退化(說明這個長上下文是設計內的,硬核縮不動)
關注?一波,明天出本地部署性能實測
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.