網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6-27B 開源了,27B 小身板干翻 397B 巨無霸

0
分享至

一文中,我就表達了對 Qwen 開源順序的稍稍不滿,大家明明最期待的是 27B 啊

后來又測了幾個 Qwen3.6-35B 的量化版本,都是關閉思考,已經完全可以取代釘子戶 Qwen3-32B 了

剛剛,萬眾期待的 Qwen3.6-27B 終于來了


FP8 版的模型權重已經來到 30GB 級別,后面再來個 AWQ-4bit,簡直完美,單卡 4090 都輕松

簡介

先說結論:這是一個 27B 的 Dense 多模態模型,把上一代開源旗艦 Qwen3.5-397B-A17B(397B 總參 / 17B 激活)在幾乎所有編碼 Benchmark 上都干翻了

是的,你沒看錯,小了 15 倍,反手給了老大哥一巴掌


上圖是官方放出的分數對比,我挑幾個關鍵的給大家翻譯翻譯:

  • SWE-bench Verified :77.2(3.5-397B 是 76.2)

  • SWE-bench Pro :53.5(3.5-397B 是 50.9)

  • Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)

  • SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,這個差距有點離譜)

  • GPQA Diamond :87.8

  • AIME 2026 :94.1

橫向對比 Claude 4.5 Opus 這種閉源旗艦,編碼上基本也就差個 1~5 分,Terminal-Bench 居然打平(都是 59.3)

這個參數量做到這個水平,我只能說阿里這波是真卷出來了,對得起大家的期待

這次更新的核心賣點就兩個:

  • Agentic Coding :前端任務、倉庫級代碼推理都明顯更順滑,這次是 real-world coding 直接對標 Claude

  • Thinking Preservation :多輪對話時可以保留歷史的 thinking 上下文,代碼迭代開發場景下,不用每輪都重新"想一遍"了

模型架構也有點意思:

  • 參數量:27B(Dense,不是 MoE,部署簡單)

  • 上下文:原生 262,144 tokens,可擴展到 1,010,000 tokens (百萬級)

  • 層數:64 層,隱藏維度 5120

  • Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))

  • 多模態:自帶 Vision Encoder,圖片、視頻、文檔通吃

  • 支持 MTP(Multi-Token Prediction),推理速度有加成

Gated DeltaNet + Gated Attention 的混合架構,是 Qwen3.5 就開始用的,和純 Attention 比,長上下文時顯存友好很多。這也是為什么它敢說百萬上下文。

順便提一句,這次還同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方說「性能指標幾乎與原始模型一致」,顯存能砍掉一半左右,對本地部署是重磅利好

為什么這個 27B 值得你重點關注

老章這里掰開聊一下,27B Dense 這個尺寸對社區為什么是 sweet spot:

  1. 部署簡單 :Dense 架構沒有 MoE 路由那一套,不用折騰專家并行,vLLM/SGLang 直接一把梭

  2. 硬件門檻適中 :BF16 大約需要 54GB 顯存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,單張 48G 的 L40S / A6000 Ada 就能跑

  3. 能力不妥協 :前面 benchmark 已經證明了,它比上一代 397B 還強

  4. 純開源權重 :Hugging Face 和 ModelScope 都有官方權重,商用隨便

你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不動的,現在中間這檔終于有了像樣的選手

本地部署(重點來了)

這次官方推薦 3 條路子:SGLang / vLLM / Hugging Face Transformers,另外還支持 KTransformers 做 CPU-GPU 異構推理。

老章個人生產環境里最喜歡的是 vLLM

1. vLLM 部署(推薦)

版本要求 vllm>=0.19.0,裝新一點準沒錯:

uv pip install vllm --torch-backend=auto

標準啟動(8 卡 tensor parallel、262K 上下文):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3

帶 Tool Call(Coding Agent 場景必開):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder

開啟 MTP(多 Token 預測,推理提速)

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

只用文本能力(省顯存,砍掉視覺編碼器,給 KV Cache 讓路):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only

老章提個醒:官方明確說"如果 OOM 別無腦降 context,建議最少保留 128K,否則 thinking 能力會被閹割"

2. SGLang 部署

版本 sglang>=0.5.10

uv pip install sglang[all]

標準啟動:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3

帶 Tool Use:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder

開啟 MTP(投機解碼):

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
3. Transformers 輕量部署(測試用)

顯存夠、但懶得裝 vLLM/SGLang,直接官方 Transformers 自帶的 server 也行:

pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

注意這個是輕量級的,測試可以,上生產還是老老實實 vLLM/SGLang。

4. 顯存不夠?上 FP8 版

本地卡不夠的兄弟,直接把模型名換成 Qwen/Qwen3.6-27B-FP8 即可,其他啟動參數一毛一樣

官方說指標幾乎無損,顯存需求直接腰斬

vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3

雙卡 4090、單卡 L40S/A6000 Ada 跑起來都挺香

使用

起好服務后,接口完全兼容 OpenAI,老配方了

采樣參數官方推薦值(這個很關鍵,別瞎調):

  • 思考模式(通用): temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0

  • 思考模式(精確編碼,如 WebDev): temperature=0.6, top_p=0.95, top_k=20

  • 非思考模式: temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

純文本請求:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=0.0,
extra_body={"top_k": 20},
)
print(resp)

默認開啟思考,輸出里會有 ... 包裹的思考內容,不想要就按非思考模式的參數調。

多模態(圖片)請求:

messages = [{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": "https://your-image-url.jpg"}},
{"type": "text", "text": "這張圖里有幾個圓?"},
]
}]


resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)

視頻輸入也一樣,把 type 換成 video_url 即可,官方 demo 里都有。

老章小結

優點:

  • 27B Dense,部署友好,社區期盼已久的甜點尺寸終于來了

  • Agentic Coding 能力真的強,SWE-bench 干翻 397B MoE 老大哥

  • 原生 262K,可擴到 1M 上下文,倉庫級代碼任務夠用

  • 多模態 + 文本雙修,一個模型吃到底

  • FP8 量化版同步放出,本地部署門檻再降一半

  • vLLM / SGLang / Transformers / KTransformers 全棧支持

局限:

  • 27B 的盤子再怎么煉,HLE 這種超硬核推理題還是打不過 397B 和 Claude 4.5 Opus

  • 默認開啟 thinking,某些對延遲敏感的線上場景要注意切模式

  • context 不建議壓縮到 128K 以下,否則 thinking 會退化(說明這個長上下文是設計內的,硬核縮不動)

  • 關注?一波,明天出本地部署性能實測

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
她活了117歲,沒癌癥沒癡呆!科學家找到長壽密碼:可能跟這些習慣有關

她活了117歲,沒癌癥沒癡呆!科學家找到長壽密碼:可能跟這些習慣有關

方舟健客科普
2026-04-23 18:24:44
足壇奇聞!姆巴佩擇偶成謎,為何偏愛年長女性?

足壇奇聞!姆巴佩擇偶成謎,為何偏愛年長女性?

羅氏八卦
2026-04-24 18:00:03
汪小菲和馬筱梅竟然忘記小玥兒的12歲生日,真是令人震驚!

汪小菲和馬筱梅竟然忘記小玥兒的12歲生日,真是令人震驚!

螃蟹記錄站
2026-04-24 23:14:08
廣東省14批次食品不合格:通過淘寶閃購、拼多多等平臺銷售

廣東省14批次食品不合格:通過淘寶閃購、拼多多等平臺銷售

每日質量報道網
2026-04-24 22:28:17
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
清臺逆轉,1分險勝!丁俊暉世錦賽4-4追平趙心童,囧哥3-5到7-8!

清臺逆轉,1分險勝!丁俊暉世錦賽4-4追平趙心童,囧哥3-5到7-8!

劉姚堯的文字城堡
2026-04-25 00:37:28
震驚!男方登門提親,飯店用餐男方未主動結賬,由女方付款引熱議

震驚!男方登門提親,飯店用餐男方未主動結賬,由女方付款引熱議

火山詩話
2026-04-24 13:23:25
“你女兒比松子還可悲”,女孩吃三文魚表情走紅,讓評論區吵翻了

“你女兒比松子還可悲”,女孩吃三文魚表情走紅,讓評論區吵翻了

妍妍教育日記
2026-04-15 11:40:07
笑麻!女子吐槽老公不給他搭配好就胡亂穿衣,我卻笑死在評論區

笑麻!女子吐槽老公不給他搭配好就胡亂穿衣,我卻笑死在評論區

夜深愛雜談
2026-04-24 07:35:40
很難聽,但這是實話!詹寧斯:杜蘭特沒有任何球隊領導力!

很難聽,但這是實話!詹寧斯:杜蘭特沒有任何球隊領導力!

愛體育
2026-04-24 23:10:29
貴州女子癡呆21年,突然記起北京有套120平四合院,子女趕去后愣住

貴州女子癡呆21年,突然記起北京有套120平四合院,子女趕去后愣住

如煙若夢
2025-04-14 16:51:12
4月26日至29日南方地區將有強降雨過程 警惕次生災害

4月26日至29日南方地區將有強降雨過程 警惕次生災害

中國氣象局
2026-04-24 20:31:14
至今,還有13個國家和中國沒有建交,他們都是誰?

至今,還有13個國家和中國沒有建交,他們都是誰?

深度報
2026-04-22 22:30:57
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
各科醫生最想跟你說的大實話,很有用!收藏好常看看

各科醫生最想跟你說的大實話,很有用!收藏好常看看

華人星光
2026-04-23 12:00:20
山東醫藥大學通報“展某某學位證無法認證”:成立工作組調查核實

山東醫藥大學通報“展某某學位證無法認證”:成立工作組調查核實

界面新聞
2026-04-24 06:53:49
4-0橫掃!德布勞內傳射建功,意甲勁旅踢瘋了,超越米蘭升到第2

4-0橫掃!德布勞內傳射建功,意甲勁旅踢瘋了,超越米蘭升到第2

足球狗說
2026-04-25 04:39:08
日本高官稱168小時可全殲中國海軍,但中國禁用導彈

日本高官稱168小時可全殲中國海軍,但中國禁用導彈

明天后天大后天
2026-03-17 15:30:37
賴清德被限制,29國24小時內挺臺,大陸三句話強硬回應

賴清德被限制,29國24小時內挺臺,大陸三句話強硬回應

老表是個手藝人
2026-04-25 05:32:41
世錦賽戰報:世界第2六連鞭仍7-9恐爆冷!中國冠軍輪番黑球絕殺

世錦賽戰報:世界第2六連鞭仍7-9恐爆冷!中國冠軍輪番黑球絕殺

楊仔述
2026-04-25 01:52:14
2026-04-25 06:52:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3350文章數 11139關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

藝術
房產
旅游
游戲
教育

藝術要聞

價值1.7億的牡丹!

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

旅游要聞

朔州崇福寺:金代遺構,塞北千年佛殿

《光與影:33號遠征隊》發售一周年 銷量破800萬

教育要聞

教室火鍋”被人民日報點贊,卻被家長瘋狂舉報

無障礙瀏覽 進入關懷版