无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6-27B 開源了,27B 小身板干翻 397B 巨無霸

0
分享至

一文中,我就表達了對 Qwen 開源順序的稍稍不滿,大家明明最期待的是 27B 啊

后來又測了幾個 Qwen3.6-35B 的量化版本,都是關閉思考,已經完全可以取代釘子戶 Qwen3-32B 了

剛剛,萬眾期待的 Qwen3.6-27B 終于來了


FP8 版的模型權重已經來到 30GB 級別,后面再來個 AWQ-4bit,簡直完美,單卡 4090 都輕松

簡介

先說結論:這是一個 27B 的 Dense 多模態模型,把上一代開源旗艦 Qwen3.5-397B-A17B(397B 總參 / 17B 激活)在幾乎所有編碼 Benchmark 上都干翻了

是的,你沒看錯,小了 15 倍,反手給了老大哥一巴掌


上圖是官方放出的分數對比,我挑幾個關鍵的給大家翻譯翻譯:

  • SWE-bench Verified :77.2(3.5-397B 是 76.2)

  • SWE-bench Pro :53.5(3.5-397B 是 50.9)

  • Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)

  • SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,這個差距有點離譜)

  • GPQA Diamond :87.8

  • AIME 2026 :94.1

橫向對比 Claude 4.5 Opus 這種閉源旗艦,編碼上基本也就差個 1~5 分,Terminal-Bench 居然打平(都是 59.3)

這個參數量做到這個水平,我只能說阿里這波是真卷出來了,對得起大家的期待

這次更新的核心賣點就兩個:

  • Agentic Coding :前端任務、倉庫級代碼推理都明顯更順滑,這次是 real-world coding 直接對標 Claude

  • Thinking Preservation :多輪對話時可以保留歷史的 thinking 上下文,代碼迭代開發場景下,不用每輪都重新"想一遍"了

模型架構也有點意思:

  • 參數量:27B(Dense,不是 MoE,部署簡單)

  • 上下文:原生 262,144 tokens,可擴展到 1,010,000 tokens (百萬級)

  • 層數:64 層,隱藏維度 5120

  • Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))

  • 多模態:自帶 Vision Encoder,圖片、視頻、文檔通吃

  • 支持 MTP(Multi-Token Prediction),推理速度有加成

Gated DeltaNet + Gated Attention 的混合架構,是 Qwen3.5 就開始用的,和純 Attention 比,長上下文時顯存友好很多。這也是為什么它敢說百萬上下文。

順便提一句,這次還同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方說「性能指標幾乎與原始模型一致」,顯存能砍掉一半左右,對本地部署是重磅利好

為什么這個 27B 值得你重點關注

老章這里掰開聊一下,27B Dense 這個尺寸對社區為什么是 sweet spot:

  1. 部署簡單 :Dense 架構沒有 MoE 路由那一套,不用折騰專家并行,vLLM/SGLang 直接一把梭

  2. 硬件門檻適中 :BF16 大約需要 54GB 顯存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,單張 48G 的 L40S / A6000 Ada 就能跑

  3. 能力不妥協 :前面 benchmark 已經證明了,它比上一代 397B 還強

  4. 純開源權重 :Hugging Face 和 ModelScope 都有官方權重,商用隨便

你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不動的,現在中間這檔終于有了像樣的選手

本地部署(重點來了)

這次官方推薦 3 條路子:SGLang / vLLM / Hugging Face Transformers,另外還支持 KTransformers 做 CPU-GPU 異構推理。

老章個人生產環境里最喜歡的是 vLLM

1. vLLM 部署(推薦)

版本要求 vllm>=0.19.0,裝新一點準沒錯:

uv pip install vllm --torch-backend=auto

標準啟動(8 卡 tensor parallel、262K 上下文):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3

帶 Tool Call(Coding Agent 場景必開):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder

開啟 MTP(多 Token 預測,推理提速)

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

只用文本能力(省顯存,砍掉視覺編碼器,給 KV Cache 讓路):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only

老章提個醒:官方明確說"如果 OOM 別無腦降 context,建議最少保留 128K,否則 thinking 能力會被閹割"

2. SGLang 部署

版本 sglang>=0.5.10

uv pip install sglang[all]

標準啟動:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3

帶 Tool Use:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder

開啟 MTP(投機解碼):

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
3. Transformers 輕量部署(測試用)

顯存夠、但懶得裝 vLLM/SGLang,直接官方 Transformers 自帶的 server 也行:

pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

注意這個是輕量級的,測試可以,上生產還是老老實實 vLLM/SGLang。

4. 顯存不夠?上 FP8 版

本地卡不夠的兄弟,直接把模型名換成 Qwen/Qwen3.6-27B-FP8 即可,其他啟動參數一毛一樣

官方說指標幾乎無損,顯存需求直接腰斬

vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3

雙卡 4090、單卡 L40S/A6000 Ada 跑起來都挺香

使用

起好服務后,接口完全兼容 OpenAI,老配方了

采樣參數官方推薦值(這個很關鍵,別瞎調):

  • 思考模式(通用): temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0

  • 思考模式(精確編碼,如 WebDev): temperature=0.6, top_p=0.95, top_k=20

  • 非思考模式: temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

純文本請求:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=0.0,
extra_body={"top_k": 20},
)
print(resp)

默認開啟思考,輸出里會有 ... 包裹的思考內容,不想要就按非思考模式的參數調。

多模態(圖片)請求:

messages = [{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": "https://your-image-url.jpg"}},
{"type": "text", "text": "這張圖里有幾個圓?"},
]
}]


resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)

視頻輸入也一樣,把 type 換成 video_url 即可,官方 demo 里都有。

老章小結

優點:

  • 27B Dense,部署友好,社區期盼已久的甜點尺寸終于來了

  • Agentic Coding 能力真的強,SWE-bench 干翻 397B MoE 老大哥

  • 原生 262K,可擴到 1M 上下文,倉庫級代碼任務夠用

  • 多模態 + 文本雙修,一個模型吃到底

  • FP8 量化版同步放出,本地部署門檻再降一半

  • vLLM / SGLang / Transformers / KTransformers 全棧支持

局限:

  • 27B 的盤子再怎么煉,HLE 這種超硬核推理題還是打不過 397B 和 Claude 4.5 Opus

  • 默認開啟 thinking,某些對延遲敏感的線上場景要注意切模式

  • context 不建議壓縮到 128K 以下,否則 thinking 會退化(說明這個長上下文是設計內的,硬核縮不動)

  • 關注?一波,明天出本地部署性能實測

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外交部:中方禁止對日本的軍事用戶軍事用途出口 目的是制止日本“再軍事化”和擁核的企圖

外交部:中方禁止對日本的軍事用戶軍事用途出口 目的是制止日本“再軍事化”和擁核的企圖

極目新聞
2026-06-18 15:47:16
國際油價直線跳水,外媒稱以色列與黎巴嫩真主黨已同意停火

國際油價直線跳水,外媒稱以色列與黎巴嫩真主黨已同意停火

21世紀經濟報道
2026-06-19 22:10:50
人大代表:建議將機關企事業單位工齡滿30年的帶薪年假延長到20天

人大代表:建議將機關企事業單位工齡滿30年的帶薪年假延長到20天

職場資深秘書
2026-06-19 11:33:48
"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

深圳晚報
2026-06-17 12:10:46
最煩親戚之間的假客氣,網友:這些彎彎繞太復雜了

最煩親戚之間的假客氣,網友:這些彎彎繞太復雜了

阿康四歲啦
2026-06-20 14:30:49
董方卓公開質疑梅西戴帽!直言進了淘汰賽誰會慣著你,引發熱議

董方卓公開質疑梅西戴帽!直言進了淘汰賽誰會慣著你,引發熱議

振剛說足球
2026-06-19 10:30:27
今日足協杯裁判:杜健鑫執法山東泰山客戰廣西恒宸

今日足協杯裁判:杜健鑫執法山東泰山客戰廣西恒宸

懂球帝
2026-06-20 11:28:50
別笑了鄭州汽配城火災那個躺平的醉漢,其實是我們大多數人的縮影

別笑了鄭州汽配城火災那個躺平的醉漢,其實是我們大多數人的縮影

小影的娛樂
2026-06-20 12:36:05
賓利新車官宣,6月20日,已正式上市

賓利新車官宣,6月20日,已正式上市

科技堡壘
2026-06-20 11:55:05
齊達內全家合影曝光!三個兒子碌碌無為,最矮二兒子卻成全村希望

齊達內全家合影曝光!三個兒子碌碌無為,最矮二兒子卻成全村希望

觀星娛記
2026-06-18 15:27:16
澤連斯基做夢都沒想到,先來的不是俄軍攻城,而是中方劃下的紅線

澤連斯基做夢都沒想到,先來的不是俄軍攻城,而是中方劃下的紅線

芳芳歷史燴
2026-05-30 21:17:02
哈里王子全家時隔4年將重返英國,王室提供莊園住宿,無專屬安保

哈里王子全家時隔4年將重返英國,王室提供莊園住宿,無專屬安保

譯言
2026-06-20 07:35:58
基恩炮轟世界杯太太團:球員伴侶穿丈夫球衣簡直太荒唐了

基恩炮轟世界杯太太團:球員伴侶穿丈夫球衣簡直太荒唐了

懂球帝
2026-06-20 11:28:50
佩佩怒懟伊布:你只是過客,而C羅將被歷史永遠銘記!

佩佩怒懟伊布:你只是過客,而C羅將被歷史永遠銘記!

體育閑話說
2026-06-20 07:34:46
有哪些著名的陽謀?看網友講述感覺自己的腦子不夠用了。

有哪些著名的陽謀?看網友講述感覺自己的腦子不夠用了。

侃神評故事
2026-06-17 15:16:27
《教父》:壞人敢騎在你頭上作惡,從不是他實力強,也不是你太軟弱,而是你身上飄著這2個任人拿捏的弱者信號

《教父》:壞人敢騎在你頭上作惡,從不是他實力強,也不是你太軟弱,而是你身上飄著這2個任人拿捏的弱者信號

心理觀察局
2026-06-20 07:17:08
巴基斯坦總理取消瑞士之行 美伊諒解備忘錄簽署儀式將于明日在瑞士舉行

巴基斯坦總理取消瑞士之行 美伊諒解備忘錄簽署儀式將于明日在瑞士舉行

每日經濟新聞
2026-06-20 10:31:11
馬上停止5類運動,很可能加速血栓形成,等血管“堵死”就遲了

馬上停止5類運動,很可能加速血栓形成,等血管“堵死”就遲了

觀星賞月
2026-06-20 15:48:44
320.9萬元起!新款賓利飛馳上市

320.9萬元起!新款賓利飛馳上市

新浪財經
2026-06-20 16:09:28
《百年孤獨》揭露最殘酷真相:人走到最后,能托住你的不是父母,不是伴侶,而是你早年種下的這兩顆種子

《百年孤獨》揭露最殘酷真相:人走到最后,能托住你的不是父母,不是伴侶,而是你早年種下的這兩顆種子

心理觀察局
2026-06-20 07:38:37
2026-06-20 17:07:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3436文章數 11166關注度
往期回顧 全部

科技要聞

DeepSeek上線識圖模式,看誰都像梁文鋒

頭條要聞

特朗普和高市早苗當眾發生口角 日媒:真是令人震驚

頭條要聞

特朗普和高市早苗當眾發生口角 日媒:真是令人震驚

體育要聞

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

娛樂要聞

官媒發文,張柏芝終迎一大喜訊

財經要聞

金飾克價年內大跌近450元 跌幅最高達26%

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

本地
時尚
旅游
藝術
公開課

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

白背心能顯瘦?關鍵在領口和肩帶

旅游要聞

半兩財經|端午京城文旅消費雙線飄紅

藝術要聞

投資20億!中國第一大民企的浙江總部,正式啟動!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版