網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6-35B 量化版,vLLM本地部署,性能實測

0
分享至

一文中我把這個模型和本地部署(原版以及 GGUF)講清楚了,但是它 70 多個 GB 的模型文件,我的 4090 吃起來很費勁。

昨天我又向大家介紹了 ,包括 4bit 量化版、推理加速版、Claude Opus 蒸餾版,模型文件壓到 20GB 左右就舒服多了


我更喜歡的事 vLLM 啟動,兼顧速度與并發,內網其他業務系統也能用到

我之前部署了 Qwen3.5-35B 的這個量化版本,vLLM 0.17 部署它很完美

關閉思考之后的性能測試,單并發可以到 148Token/s

PS:以下測試均為關閉思考后的結果 Qwen3.6關閉思考方式沒變


雖然官方建議是 vLLM 0.19 起步,但是我發現 0.17 也可以拉起 Qwen3.6-35B

啟動腳本:

set -euo pipefail

MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004

docker rm -f "${CONTAINER_NAME}" 2>/dev/null || true

docker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000

100K 上下文的顯存占用


性能測試,稍微弱于 Qwen3.5 一丟丟,微乎其微


,用它啟動 Qwen3.6-35B-A5B,性能又弱了一丟丟。。。


內網沒辦法做 toolcall 測試,我只是簡單對比了一下它們的編程能力


代碼量上,3.5 大約 477 行,3.6 大約 256 行

3.5 明顯更長,用 CSS 動畫實現,但長出來的很多部分其實是解釋、重復和前后不一致的內容,不是真正有效的實現,沒次刷新頁面才能短暫看到燃放瞬間。


3.6 的想法更單純,就是用 Cancas 把煙花升空、爆開、消散這一整套過程連續畫出來,甚至還用了數據計算模擬重力,所以方向更清楚,最大的問題是畫面位置弄錯了,所以我實際打開時幾乎就是黑屏


半斤八兩吧,初版都有 bug,指出問題重新生成

最后看下生成速度 150 左右 tokens 每秒 還是很賞心悅目的

本文核心是性能測試,實際體驗,要再用用

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

小祁談歷史
2026-04-24 05:23:52
一位漂亮素雅的新娘子!

一位漂亮素雅的新娘子!

情感大頭說說
2026-04-24 04:45:22
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

小椰的奶奶
2026-04-23 14:52:12
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
更大規模海戰來了?

更大規模海戰來了?

中國新聞周刊
2026-04-22 20:50:08
段睿深夜悲痛發文:再也沒有人等我回去了!

段睿深夜悲痛發文:再也沒有人等我回去了!

原夢叁生
2026-04-22 20:06:36
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

離離言幾許
2026-04-24 07:12:13
她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

混沌錄
2026-04-23 17:11:04
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

今朝牛馬
2026-04-23 23:23:59
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

游古史
2026-04-24 04:01:53
10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

環球網資訊
2026-04-23 19:39:20
高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

瘋狂小菠蘿
2026-04-23 14:27:12
2026-04-24 09:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

房產
游戲
旅游
健康
數碼

房產要聞

三亞安居房,突然官宣!

《AC黑旗RE》超高清截圖公布!遠洋風光極致重塑

旅游要聞

走進櫸溪村

干細胞如何讓燒燙傷皮膚"再生"?

數碼要聞

榮耀新平板發布,全球最薄OLED,起步價3499元

無障礙瀏覽 進入關懷版