網易首頁 > 網易號 > 正文 申請入駐

vLLM 部署 Qwen3.5 滿血&量化版,并發性能測試,附部署腳本

0
分享至

最近openclaw在國內火的優點離譜,脫離其實力范圍的火,以至于我也要在文中加上兩句才可能有流量。。。主要是我個人一直玩的是自己折騰的一套,比較放心

不過本周我會測試國產的兩個claw,敬請期待。

本文繼續折騰Qwen3.5 不出意外是最后一篇了。

Qwen3.5 系列我一直沒有拿 vLLM 部署,,趁著周末,玩一下。

首先需要升級 vLLM,唯一需要注意的是自己的硬件及 CUDA 版本


我的系統總是有幺蛾子,所有還是用的 Docker

正常拉取鏡像即可:docker pull vllm/vllm-openai:v0.17.0

我是 4090 的卡,所以選擇官方 FP8

35B 權重文件 37GB

27B 權重文件 30GB


遭遇各種 OOM 之后。。。。


最終調整到了一版合適的參數,腳本以 35B 為例,27B 僅需修改模型文具地址和對應 name 即可,我只有 4 卡,所有還要測完 35B 后 stop 才能起 27B

#!/usr/bin/env bash
set -euo pipefail

MODEL_DIR="/data/models/Qwen3.5-35B-A3B-FP8"
CONTAINER_NAME="qwen35-35b-a3b-fp8"
PORT=8000

docker rm -f ${CONTAINER_NAME} 2>/dev/null || true

docker run -d \
--name ${CONTAINER_NAME} \
--gpus '"device=0,1,2,3"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v ${MODEL_DIR}:/model:ro \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
-e VLLM_USE_V1=1 \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35b-a3b-fp8 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 4 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0 \
--port 8000

這里說明一下
--tensor-parallel-size 4我又 4 張 4090 顯卡
--max-model-len 262144是我的強需求,可以稍微犧牲一點并發
--kv-cache-dtype fp8這是為了降低 KV cache 內存占用,從而支持更長上下文
--gpu-memory-utilization 0.9是為了給真實運行時留空間。實際部署中,除了權重和 KV cache,還會吃掉顯存的還有:CUDA graph、NCCL 通信 buffer、allocator 碎片、連續 batching 帶來的波動等等
--max-num-seqs 4避免長上下文 + 高并發疊加把顯存直接頂爆,感覺還有空間往上加
--max-num-batched-tokens 8192參數控制一次調度里的總 token 規模。它過大時,會帶來更高吞吐,但也會加大運行時顯存波動和調度壓力
--language-model-only我不需要多模態,所以只要文本推理
--enable-prefix-caching高效的 KV 管理和吞吐優化參數
--default-chat-template-kwargs '{"enable_thinking": false}':加了思考我這配置卡的很,思考太過漫長了

而且我用的 FP8 它的思考居然是英文


實際運行,性能特別差 27B 幾乎沒有并發能力,35B-A3B 還可以,但是 RPS 很低,首 Token 延遲都奔 10s 了


沒辦法,我放棄官方 FP8,上了 4bit


cyankiwi/Qwen3.5-35B-A3B-AWQ-4bitcyankiwi/Qwen3.5-27B-AWQ-4bit

然后使用了同樣的部署腳本,只是它倆更省卡,2 張 4090 就能跑起來,我可以同時跑 27B 和 35B,而且我還在原代碼基礎上 加大了 max-num-seqs


Moe 確實省顯卡

我把它倆接入到了 openwebui,都關閉思考情況下,27B 也慢得多!看樣子我之前的判斷大錯特錯了,27 太拉垮了。

日志顯示 27B 70+ t/s


35B 100+ t/s



代碼能力呢,都不太能看,臥龍鳳雛了


性能方面,27B 依然相當差勁,比 PF8 好多了


35B 比 FP8 提升多了,也比 27B 強多了


總結,以我的需求,暫時不想替代 Qwen3-32B,還是 32B 跟穩。

而且 3.5 還整了騷操作,把開頭的 從“動態生成”變成了“靜態預置”,下游對接的系統苦了。。。要么模型測,要么應用測,是要改的。

再加上它本身不支持思考與否的軟關閉,這個級別能力提升也不見得能彌補這些缺點,企業級應用,我感覺很多都不太樂意升 3.5

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

西樓知趣雜談
2026-04-23 10:50:03
拍《風云》時,導演為省錢給江祖平戴了條繩,竟撐起一個時代審美

拍《風云》時,導演為省錢給江祖平戴了條繩,竟撐起一個時代審美

蕭狡科普解說
2026-04-23 06:09:07
《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
從“恐俄”到“祛魅”:俄烏戰爭如何終結了歐洲的百年心魔

從“恐俄”到“祛魅”:俄烏戰爭如何終結了歐洲的百年心魔

民間胡扯老哥
2026-04-22 04:47:09
數學的本質到底是什么?看完這篇文章你會愛上數學

數學的本質到底是什么?看完這篇文章你會愛上數學

真相Truth
2026-04-06 06:30:12
女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

孤獨的獨角獸影視
2026-04-23 09:20:10
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

阿握聊事
2026-04-24 00:23:37
錢是有靈性的,記住以下六點,你會越來越有錢

錢是有靈性的,記住以下六點,你會越來越有錢

金沛的國學筆記
2026-04-21 18:53:07
記者:湖人調整里夫斯出戰情況,球員有望G3復出

記者:湖人調整里夫斯出戰情況,球員有望G3復出

懂球帝
2026-04-24 07:30:36
警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

田先生籃球
2026-04-23 10:07:58
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

極目新聞
2026-04-23 15:05:28
用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

快科技
2026-04-23 19:07:05
穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

大運河時空
2026-04-21 16:30:03
兒子回國當晚國安上門,說他指紋虹膜全不對,這人是誰?

兒子回國當晚國安上門,說他指紋虹膜全不對,這人是誰?

曉艾故事匯
2026-01-07 10:14:33
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

墨印齋
2026-04-23 12:35:16
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
最新民調出爐!蔣萬安奪冠,鄭麗文墊底,國民黨又要變天了?

最新民調出爐!蔣萬安奪冠,鄭麗文墊底,國民黨又要變天了?

天仙無味小仙女
2026-04-24 02:23:37
一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

半解智士
2026-04-23 10:04:34
金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

小徐講八卦
2026-04-24 06:06:44
2026-04-24 09:20:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

時尚
藝術
教育
旅游
家居

今年最好看的3個顏色,太適合夏天了!

藝術要聞

江青對聯驚艷眾人,書法與寫字的界限究竟在哪?

教育要聞

相似無刻度直尺作圖,一個視頻學會!

旅游要聞

走進櫸溪村

家居要聞

浪漫協奏 法式風格

無障礙瀏覽 進入關懷版