一文中我把這個模型和本地部署(原版以及 GGUF)講清楚了,但是它 70 多個 GB 的模型文件,我的 4090 吃起來很費勁。
昨天我又向大家介紹了 ,包括 4bit 量化版、推理加速版、Claude Opus 蒸餾版,模型文件壓到 20GB 左右就舒服多了
![]()
我更喜歡的事 vLLM 啟動,兼顧速度與并發,內網其他業務系統也能用到
我之前部署了 Qwen3.5-35B 的這個量化版本,vLLM 0.17 部署它很完美
關閉思考之后的性能測試,單并發可以到 148Token/s
PS:以下測試均為關閉思考后的結果 Qwen3.6關閉思考方式沒變
![]()
雖然官方建議是 vLLM 0.19 起步,但是我發現 0.17 也可以拉起 Qwen3.6-35B
啟動腳本:
set -euo pipefail
MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004
docker rm -f "${CONTAINER_NAME}" 2>/dev/null || truedocker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000
100K 上下文的顯存占用
![]()
性能測試,稍微弱于 Qwen3.5 一丟丟,微乎其微
![]()
,用它啟動 Qwen3.6-35B-A5B,性能又弱了一丟丟。。。
![]()
內網沒辦法做 toolcall 測試,我只是簡單對比了一下它們的編程能力
![]()
代碼量上,3.5 大約 477 行,3.6 大約 256 行
3.5 明顯更長,用 CSS 動畫實現,但長出來的很多部分其實是解釋、重復和前后不一致的內容,不是真正有效的實現,沒次刷新頁面才能短暫看到燃放瞬間。
![]()
3.6 的想法更單純,就是用 Cancas 把煙花升空、爆開、消散這一整套過程連續畫出來,甚至還用了數據計算模擬重力,所以方向更清楚,最大的問題是畫面位置弄錯了,所以我實際打開時幾乎就是黑屏
![]()
半斤八兩吧,初版都有 bug,指出問題重新生成
最后看下生成速度 150 左右 tokens 每秒 還是很賞心悅目的
本文核心是性能測試,實際體驗,要再用用
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.