網易首頁 > 網易號 > 正文申請入駐

大模型本地部署最強引擎，vLLM 又發大版本了，v0.23.0

2026-06-15 23:05:22　來源: Ai學習的老章

北京舉報

分享至

vLLM 是當前最流行的開源大模型推理引擎之一，從 DeepSeek 到 Llama 到 Qwen，基本上你能想到的主流模型它都支持

這次 v0.23.0 版本的核心主題就一句話：讓更多模型跑得更快，讓更多硬件用得上

1. DeepSeek-V4 全面成熟

，這次直接做了一大輪硬化和優化。稀疏 MLA 元數據從 V3.2 中解耦，加了 TRTLLM gen attention kernel，EPLB 支持 Mega-MoE，滑動窗口 KV cache 的選擇性前綴緩存保留，DSA MTP 的 index-share 特性——看不懂沒關系，總結就是：跑 DeepSeek-V4 現在穩多了，快多了

更關鍵的是，模型從 torch.compile 中解耦了，意味著啟動速度和兼容性都上了一個臺階。甚至還加了 XPU attention decode 路徑，Intel 顯卡也能跑了

2. Model Runner V2 覆蓋更多主流模型

MRv2（Model Runner V2）現在默認對 Llama 和 Mistral dense 模型啟用了，加上之前的 Qwen3，基本上主流開源模型全覆蓋。新增了 FlashInfer 采樣器、可中斷 CUDA graph、流水線并行氣泡消除、混合模型 kernel block-size 支持，以及 Gemma 4 MTP

如果你在生產環境用 Llama 或 Mistral，升級到 v0.23.0 會自動享受到 MRv2 帶來的性能提升，不需要手動配置

3. Rust 前端長大了

實驗性的 Rust 前端這次加了一堆生產級特性：streaming generate 端點、動態 LoRA 端點、/version 和 /server_info 端點、服務器路由擴展鉤子、請求 ID header，還有一堆新的 tool parser（InternLM2、hy_v3、Phi-4-mini、Gemma4）

說實話，Rust 前端的進度超出我預期。照這個速度，下個大版本可能就不是 "experimental" 了

4. Gemma 4 全方位支持

：encoder-free 的 Gemma 4 Unified、Gemma 4 MTP（多 token 預測），以及一堆準確性和啟動修復。量化時自動排除 vision embedder，ViT 線性層轉換為 vLLM 原生實現

5. 多層級 KV Cache 卸載

KV cache 卸載框架新增了 object-store 作為二級存儲層，HMA 默認啟用，還支持按請求級別設置卸載策略。這對超長上下文場景太有用了——顯存不夠？往 CPU 甚至對象存儲里卸

性能提升

這次的性能優化很實在：

CUTLASS FP8 scaled-mm padding bypass ：提升 20%
MoE-permute buffer 預分配 ：提升 9-14%
Triton MoE 后端在 Hopper 上默認啟用
H200/RTX PRO 的 selective_state_update 調優
Gemma RMS all-reduce 融合
DGX B300 的 NUMA 自動綁定

20% 的提升不是靠算法創新，純粹是工程優化把冗余計算干掉了。這種"臟活"最見功力

硬件支持

這個版本的硬件覆蓋范圍簡直離譜：

NVIDIA ：Hopper（H100/H200）全面優化，新增 DGX B300 NUMA 綁定
AMD ROCm ：升級到 7.2.3，AITER v0.1.13.post1，RDNA3（gfx1100）原生 W4A16 kernel
Intel XPU ：vllm-xpu-kernel v0.1.7，FP8 MoE，DeepSeek-V4 decode 路徑
CPU ：AMD Zen CPU 加速（zentorch），CPU Triton 采樣
TPU ：tpu-inference 升級到 v0.21.0
RISC-V ：WNA16 helpers（是的，RISC-V！）
ARM64 ：CI 鏡像支持
PowerPC ：SHM communicator

一個推理引擎同時跑在 7 種架構上，這在開源界也是頭一份了吧

新增模型

Step-3.7-Flash ：階躍星辰的 Flash 版本
Cosmos3 Reasoner ：NVIDIA 的推理模型
Gemma 4 Unified ：Google 的 encoder-free 多模態
JetBrains Mellum v2 ：代碼生成模型
Granite Speech Plus ：IBM 的語音模型
Cohere Mini Code ：Cohere 的代碼小模型

加上一堆修復：Qwen3-VL、GLM-5.1、GLM-4.1V、MiniCPM-V-4.6、Kimi-K2.5……基本上你在國內能用到的模型，這個版本都照顧到了

API 更新

Anthropic Messages API ：支持結構化輸出和 effort 參數
OpenAI Responses API ： system_fingerprint 字段、streaming tool calling with required
統一 Parser ：推理（reasoning）和工具調用（tool-call）的解析統一到了 Parser.parse() 接口

這個統一 Parser 是個好設計，之前推理輸出和工具調用是兩套解析邏輯，現在合一了，對下游應用開發者來說是好消息

安裝

pip install vllm==0.23.0

如果你需要特定硬件支持（比如 ROCm），參考官方文檔選對應的安裝命令

不建議升級的場景：如果你當前版本運行穩定且不用上述新特性，觀望一兩周等社區反饋也可以

注意：MiniMax M3 在這個版本還不支持，需要按照 vLLM recipe 操作

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.