vLLM 是當前最流行的開源大模型推理引擎之一,從 DeepSeek 到 Llama 到 Qwen,基本上你能想到的主流模型它都支持
![]()
這次 v0.23.0 版本的核心主題就一句話:讓更多模型跑得更快,讓更多硬件用得上
![]()
1. DeepSeek-V4 全面成熟
,這次直接做了一大輪硬化和優化。稀疏 MLA 元數據從 V3.2 中解耦,加了 TRTLLM gen attention kernel,EPLB 支持 Mega-MoE,滑動窗口 KV cache 的選擇性前綴緩存保留,DSA MTP 的 index-share 特性——看不懂沒關系,總結就是:跑 DeepSeek-V4 現在穩多了,快多了
更關鍵的是,模型從 torch.compile 中解耦了,意味著啟動速度和兼容性都上了一個臺階。甚至還加了 XPU attention decode 路徑,Intel 顯卡也能跑了
2. Model Runner V2 覆蓋更多主流模型
MRv2(Model Runner V2)現在默認對 Llama 和 Mistral dense 模型啟用了,加上之前的 Qwen3,基本上主流開源模型全覆蓋。新增了 FlashInfer 采樣器、可中斷 CUDA graph、流水線并行氣泡消除、混合模型 kernel block-size 支持,以及 Gemma 4 MTP
如果你在生產環境用 Llama 或 Mistral,升級到 v0.23.0 會自動享受到 MRv2 帶來的性能提升,不需要手動配置
3. Rust 前端長大了
實驗性的 Rust 前端這次加了一堆生產級特性:streaming generate 端點、動態 LoRA 端點、/version 和 /server_info 端點、服務器路由擴展鉤子、請求 ID header,還有一堆新的 tool parser(InternLM2、hy_v3、Phi-4-mini、Gemma4)
說實話,Rust 前端的進度超出我預期。照這個速度,下個大版本可能就不是 "experimental" 了
4. Gemma 4 全方位支持
:encoder-free 的 Gemma 4 Unified、Gemma 4 MTP(多 token 預測),以及一堆準確性和啟動修復。量化時自動排除 vision embedder,ViT 線性層轉換為 vLLM 原生實現
5. 多層級 KV Cache 卸載
KV cache 卸載框架新增了 object-store 作為二級存儲層,HMA 默認啟用,還支持按請求級別設置卸載策略。這對超長上下文場景太有用了——顯存不夠?往 CPU 甚至對象存儲里卸
性能提升
這次的性能優化很實在:
CUTLASS FP8 scaled-mm padding bypass :提升 20%
MoE-permute buffer 預分配 :提升 9-14%
Triton MoE 后端在 Hopper 上默認啟用
H200/RTX PRO 的 selective_state_update 調優
Gemma RMS all-reduce 融合
DGX B300 的 NUMA 自動綁定
20% 的提升不是靠算法創新,純粹是工程優化把冗余計算干掉了。這種"臟活"最見功力
硬件支持
這個版本的硬件覆蓋范圍簡直離譜:
NVIDIA :Hopper(H100/H200)全面優化,新增 DGX B300 NUMA 綁定
AMD ROCm :升級到 7.2.3,AITER v0.1.13.post1,RDNA3(gfx1100)原生 W4A16 kernel
Intel XPU :vllm-xpu-kernel v0.1.7,FP8 MoE,DeepSeek-V4 decode 路徑
CPU :AMD Zen CPU 加速(zentorch),CPU Triton 采樣
TPU :tpu-inference 升級到 v0.21.0
RISC-V :WNA16 helpers(是的,RISC-V!)
ARM64 :CI 鏡像支持
PowerPC :SHM communicator
一個推理引擎同時跑在 7 種架構上,這在開源界也是頭一份了吧
新增模型
Step-3.7-Flash :階躍星辰的 Flash 版本
Cosmos3 Reasoner :NVIDIA 的推理模型
Gemma 4 Unified :Google 的 encoder-free 多模態
JetBrains Mellum v2 :代碼生成模型
Granite Speech Plus :IBM 的語音模型
Cohere Mini Code :Cohere 的代碼小模型
加上一堆修復:Qwen3-VL、GLM-5.1、GLM-4.1V、MiniCPM-V-4.6、Kimi-K2.5……基本上你在國內能用到的模型,這個版本都照顧到了
API 更新
Anthropic Messages API :支持結構化輸出和 effort 參數
OpenAI Responses API :
system_fingerprint字段、streaming tool calling withrequired統一 Parser :推理(reasoning)和工具調用(tool-call)的解析統一到了
Parser.parse()接口
這個統一 Parser 是個好設計,之前推理輸出和工具調用是兩套解析邏輯,現在合一了,對下游應用開發者來說是好消息
安裝
pip install vllm==0.23.0
如果你需要特定硬件支持(比如 ROCm),參考官方文檔選對應的安裝命令
不建議升級的場景:如果你當前版本運行穩定且不用上述新特性,觀望一兩周等社區反饋也可以
注意:MiniMax M3 在這個版本還不支持,需要按照 vLLM recipe 操作
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.