无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大模型本地部署最強引擎,vLLM 又發大版本了,v0.23.0

0
分享至

vLLM 是當前最流行的開源大模型推理引擎之一,從 DeepSeek 到 Llama 到 Qwen,基本上你能想到的主流模型它都支持


這次 v0.23.0 版本的核心主題就一句話:讓更多模型跑得更快,讓更多硬件用得上


1. DeepSeek-V4 全面成熟

,這次直接做了一大輪硬化和優化。稀疏 MLA 元數據從 V3.2 中解耦,加了 TRTLLM gen attention kernel,EPLB 支持 Mega-MoE,滑動窗口 KV cache 的選擇性前綴緩存保留,DSA MTP 的 index-share 特性——看不懂沒關系,總結就是:跑 DeepSeek-V4 現在穩多了,快多了

更關鍵的是,模型從 torch.compile 中解耦了,意味著啟動速度和兼容性都上了一個臺階。甚至還加了 XPU attention decode 路徑,Intel 顯卡也能跑了

2. Model Runner V2 覆蓋更多主流模型

MRv2(Model Runner V2)現在默認對 Llama 和 Mistral dense 模型啟用了,加上之前的 Qwen3,基本上主流開源模型全覆蓋。新增了 FlashInfer 采樣器、可中斷 CUDA graph、流水線并行氣泡消除、混合模型 kernel block-size 支持,以及 Gemma 4 MTP

如果你在生產環境用 Llama 或 Mistral,升級到 v0.23.0 會自動享受到 MRv2 帶來的性能提升,不需要手動配置

3. Rust 前端長大了

實驗性的 Rust 前端這次加了一堆生產級特性:streaming generate 端點、動態 LoRA 端點、/version/server_info 端點、服務器路由擴展鉤子、請求 ID header,還有一堆新的 tool parser(InternLM2、hy_v3、Phi-4-mini、Gemma4)

說實話,Rust 前端的進度超出我預期。照這個速度,下個大版本可能就不是 "experimental" 了

4. Gemma 4 全方位支持

:encoder-free 的 Gemma 4 Unified、Gemma 4 MTP(多 token 預測),以及一堆準確性和啟動修復。量化時自動排除 vision embedder,ViT 線性層轉換為 vLLM 原生實現

5. 多層級 KV Cache 卸載

KV cache 卸載框架新增了 object-store 作為二級存儲層,HMA 默認啟用,還支持按請求級別設置卸載策略。這對超長上下文場景太有用了——顯存不夠?往 CPU 甚至對象存儲里卸

性能提升

這次的性能優化很實在:

  • CUTLASS FP8 scaled-mm padding bypass :提升 20%

  • MoE-permute buffer 預分配 :提升 9-14%

  • Triton MoE 后端在 Hopper 上默認啟用

  • H200/RTX PRO 的 selective_state_update 調優

  • Gemma RMS all-reduce 融合

  • DGX B300 的 NUMA 自動綁定

20% 的提升不是靠算法創新,純粹是工程優化把冗余計算干掉了。這種"臟活"最見功力

硬件支持

這個版本的硬件覆蓋范圍簡直離譜:

  • NVIDIA :Hopper(H100/H200)全面優化,新增 DGX B300 NUMA 綁定

  • AMD ROCm :升級到 7.2.3,AITER v0.1.13.post1,RDNA3(gfx1100)原生 W4A16 kernel

  • Intel XPU :vllm-xpu-kernel v0.1.7,FP8 MoE,DeepSeek-V4 decode 路徑

  • CPU :AMD Zen CPU 加速(zentorch),CPU Triton 采樣

  • TPU :tpu-inference 升級到 v0.21.0

  • RISC-V :WNA16 helpers(是的,RISC-V!)

  • ARM64 :CI 鏡像支持

  • PowerPC :SHM communicator

一個推理引擎同時跑在 7 種架構上,這在開源界也是頭一份了吧

新增模型

  • Step-3.7-Flash :階躍星辰的 Flash 版本

  • Cosmos3 Reasoner :NVIDIA 的推理模型

  • Gemma 4 Unified :Google 的 encoder-free 多模態

  • JetBrains Mellum v2 :代碼生成模型

  • Granite Speech Plus :IBM 的語音模型

  • Cohere Mini Code :Cohere 的代碼小模型

加上一堆修復:Qwen3-VL、GLM-5.1、GLM-4.1V、MiniCPM-V-4.6、Kimi-K2.5……基本上你在國內能用到的模型,這個版本都照顧到了

API 更新

  • Anthropic Messages API :支持結構化輸出和 effort 參數

  • OpenAI Responses APIsystem_fingerprint 字段、streaming tool calling with required

  • 統一 Parser :推理(reasoning)和工具調用(tool-call)的解析統一到了 Parser.parse() 接口

這個統一 Parser 是個好設計,之前推理輸出和工具調用是兩套解析邏輯,現在合一了,對下游應用開發者來說是好消息

安裝

pip install vllm==0.23.0

如果你需要特定硬件支持(比如 ROCm),參考官方文檔選對應的安裝命令

不建議升級的場景:如果你當前版本運行穩定且不用上述新特性,觀望一兩周等社區反饋也可以

注意:MiniMax M3 在這個版本還不支持,需要按照 vLLM recipe 操作


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

都市快報橙柿互動
2026-06-17 22:17:34
上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態回春

上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態回春

一個小豹子
2026-06-16 20:23:20
陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復婚

陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復婚

喜歡歷史的阿繁
2026-06-18 02:13:58
還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

史料布籍
2026-06-17 10:27:47
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

健康科普365
2026-05-09 21:05:04
有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

圣西羅的太陽
2026-06-17 12:07:38
在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

每日經濟新聞
2026-06-17 15:58:49
20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩中向好”?

20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩中向好”?

戧詞奪理
2026-06-17 16:00:17
離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
3-2!3-0!世聯賽:有驚無險,中國女排3:2逆轉德國女排

3-2!3-0!世聯賽:有驚無險,中國女排3:2逆轉德國女排

寶哥精彩賽事
2026-06-17 21:49:22
穆勒曬和梅西的合照:這家伙是goat

穆勒曬和梅西的合照:這家伙是goat

懂球帝
2026-06-17 11:44:39
烏軍在多戰場取得重大突破,俄軍節節敗退。

烏軍在多戰場取得重大突破,俄軍節節敗退。

世界探索發現
2026-04-22 01:08:43
特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

追星雷達站
2026-06-18 01:00:22
你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

夢醉為紅顏一笑
2026-06-12 20:44:29
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

明天后天大后天
2026-06-17 04:42:38
佛山徹底失守!廣東第三城易主

佛山徹底失守!廣東第三城易主

洞見報告
2026-05-02 18:55:22
特朗普突然表態:以色列不用停火,但必須"保持分寸"

特朗普突然表態:以色列不用停火,但必須"保持分寸"

桂系007
2026-06-17 23:50:23
官方:B席加盟皇馬,雙方簽約至2028年

官方:B席加盟皇馬,雙方簽約至2028年

懂球帝
2026-06-17 17:23:22
再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

一條
2026-06-17 11:25:07
2026-06-18 04:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

時尚
本地
親子
房產
軍事航空

1分鐘1萬塊:我在飯圈,交易人性

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

親子要聞

你把我也嚇一跳,真的沒必要

房產要聞

最新房價:海口、三亞;新房、二手房全線下跌!

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版