无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

vLLM 最新版來了:推測解碼終于能跑思考模型了

0
分享至


vLLM 0.21.0 五個重點

聊聊剛剛發布的 vLLM v0.21.0


如果你只是本地單卡偶爾跑模型,升級可以先觀望

如果你在跑服務,尤其是 DeepSeek、Kimi、Qwen 這類模型,或者經常被 KV Cache、并發、顯存、鏡像體積折騰,這版值得認真看

簡介

vLLM 官方對自己的定位很直接:一個用于大模型推理和服務的快速、易用庫

它最有名的底層能力還是 PagedAttention,除此之外還有 continuous batching、chunked prefill、prefix caching、CUDA/HIP graph、量化、OpenAI 兼容 API、工具調用、reasoning parser、多硬件支持這些能力

說人話就是:你想把 Hugging Face 上的模型部署成一個能被應用調用的服務,vLLM 是目前最繞不開的選擇之一


五個重點

第一,Transformers v4 support 進入棄用周期

官方 release 的措辭是 formally deprecates transformers v4 support,建議遷移到 Transformers v5

這里要準確一點,deprecated 的含義是進入棄用周期,舊項目大概率還能跑一段時間,但信號已經很清楚了:還綁在 Transformers v4 上的部署鏈路,要開始排查兼容性了

我個人挺支持這件事,推理框架長期背著舊依賴往前走,最后會變成誰都不敢動的泥潭

代價也很現實,如果你有老插件、老模型封裝、魔改 tokenizer,升級前要多測幾遍

第二,源碼構建要求升級到 C++20

vLLM 現在要求 C++20-compatible compiler,用來匹配 PyTorch 相關構建變化,官方也明確標了 breaking build change

這條對直接 pip install 的用戶影響可能不大,對源碼編譯、內網離線構建、魔改 vLLM 的同學影響很大

尤其是企業內網機器,編譯器版本經常陳年老酒,一升級就露餡

第三,KV Offload 接上 Hybrid Memory Allocator

這條我很關注

KV Cache 是大模型服務里最容易吃掉顯存的東西,長上下文、多并發、推理模型一疊上來,顯存壓力會非常真實

v0.21.0 把 KV offloading subsystem 和 Hybrid Memory Allocator 進一步整合,release 里提到了 scheduler-side sliding window group support、full HMA enablement、multi-connector HMA、MooncakeStoreConnector 等一串更新

這類更新普通用戶看著不性感,但部署同學會懂:調度和內存管理穩一點,服務的上限就高一點

第四,推測解碼開始尊重 thinking budget

這個是我最想聊的點

推測解碼本來是用小模型或者 draft 機制幫大模型提前猜 token,用得好可以加速生成

問題是,推理模型多了一個很麻煩的東西:思考預算

模型什么時候想、想多久、哪些 token 屬于 reasoning,這些都會影響推測解碼的正確性

v0.21.0 的 release 明確寫了 Speculative decoding now respects reasoning/thinking budgets,目標是讓 reasoning models 的 spec decode 更正確

這句話看著短,但意義很大

DeepSeek-R1 之后,推理模型已經成了主流形態,推測解碼如果適配不了 thinking budget,就會在最熱門的模型類型上打折

當然,性能收益還要看模型、draft 模型、硬件和請求形態,別看到 spec decode 就默認吞吐翻倍

但方向是對的,而且是很關鍵的方向

第五,Blackwell 上來了 TOKENSPEED_MLA backend

如果你手里有 Blackwell,這條就很香

v0.21.0 新增 TOKENSPEED_MLA attention backend,面向 DeepSeek-R1/Kimi-K25 的 prefill + decode 場景

這說明 vLLM 的優化節奏越來越貼著新硬件走

普通消費級顯卡用戶不用為這條激動,但云廠商、企業推理集群、重度服務玩家會很關心

安裝

官方 Quickstart 推薦用 uv 管理環境,前置條件是 Linux,Python 3.10 到 3.13

如果你想鎖定這次 v0.21.0,可以這樣裝:

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm==0.21.0 --torch-backend=auto

官方文檔里的通用寫法是這樣,適合直接安裝當前版本:

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm --torch-backend=auto

--torch-backend=auto 這個參數挺省心,它會根據 CUDA driver 自動選擇合適的 PyTorch index

想臨時跑一下,也可以不創建長期環境:

uv run --with vllm vllm --help

如果是 AMD ROCm,官方給的是額外 index:

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm --extra-index-url https://wheels.vllm.ai/rocm/
使用

vLLM 最常見的玩法,是直接起一個 OpenAI-compatible server

官方 Quickstart 里用的是 Qwen2.5-1.5B-Instruct:

vllm serve Qwen/Qwen2.5-1.5B-Instruct

默認服務地址是:

http://localhost:8000

查看模型列表:

curl http://localhost:8000/v1/models

普通 completions 調用:

curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-1.5B-Instruct",
"prompt": "San Francisco is a",
"max_tokens": 7,
"temperature": 0
}'

Chat Completions 調用:

curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-1.5B-Instruct",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Tell me a joke."}
]
}'

Python 離線推理也很簡單:

from vllm import LLM, SamplingParams

prompts = [
"Hello, my name is",
"The future of AI is",
]

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="facebook/opt-125m")

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

這里有個小坑,官方文檔也提醒了:llm.generate 不會自動套 chat template

如果你跑的是 Instruct 或 Chat 模型,要自己套 tokenizer chat template,或者直接用 llm.chat

誰適合升級
升級 vLLM 0.21.0 前先看這里

我會把適合升級的人分成四類:

第一類,正在跑推理模型服務的人

DeepSeek-R1、Kimi、Qwen 這類模型是你主力服務時,thinking budget + speculative decoding 這條值得關注

哪怕你暫時不用 spec decode,也能看出 vLLM 后面會繼續圍繞 reasoning model 做優化

第二類,被 KV Cache 和并發壓得難受的人

長上下文、多用戶并發、RAG、多輪對話,這些場景都會把 KV Cache 壓力拉起來

KV Offload + HMA 相關更新很適合這類場景繼續觀察和測試

第三類,做集群和大規模服務的人

這版里 disaggregated serving、RayExecutorV2、DCP、NIXL、Mooncake connector 等更新不少

如果你只看本地跑一個模型,可能沒感覺

如果你維護推理集群,這些才是大頭

第四類,跟新硬件貼得很近的人

Blackwell、ROCm、CPU FP8、Intel XPU、IBM Power 都有更新

vLLM 已經越來越像一個多硬件推理調度底座,單純把它理解成 NVIDIA GPU 上的 LLM server,已經有點窄了

不急著升的情況

有幾種情況可以先穩住:

  • 你當前 vLLM 版本很穩定,近期沒有新模型、新硬件、新并發壓力

  • 你的環境依賴 Transformers v4,短期沒時間做兼容檢查

  • 你需要源碼構建,但機器上的編譯器很舊

  • 你只是用單卡本地玩玩模型,當前需求已經滿足

這版很強,但它帶著 breaking build change,升級前要尊重生產環境

總結

vLLM v0.21.0 給我的感覺,是一次很工程化的大版本升級

它清理舊依賴,抬高構建要求,繼續強化 KV Cache 和大規模服務能力,同時開始認真處理 reasoning model 時代的推測解碼問題

我最看重的是 thinking budget + speculative decoding,這代表推理框架開始真正適配“會思考”的模型

我最謹慎的是 C++20 和 Transformers v4 deprecation,這兩個點可能會讓老環境升級時踩坑

一句話建議:

生產服務玩家,建議盡快開灰度環境測

本地體驗玩家,可以等社區多跑幾天再動手

制作不易,如果這篇文章覺得對你有用,可否點個關注,給我個三連擊:點贊、轉發和在看,若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1:1戰平摩洛哥后,巴西又遭當頭一棒,致命壞消息,小組出線懸了

1:1戰平摩洛哥后,巴西又遭當頭一棒,致命壞消息,小組出線懸了

零度眼看球
2026-06-17 06:44:32
有退休金的人發現一個奇怪的現象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

有退休金的人發現一個奇怪的現象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

心理觀察局
2026-06-07 06:37:04
獨家:山姆首席采購官張青離職

獨家:山姆首席采購官張青離職

聯商網
2026-06-17 14:00:13
舒梅切爾:馬丁內斯浪費了比利時黃金一代,葡萄牙恐重蹈覆轍

舒梅切爾:馬丁內斯浪費了比利時黃金一代,葡萄牙恐重蹈覆轍

懂球帝
2026-06-18 04:06:39
比新生兒數量跌破800萬更可怕的,是生出來的男孩越來越多了!

比新生兒數量跌破800萬更可怕的,是生出來的男孩越來越多了!

哄動一時啊
2026-06-17 16:52:34
勞塔羅社媒發圖與梅西擁抱,馬庫斯-圖拉姆打趣:我有點嫉妒

勞塔羅社媒發圖與梅西擁抱,馬庫斯-圖拉姆打趣:我有點嫉妒

懂球帝
2026-06-17 18:37:27
葡萄牙頭號臥底!恥辱表現拖后腿!52 年魚腩拿分全靠他送

葡萄牙頭號臥底!恥辱表現拖后腿!52 年魚腩拿分全靠他送

瀾歸序
2026-06-18 05:19:23
斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

花折亦度無情
2026-06-14 01:40:25
晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

健康科普365
2026-06-14 18:10:08
中國腦梗發病率世界第一!醫生苦勸:罪魁禍首已揪出,這4物少吃

中國腦梗發病率世界第一!醫生苦勸:罪魁禍首已揪出,這4物少吃

醫學科普匯
2026-06-17 18:55:13
支付寶奇襲微信

支付寶奇襲微信

新眸深度
2026-06-16 17:20:08
16騎士冠軍重聚 歐文缺席

16騎士冠軍重聚 歐文缺席

體壇周報
2026-06-18 05:21:26
1-3!世界杯身價最低球隊首秀進球創歷史,全隊跪地磕頭慶祝

1-3!世界杯身價最低球隊首秀進球創歷史,全隊跪地磕頭慶祝

新殺豬的秀才
2026-06-17 14:10:50
小米員工暗諷華為“比嗓門拼情懷搞捆綁”,曾說拿小米手機被列車長升艙遭王思聰怒噴

小米員工暗諷華為“比嗓門拼情懷搞捆綁”,曾說拿小米手機被列車長升艙遭王思聰怒噴

可達鴨面面觀
2026-06-15 12:40:28
“臉垮就去練背”,4個動作激活上背緊致力,越練越年輕!

“臉垮就去練背”,4個動作激活上背緊致力,越練越年輕!

瑜伽解剖學
2026-06-16 20:07:00
切爾西官方發世界杯戰報:恩佐在梅西的表演秀上踢了90分鐘

切爾西官方發世界杯戰報:恩佐在梅西的表演秀上踢了90分鐘

懂球帝
2026-06-17 19:08:29
醫生發現:茶葉一換,每年糖尿病致死少一半,這4種茶葉,要少喝

醫生發現:茶葉一換,每年糖尿病致死少一半,這4種茶葉,要少喝

馬蹄燙嘴說美食
2026-06-17 16:03:07
僅僅2天,中韓2位知名女星大曝娛樂圈潛規則,陪玩陪睡根本不夠!

僅僅2天,中韓2位知名女星大曝娛樂圈潛規則,陪玩陪睡根本不夠!

叨嘮
2026-06-18 02:51:21
京津冀首個萬臺級具身智能機器人超級工廠規模投用

京津冀首個萬臺級具身智能機器人超級工廠規模投用

IT之家
2026-06-17 21:58:25
近期這種西瓜風險很大!最好不要隨便吃

近期這種西瓜風險很大!最好不要隨便吃

珠海發布
2026-06-17 12:24:07
2026-06-18 05:44:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

時尚
游戲
旅游
本地
軍事航空

1分鐘1萬塊:我在飯圈,交易人性

終于又有好游戲玩啦!這10款獨立游戲新作創意拉滿,強推入庫!

旅游要聞

南博“朋友圈”|在普洱,一群年輕人要造一顆“土星”

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版