无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大版本更新,vLLM 0.20 來了,支持 DeepSeek V4

0
分享至


大家好,我是 Ai 學習的老章

vLLM 是公眾號的老朋友了,每次更新我都有介紹

今天再來聊聊昨晚剛發布的 vLLM v0.20.0,這一版動靜實在不小,我看完 release notes 第一反應是——這哪是版本更新,這是把推理引擎的天花板又往上頂了一截!!!


簡介

v0.20.0 是 vLLM 一次相當激進的版本,官方數據是 752 次提交、320 位貢獻者(其中 123 位是新面孔),開源社區的火力還在持續加碼

挑幾個我覺得最值得說的:


1. DeepSeek V4 首發支持

DSV4 剛出頭,vLLM 這邊初始化支持就跟上了(),還順帶修了 DSV4/3.2 的 token 泄漏()、DSA + MTP 的非法訪問(),共享專家上的 silu clamp 限幅也補上了

國內做大模型部署的朋友應該會很關心這條,DeepSeek 系列這兩年是 vLLM 主要的優化對象之一,新一代模型一出就能跑,這個響應速度沒誰了

2. CUDA 13.0 成為默認

PyPI 上的默認 CUDA wheel 和 vllm/vllm-openai:v0.20.0 鏡像都切到了 CUDA 13.0(),跟著 PyTorch 2.11.0 一起升到了 13.0.2()

官方那句話很明確——vLLM 的 CUDA 策略跟著 PyTorch 走,如果你機器上還是 CUDA 12.9,建議用 uv 安裝并加 --torch-backend=cu129,別硬剛

3. PyTorch 2.11 + Python 3.14

這次 vLLM 直接上了 torch 2.11(),XPU 也不再卡在 2.10(),Python 3.14 也進了官方支持列表()

提醒一句,這是個 breaking change,老環境直接 pip install 大概率翻車,建議干凈環境裝

4. Transformers v5 適配完成

vLLM 現在能跑在 HuggingFace transformers>=5 上了(),各種視覺編碼器、PaddleOCR、Mistral YaRN、Jina ColBERT 的兼容問題都修了一遍

5. FlashAttention 4 默認開啟 MLA prefill

FA4 重新成為 MLA prefill 默認后端(),SM90+ 上支持 head-dim 512 + paged-KV()

跑 DeepSeek 這類 MLA 架構的,prefill 階段會有肉眼可見的提速

6. TurboQuant 2-bit KV cache(這個是真硬核)

新加了一個 attention backend,2-bit KV 緩存壓縮,等效容量翻 4 倍(),FA3/FA4 prefill 都已經接上()

KV cache 一直是長上下文場景下顯存的最大殺手,2-bit 這個量級要是精度損失可控,對 32K/128K 長文場景就是降維打擊

7. 在線量化前端

端到端的在線量化前端落地(),文檔也補全了();experts_int8 合并進 FP8 在線路徑(),MXFP8 也遷到新前端()

意思是——以后跑量化模型不用提前折騰權重,加載階段就給你量化好

8. vLLM IR 初步成型

新加了 IR 骨架和 rms_norm 算子(),OOT 平臺 kernel 導入鉤子(),gemma_rms_norm 改造到 IR 上(),還配套了測試和 benchmark 基礎設施()

這是個長線工作,未來 kernel 層會越來越解耦,對接國產硬件也會更順

9. Model Runner V2 持續推進

Eagle prefill 全 CUDA 圖()、根據 attention 后端自動確定 cudagraph 模式和尺寸()、融合的概率拒絕采樣 kernel()、多 prompt logprobs 支持(),還有一個修了精度回歸的提交()

MRV2 這條線已經搞了好幾個版本,眼看著越來越成熟

10. 新模型一大把

DeepSeek V4、Hunyuan v3 preview、Granite 4.1 Vision、EXAONE-4.5、Phi-4-reasoning-vision-15B、jina-reranker-v3、Jina Embeddings v5、Nemotron-v3 VL Nano/Super

看了一眼,幾乎覆蓋了最近一兩個月所有值得跑的開源模型

安裝

按官方推薦用 uv 安裝最穩:

uv pip install vllm==0.20.0

如果你機器上 CUDA 是 12.9 而不是 13.0:

uv pip install vllm==0.20.0 --torch-backend=cu129

Docker 鏡像直接拉:

docker pull vllm/vllm-openai:v0.20.0
使用

跑個 DeepSeek 系列試試水(API 兼容 OpenAI):

vllm serve deepseek-ai/DeepSeek-V3.2 \
--tensor-parallel-size 8 \
--max-model-len 32768

啟用新的 2-bit KV cache(注意是實驗特性):

vllm serve 
                
 \ 
        
--kv-cache-dtype turboquant \
--max-model-len 131072

在線量化(無需提前轉權重):

vllm serve meta-llama/Llama-3.1-70B-Instruct \
--quantization fp8
實測建議

我的幾點判斷:

值得升級的場景

  • 跑 DeepSeek V4/V3.2、Hunyuan v3、Gemma4 這些新模型——v0.20.0 是當前最優解

  • 長上下文場景,2-bit KV cache 值得一試,省下來的顯存夠多塞一個模型

  • 國產硬件部署,新的 IR 和 ROCm/XPU 路徑修復了一堆坑(華為昇騰、AMD MI300、Intel XPU 都有專項更新)

先別急著升的情況

  • 生產環境跑得穩定的 v0.19.x,沒必要湊熱鬧,等 v0.20.1 patch 出來再說

  • CUDA 還是 12.x 的環境,要么升 CUDA 要么加 --torch-backend=cu129 ,別硬裝

  • Python 還在 3.10/3.11 的,上來要么先升 Python 要么留意 wheel 是否匹配

幾個有意思的細節

  • Ray 這次還是不是默認依賴(v0.18.0 移除的),需要的話單獨裝

  • 默認開啟 CUDAGraph 的內存 profiling(),啟動時顯存賬單更清晰,但啟動會稍微慢一點

  • DBO 微批優化已經泛化到通用模型(v0.19.0 加的),v0.20.0 又疊了一堆 MoE 重構,吞吐場景的優化是真沒停過

總結

vLLM v0.20.0 是個分水嶺式的版本——CUDA 13、PyTorch 2.11、Transformers v5 一起切,意味著老環境基本得重建一遍,但換來的是 DeepSeek V4 首日支持、2-bit KV cache、FlashAttention 4 默認開啟、在線量化前端這一整套硬通貨

簡單說就是:折騰一次環境,換未來半年的部署紅利,值

對推理引擎選型還在糾結的朋友,老規矩——并發量大、追性能上限選 vLLM,單機本地玩玩選 Ollama,混合場景看 SGLang,沒有銀彈

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
摩根:梅西亮鞋釘犯規本該被罰下,結果他甚至連黃牌都沒吃到

摩根:梅西亮鞋釘犯規本該被罰下,結果他甚至連黃牌都沒吃到

懂球帝
2026-06-17 18:37:27
中國腦梗發病率世界第一!醫生苦勸:罪魁禍首已揪出,這4物少吃

中國腦梗發病率世界第一!醫生苦勸:罪魁禍首已揪出,這4物少吃

醫學科普匯
2026-06-17 18:55:13
錢再多有什么用?65歲乒乓教父蔡振華現狀,給所有老年人提了個醒

錢再多有什么用?65歲乒乓教父蔡振華現狀,給所有老年人提了個醒

阿郎娛樂
2026-06-17 06:13:28
"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

深圳晚報
2026-06-17 12:10:46
沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰正式打響

沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰正式打響

職場資深秘書
2026-06-15 16:41:48
引體向上拉不起一個?恭喜你,這才是中國成年男人的正常水平

引體向上拉不起一個?恭喜你,這才是中國成年男人的正常水平

劉哥談體育
2026-06-16 18:58:22
拒絕續約想去執教尼克斯,結果現在找不到下家,高估自己的下場!

拒絕續約想去執教尼克斯,結果現在找不到下家,高估自己的下場!

你的籃球頻道
2026-06-17 08:41:15
G7就制俄助烏達成一致,烏克蘭推出多款大殺器

G7就制俄助烏達成一致,烏克蘭推出多款大殺器

史政先鋒
2026-06-17 22:32:28
梅西解釋進球后落淚:和足球無關,我經歷了一段艱難復雜的日子,現在狀態很好

梅西解釋進球后落淚:和足球無關,我經歷了一段艱難復雜的日子,現在狀態很好

紅星新聞
2026-06-17 12:48:47
完爆努涅斯!利物浦砸 1 億搶世界杯天才!再也不用看吐餅了

完爆努涅斯!利物浦砸 1 億搶世界杯天才!再也不用看吐餅了

瀾歸序
2026-06-17 06:17:02
證監會主席吳清:中國資本市場經受了重大風險考驗 韌性和抗風險能力不斷提升

證監會主席吳清:中國資本市場經受了重大風險考驗 韌性和抗風險能力不斷提升

財聯社
2026-06-17 11:36:53
《南方周末》深夜刪稿,廣州的新聞媒體,誰還能做深度報道?

《南方周末》深夜刪稿,廣州的新聞媒體,誰還能做深度報道?

苗苗情感說
2026-06-17 18:36:23
寶媽誤發私密視頻風波未停:最該譴責的,從來不是失手的當事人

寶媽誤發私密視頻風波未停:最該譴責的,從來不是失手的當事人

千言娛樂記
2026-06-15 16:54:12
拉瑪五世娶了四位親妹妹,一百年后,代價落在了帕公主身上

拉瑪五世娶了四位親妹妹,一百年后,代價落在了帕公主身上

孔孔說體育
2026-06-17 15:32:37
一票定江山!菲律賓參議院變天:卡耶塔諾臨陣放棄,13 票鎖定勝局

一票定江山!菲律賓參議院變天:卡耶塔諾臨陣放棄,13 票鎖定勝局

阿離家居
2026-06-17 20:55:06
C羅回應進球壓力!梅西戴帽搶走眾星風頭,踩人沒被罰下引發猜測

C羅回應進球壓力!梅西戴帽搶走眾星風頭,踩人沒被罰下引發猜測

三十年萊斯特城球迷
2026-06-17 20:09:27
因宗教原因,世界杯賽前儀式的沙特國旗以志愿者手持懸空的方式展示

因宗教原因,世界杯賽前儀式的沙特國旗以志愿者手持懸空的方式展示

懂球帝
2026-06-17 05:02:05
尼克斯奪冠幕后:太太團曬照,老板禁欲梗走紅

尼克斯奪冠幕后:太太團曬照,老板禁欲梗走紅

甜度百分百21
2026-06-18 01:26:53
梅西妻子攜三子觀賽,大兒子身高160CM,二兒子酷似梅西

梅西妻子攜三子觀賽,大兒子身高160CM,二兒子酷似梅西

青杉依舊啊啊
2026-06-17 21:28:48
千萬級安保、53年等待:紐約尼克斯奪冠游行背后的瘋狂與傷痕

千萬級安保、53年等待:紐約尼克斯奪冠游行背后的瘋狂與傷痕

體壇觀察猿
2026-06-18 01:10:11
2026-06-18 01:48:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

教育
本地
手機
旅游
公開課

教育要聞

全國31省藝術類志愿填報時間匯總!最早6月24日開報,這些省份最緊迫!

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

手機要聞

蘋果iPhone傳四喜:辟謠、漲內存、漲影像、紀念版也有新變化!

旅游要聞

1800余場端午活動打造城市游樂園

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版