網易首頁 > 網易號 > 正文 申請入駐

vLLM v0.17.1 緊急補丁,修復 Qwen3.5 越跑越蠢的隱形 Bug

0
分享至

上周剛寫了 vLLM v0.17.0 的更新,,墨跡未干,v0.17.1 就來了,一個很小但是很重要的一次更新。

先看全貌:v0.17.1 改了什么

變更

類型

新增 Nemotron 3 Super 模型支持

新模型

[Mamba][Qwen3.5] Zero freed SSM cache blocks on GPU(#35219)

關鍵修復

Fix activation_type 傳遞到 TRTLLM fused MoE NVFP4/FP8(#36017)

修復

恢復 nongated fused moe triton 支持(#36412)

修復

重新啟用 trtllm MoE FP8 backend 的 EP(#36494)

修復

Fix TRTLLM Block FP8 MoE Monolithic(#36296)

修復

[DSV3.2][MTP] 優化 Indexer MTP handling(#36723)

? 性能優化


重點:35219 修了一個"越跑越蠢"的 Bug

這個 bug 針對的是 Qwen3.5-397B-A17B 這類混合架構模型

Qwen3.5 的 MoE 模型用了 Mamba + Attention 的混合架構,兩種層共享同一套 GPU block pool。

Mamba 層往 block 里寫的是fp32狀態數據,attention 層用的是fp8fp16的 KV cache。

問題就出在 block 復用上

一個 block 先被 Mamba 層用過,留下了fp32的位模式。后來這個 block 被回收,又分配給了 attention 層。attention 層的數據類型更窄,fp32殘留的 bit pattern 在新類型下直接變成了NaNInf

最坑的是 attention kernel 的掩碼機制,很多 attention kernel(FlashAttn3、FlashInfer-TRTLLM 等)處理未使用位置時,采用的是乘零掩碼——把不需要的位置乘以 0。正常情況下沒問題,但0 × NaN = NaN,這些臟數據沿著 KV cache block 一路擴散,所有共享這個 block 的請求全部中招。

時間一長,輸出質量持續下降

這個 Bug 有多隱蔽

看下 Issue #35138 里的復現條件:

  • 模型:Qwen/Qwen3.5-397B-A17B-FP8

  • 硬件:8 × NVIDIA B200

  • 后端:FlashInfer Attention backend

  • 現象:用同一套評測腳本跑兩輪,第二輪準確率就出問題了

重點是第一輪完全正常

服務剛啟動,所有 block 都是干凈的,看什么都好好的。

跑一陣子,block 開始回收和復用,臟數據慢慢滲透,精度悄悄下滑

這種 bug 在生產環境里排查起來極其痛苦。

模型沒掛、顯存沒炸、API 正常返回,就是結果在變差。

你可能以為是 prompt 的問題、數據的問題、甚至模型本身的問題,但誰能想到是緩存塊復用帶來的浮點臟數據污染

修復方案

新分配給 attention 層的 block,用之前先在 GPU 上清零

但做得很克制:

  • 只針對帶 Mamba 層的 hybrid models——純 attention 模型完全不受影響

  • 只處理新分配出來的 blocks——prefix cache 命中的不動

  • 只清 FullAttentionSpec blocks——Mamba 自己的 block 不管,因為 Mamba 每步都會完整覆寫狀態

實現上用了一個 Triton kernel 批量清零,提前預計算好所有 KV cache segment 的絕對字節地址,通過 pinned memory 傳 block ID 到 GPU,和 kernel launch 做 overlap,避免同步等待。

性能開銷

官方 PR 給了 B200 上的實測數據:

階段

清零 blocks 數

延遲

占 forward step 比例

Prefill(BS ~8K)

~515 blocks(~920 MiB)

~170 μs

Decode

~30 blocks

~15 μs

端到端吞吐測試,輸出 tokens/s 波動在 ±2% 噪聲范圍內,代價幾乎為零

Nemotron 3 Super:這次被寫進 release notes 了

v0.17.1 另一個值得注意的變更是新增了Nemotron 3 Super模型支持。

前幾天我剛寫過這個模型:

總結

跑 Qwen3.5 混合架構模型的:必須升

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國11名頂尖科學家連續離奇失蹤或死亡,特朗普:相當嚴重

美國11名頂尖科學家連續離奇失蹤或死亡,特朗普:相當嚴重

新民周刊
2026-04-23 18:56:16
華誼兄弟被申請破產案獲法院受理,7年虧超80億元

華誼兄弟被申請破產案獲法院受理,7年虧超80億元

21世紀經濟報道
2026-04-23 21:28:06
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
校慶我捐700萬被安排在角落,我愣了3秒,校長道:不坐就走不差你

校慶我捐700萬被安排在角落,我愣了3秒,校長道:不坐就走不差你

吃貨的分享
2026-04-22 20:30:21
揪心!女生受邀赴泰過潑水節,被轉賣緬甸電詐園,20萬元贖金付完仍被困……

揪心!女生受邀赴泰過潑水節,被轉賣緬甸電詐園,20萬元贖金付完仍被困……

新民周刊
2026-04-23 18:53:58
世錦賽戰報:競逐8強,再爆大冷預警,世界第2第9都被打1波五連鞭

世錦賽戰報:競逐8強,再爆大冷預警,世界第2第9都被打1波五連鞭

求球不落諦
2026-04-24 06:08:52
都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

樞密院十號
2026-04-23 18:31:15
特朗普宣布以黎停火延長三周

特朗普宣布以黎停火延長三周

環球網資訊
2026-04-24 07:19:15
為何以前五一放7天,現在卻改成五天還得調休,原來都是他的建議

為何以前五一放7天,現在卻改成五天還得調休,原來都是他的建議

芭比衣櫥
2026-04-24 03:26:27
蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

云舟史策
2026-04-24 07:18:26
柬埔寨重大項目啟動!中國電信全力參建!

柬埔寨重大項目啟動!中國電信全力參建!

運營商段子手
2026-04-24 00:05:31
以色列:已準備好重啟戰爭,只要美國同意,將刺殺伊朗最高領袖穆杰塔巴,炸毀其能源和電力設施,使其重回“石器時代”

以色列:已準備好重啟戰爭,只要美國同意,將刺殺伊朗最高領袖穆杰塔巴,炸毀其能源和電力設施,使其重回“石器時代”

揚子晚報
2026-04-24 07:16:02
前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規律

前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規律

懂球帝
2026-04-23 23:43:03
炫富網紅藍戰非不裝了,瘋狂帶貨撈金

炫富網紅藍戰非不裝了,瘋狂帶貨撈金

電商派Pro
2026-04-23 10:09:20
李鴻武:榮威20年,從家庭到“家越”

李鴻武:榮威20年,從家庭到“家越”

AutoBusiness
2026-04-23 12:23:29
羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

懂球帝
2026-04-24 01:27:07
廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

閱微札記
2026-04-23 11:35:46
芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉了

芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉了

王新喜
2026-04-23 20:37:56
天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

側身凌空斬
2026-04-24 05:31:46
4S要求13萬換電池包,保司堅持維修或全損:只有車主主導“維修權”,壟斷才能破?

4S要求13萬換電池包,保司堅持維修或全損:只有車主主導“維修權”,壟斷才能破?

AC汽車
2026-04-23 14:26:04
2026-04-24 09:24:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

本地
健康
時尚
公開課
軍事航空

本地新聞

SAGA GIRLS 2026女團選秀

干細胞如何讓燒燙傷皮膚"再生"?

今年最好看的3個顏色,太適合夏天了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版