lmdeploy v0.12.3：視頻輸入、Qwen3.5、TurboMind 壓縮張量、Ray 安全 API 等重大升級全面解析

2026-04-13 00:10:15　來源: moonfdd

北京舉報

分享至

LMDeploy 在 2026 年 4 月 8 日發(fā)布了 v0.12.3 版本。這一版本覆蓋了Features、Improvements、Bug fixes、Other四大部分，累計19 位貢獻(xiàn)者、46 個 commits、472 個 files changed，屬于一次覆蓋面非常廣、實用性非常強(qiáng)的版本更新。

如果你正在關(guān)注 LMDeploy 的推理能力、多模態(tài)支持、Qwen3.5 適配、TurboMind 能力、Ray 相關(guān)改造、部署穩(wěn)定性優(yōu)化，那么這個版本幾乎可以說是一次“系統(tǒng)級增強(qiáng)”。

一、v0.12.3 版本概覽

本次版本更新的關(guān)鍵詞非常明確：

?多模態(tài)能力增強(qiáng)
?Qwen3.5 全面適配與優(yōu)化
?TurboMind 推理能力增強(qiáng)
?Ray 與服務(wù)端安全性改進(jìn)
?RoPE / mRoPE 相關(guān)統(tǒng)一與修復(fù)
?緩存、端點、生成、圖像視頻處理等關(guān)鍵鏈路修復(fù)
?CI、Docker、Python 代碼現(xiàn)代化改造

從更新列表看，這次版本不只是修復(fù) bug，更像是一次圍繞模型推理、服務(wù)穩(wěn)定性和工程化能力的集中升級。

二、核心功能更新：v0.12.3 帶來了什么 1）支持視頻輸入

這是本版本最受關(guān)注的特性之一：支持視頻輸入。

這意味著 LMDeploy 的多模態(tài)輸入能力進(jìn)一步擴(kuò)展，不再局限于文本或靜態(tài)圖像，開始向視頻類輸入場景延伸。對于本地推理、視頻理解、多模態(tài)交互等場景來說，這是非常關(guān)鍵的能力升級。

從更新內(nèi)容來看，視頻輸入并不是一個邊角功能，而是被列為正式 Features，說明其在版本中具有明顯的功能地位。

2）TurboMind 完整支持 compressed-tensors gs32

本版本中，TurboMind 新增了對compressed-tensors gs32的完整支持。

這類更新通常意味著推理引擎在處理壓縮權(quán)重、量化模型或相關(guān)張量格式時，兼容性與穩(wěn)定性得到進(jìn)一步增強(qiáng)。對于依賴 TurboMind 的用戶來說，這是一項非常重要的底層能力提升，直接關(guān)系到模型加載、運(yùn)行與推理表現(xiàn)。

3）Draft model update params

本版本加入了Draft model update params。

從功能名稱來看，這是對草稿模型參數(shù)更新流程的增強(qiáng)，屬于推理鏈路中的關(guān)鍵能力優(yōu)化。雖然更新信息本身沒有展開細(xì)節(jié)，但從其被列為 Features 可以看出，這項能力已經(jīng)進(jìn)入正式支持范圍。

三、重點改進(jìn)：Qwen3.5 相關(guān)更新最密集

v0.12.3 中，Qwen3.5 相關(guān)內(nèi)容非常多，幾乎貫穿了多個模塊，是本次更新最核心的主題之一。

1）支持 Qwen3.5 在 Volta 上運(yùn)行

版本更新中明確提到：support qwen3.5 on volta。

這意味著 Qwen3.5 在 Volta 相關(guān)環(huán)境中的支持能力得到增強(qiáng)，進(jìn)一步擴(kuò)大了其可部署范圍。

2）優(yōu)化 Qwen3.5

本版本還包含了專門的Optimize Qwen3.5。

這說明 Qwen3.5 不只是“能跑”，而是繼續(xù)在性能、兼容性或推理表現(xiàn)上進(jìn)行針對性優(yōu)化。

3）Qwen3.5 PyTorch 多模態(tài)推理修復(fù)

更新中提到：fix qwen3.5 pytorch multimodal inference。

這是針對 Qwen3.5 在 PyTorch 多模態(tài)推理路徑上的修復(fù)，說明在多模態(tài)場景中，Qwen3.5 的推理鏈路已經(jīng)被納入重點保障范圍。

4）Qwen3.5 FP8 支持修復(fù)

版本還修復(fù)了：fix qwen3.5 fp8 support。

FP8 支持是推理精度、性能與模型部署中常見的重要方向之一。該修復(fù)表明 Qwen3.5 在 FP8 路徑上得到了進(jìn)一步完善。

5）Qwen3.5 MTP 支持

本次更新還包含：Support qwen35 with mtp。

這說明 Qwen3.5 與 MTP 相關(guān)的支持能力也被納入版本升級內(nèi)容中，進(jìn)一步增強(qiáng)了其適配范圍。

6）Qwen3Coder 工具調(diào)用參數(shù)拆分

版本中還加入了：Split/tool call args json for qwen3coder tool calls (Qwen3.5)。

這項更新與 Qwen3.5 的 tool call 能力有關(guān)，說明工具調(diào)用參數(shù)的 JSON 拆分處理方式得到了調(diào)整和支持，屬于面向工具調(diào)用鏈路的修復(fù)和增強(qiáng)。

四、多模態(tài)與視覺相關(guān)升級 1）視頻輸入支持

前面已經(jīng)提到，本版本新增了視頻輸入支持，這是非常明確的多模態(tài)擴(kuò)展。

2）圖像 / 視頻 resize 函數(shù)修復(fù)

本版本還修復(fù)了：fix image / video resize function。

這說明圖像和視頻在尺寸處理過程中存在的問題被修正了。對于多模態(tài)輸入來說，resize 是非常基礎(chǔ)但關(guān)鍵的一環(huán)，關(guān)系到輸入是否能正確進(jìn)入模型鏈路。

3）Qwen3-VL-MOE 增加 R3

更新中提到：add R3 for qwen3-vl-moe models。

這屬于對視覺語言混合模型的適配增強(qiáng)，說明 Qwen3-VL-MOE 在本版本中也得到進(jìn)一步支持。

五、推理引擎與底層能力增強(qiáng) 1）Builtin mrope

本版本加入了Builtin mrope。

這意味著 mRoPE 相關(guān)能力開始成為 LMDeploy 的內(nèi)建組成部分之一。對于模型推理中的位置編碼處理，這類變化通常非常關(guān)鍵。

2）RoPE 初始化對齊

更新中提到：Align rope init in lmdeploy。

這說明 LMDeploy 內(nèi)部 RoPE 初始化邏輯得到了對齊處理，屬于底層一致性增強(qiáng)。

3）統(tǒng)一 rope device

本版本還包括：unify rope device。

這意味著 RoPE 所使用的設(shè)備處理邏輯被統(tǒng)一，減少不同路徑下的設(shè)備差異問題。

4）動態(tài) NTK 設(shè)備修復(fù)

更新中還提到：fix dynamic ntk device。

動態(tài) NTK 相關(guān)流程中設(shè)備處理問題被修復(fù)，有助于提升運(yùn)行穩(wěn)定性。

5）準(zhǔn)備緩存前先準(zhǔn)備 chunk indices

版本中有一項改進(jìn)：prepare chunk indices before cache initialize。

這說明緩存初始化流程中的前置準(zhǔn)備工作被調(diào)整了順序，屬于推理鏈路中的時序優(yōu)化。

6）支持 recurrent-gdr 和 causal-conv1d-update 的 cache_seqlen

更新中提到：support cache_seqlen on recurrent-gdr and causal-conv1d-update。

這類內(nèi)容指向緩存長度相關(guān)能力增強(qiáng)，屬于底層推理狀態(tài)管理的優(yōu)化。

7）release state cache

版本還加入了：release state cache。

這說明狀態(tài)緩存釋放邏輯得到補(bǔ)充，有利于資源管理與運(yùn)行穩(wěn)定性。

六、Ray 與服務(wù)端相關(guān)改進(jìn) 1）安全 Ray API

版本中提到：safe ray api。

這說明 Ray API 的使用變得更加安全，屬于服務(wù)編排和并行處理鏈路中的重要改進(jìn)。

2）刪除 ray remote function return value

本版本還包含：delete ray remote function return value。

這表明 Ray remote function 的返回值處理邏輯被調(diào)整，屬于運(yùn)行行為和接口行為上的變化。

3）當(dāng) proxy_url 為空時，api_server 端口順序分配

更新中提到：Assign sequential api_server ports when proxy_url is unset。

這項改進(jìn)與服務(wù)端口分配邏輯相關(guān)，當(dāng) proxy_url 未設(shè)置時，api_server 會按順序分配端口，提升部署可控性。

4）修復(fù) generate endpoint

版本還修復(fù)了：fix generate endpoint。

這意味著生成接口鏈路存在的問題得到了處理，直接影響推理服務(wù)可用性。

5）修復(fù)多輪聊天

更新中提到：fix multiround chat。

說明多輪對話場景中的問題已被修復(fù)，這對在線對話服務(wù)很關(guān)鍵。

6）修復(fù) metrics

版本還修復(fù)了：fix metrics。

這通常意味著監(jiān)控指標(biāo)輸出、統(tǒng)計或采集鏈路得到修正。

7）修復(fù)安全問題

更新列表中還明確提到：fix security issues。

這說明本版本包含安全性修復(fù)，屬于必須重視的升級項。

七、TurboMind 與模型推理相關(guān)修復(fù) 1）ApplyTokenBitmaskInplace 維度不匹配修復(fù)

版本中提到：fix(turbomind): fix dimension mismatch in ApplyTokenBitmaskInplace。

這是 TurboMind 相關(guān)的關(guān)鍵修復(fù)，說明在應(yīng)用 token bitmask 的過程中出現(xiàn)了維度不匹配問題，本次已修復(fù)。

2）pagedattention pointer range 修復(fù)

更新中提到：fix pagedattention pointer range。

PagedAttention 是推理中常見技術(shù)點之一，這類修復(fù)通常與底層指針范圍、內(nèi)存訪問或計算邊界有關(guān)，屬于非常關(guān)鍵的穩(wěn)定性修正。

3）Torch AWQ 修復(fù)

版本中還提到：Fix torch awq。

這意味著 Torch AWQ 相關(guān)路徑的問題已被修復(fù)，對依賴該路徑的推理流程來說是重要補(bǔ)強(qiáng)。

八、模型兼容性與特殊模型支持 1）Intern-S1-Pro 兼容 Transformers 5.0+

版本中提到：Make Intern-S1-Pro compatible with Transformers 5.0+。

這說明 Intern-S1-Pro 的兼容性得到提升，能夠適配 Transformers 5.0 及以上版本。

2）Intern-S1-Pro 代碼簡化

更新中還包含：simplify interns1 pro codes。

這表示相關(guān)代碼路徑做了簡化處理，有利于維護(hù)和后續(xù)迭代。

3）glm4.7-flash 修復(fù)

版本中還提到：fix glm4.7-flash。

說明該模型相關(guān)的問題已被修正。

九、工程化與 CI / Docker / Python 代碼現(xiàn)代化

除了推理與模型本身，v0.12.3 還對工程體系做了不少整理。

1）添加舊版測試工作流和測試配置

版本中有：[ci] add legacy test workflow and test config。

這說明 CI 流程中補(bǔ)充了舊版測試工作流與測試配置，便于兼容歷史路徑的驗證。

2）修復(fù) CI 錯誤

更新中提到：Fix CI errors including linting error and unit test error。

說明本次修復(fù)了 CI 中的 linting 錯誤和單測錯誤。

3）使用 pyupgrade 和 ruff 現(xiàn)代化 Python 代碼

版本中提到：Use pyupgrade and ruff to modernize LMDeploy Python Code。

這是對 Python 代碼風(fēng)格和質(zhì)量的現(xiàn)代化處理，涉及自動化代碼規(guī)范與升級。

4）減少 CI 內(nèi)存占用

更新中提到：reduce ci memory。

說明 CI 運(yùn)行過程中的內(nèi)存壓力被降低。

5）Docker 工作流中添加 safe.directory

版本中提到：fix: add safe.directory for git in docker workflows。

這屬于 Docker 構(gòu)建或工作流中的 Git 安全配置修復(fù)。

6）添加 nightly docker build workflow

更新中提到：[ci] add nightly docker build workflow。

這表示新增了 nightly docker 構(gòu)建流程。

7）拆分 Docker wheel 準(zhǔn)備步驟并使用 Python 3.12 作為默認(rèn)版本

版本中還提到：split docker wheel preparation into staged build steps and use python 3.12 as the default version。

這說明 Docker wheel 的準(zhǔn)備流程被拆成分階段構(gòu)建步驟，并將 Python 3.12 設(shè)為默認(rèn)版本。

8）添加 CLAUDE.md 和 Claude Code skills

更新中還包含：chore: add CLAUDE.md and Claude Code skills。

這屬于倉庫文檔與代碼輔助能力方面的補(bǔ)充。

十、其他重要改動與補(bǔ)充 1）外部 pg bundles 下 worker 排序修復(fù)，并支持 persistent buffer for update_params

版本中有一項較長的更新：[Fix][Feat] Fix worker sorting with external pg bundles & Support persistent buffer for update_params。

這說明在外部 pg bundles 場景下的 worker 排序問題得到了修復(fù)，同時 update_params 還支持 persistent buffer。

2）禁用 fla intracard_backend

更新中提到：disable fla intracard_backend。

這屬于某個后端能力的禁用調(diào)整。

3）支持 qwen3.5 on volta 與 qwen35 with mtp 同時出現(xiàn)

這兩項內(nèi)容說明 Qwen3.5 的支持矩陣在本版本中被持續(xù)擴(kuò)展，體現(xiàn)出版本更新對該模型系列的集中投入。

4）添加 R3、統(tǒng)一 rope、builtin mrope、cache_seqlen、state cache 等一系列底層改動

這些更新雖然分散，但整體上表明 v0.12.3 在“位置編碼、緩存管理、推理穩(wěn)定性、設(shè)備一致性”方面做了大量基礎(chǔ)建設(shè)。

十一、v0.12.3 的版本定位總結(jié)

如果把這次更新概括成一句話，那就是：

v0.12.3 是一次圍繞多模態(tài)、Qwen3.5、TurboMind、Ray 安全性、底層推理鏈路與工程化能力的全面增強(qiáng)版本。

它的特點非常明顯：

?新能力上：支持視頻輸入，增強(qiáng)多模態(tài)場景
?模型上：Qwen3.5 相關(guān)支持與優(yōu)化最密集
?引擎上：TurboMind、RoPE、cache、pagedattention 等底層鏈路均有補(bǔ)強(qiáng)
?服務(wù)上：generate endpoint、多輪聊天、metrics、端口分配、安全 API 均有修復(fù)
?工程上：CI、Docker、Python 代碼規(guī)范持續(xù)現(xiàn)代化

這不是一個單點修復(fù)版本，而是一個覆蓋推理、部署、兼容、性能與穩(wěn)定性的綜合升級版本。

十二、結(jié)語

代碼地址：github.com/InternLM/lmdeploy

對于正在使用 LMDeploy 的開發(fā)者來說，v0.12.3 值得重點關(guān)注，原因并不只是“版本號變了”，而是它集中解決了多個核心方向的問題：

? 想用視頻輸入的，可以關(guān)注本次多模態(tài)擴(kuò)展；
? 重點跑 Qwen3.5 的，可以關(guān)注其多項適配、優(yōu)化與修復(fù)；
? 依賴 TurboMind 的，可以關(guān)注 compressed-tensors gs32、ApplyTokenBitmaskInplace、pagedattention 等底層修復(fù)；
? 關(guān)注服務(wù)部署和在線推理的，可以關(guān)注 Ray 安全 API、端口分配、generate endpoint、多輪聊天與 metrics 修復(fù)；
? 關(guān)注工程體系的，可以關(guān)注 CI、Docker、Python 現(xiàn)代化改造。

總的來說，LMDeploy v0.12.3 是一次“面向可用性、兼容性、穩(wěn)定性和擴(kuò)展性”的扎實升級。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.