LM Studio 終于把 MTP(Multi-Token Prediction)推測解碼做上了
事情還挺有故事性的:5 月 17 日 llama.cpp 合并了 MTP 支持,5 月 18 日就有用戶在 LM Studio 的 issue 區開帖催更:
? "llama 合并 MTP 三天了,LM Studio 怎么還沒支持?我快焦慮發作了,沒有 MTP 我整個世界會塌的(我看到征兆了…),LM Studio 的開發者們要是能聽見我說話,求求你們加上 MTP,我感覺留給我的時間不多了,請,LM Studio,救救我們。"
這哥們是真急
幸運的是,5 月 20 日 LM Studio 官方開發者 yagil 直接在 issue 下面回復:"Fear not, it is here (in beta)",0.4.14 Build 2 beta 上線,5 月 22 日 Build 4 正式穩定版發布
簡介
先快速科普一下,MTP(Multi-Token Prediction)是什么?
簡單講就是:傳統語言模型一次只能預測一個 token,每生成一個字都要把整個網絡跑一遍,慢。MTP 讓模型一次預測多個 token,然后用驗證機制保證質量,本質上是推測解碼(speculative decoding)的一種,但比傳統的 draft model 方案更優雅
它有兩個好處:
不用額外的 draft 小模型:MTP head 是和主模型一起訓練的,自帶"草稿能力"
天然對齊:因為是同一個模型出來的預測,驗證通過率高,加速倍數穩定
這里有幾個坑要避開,按官方和社區實測的步驟來:
升級 LM Studio 到 0.4.14 Build 4
打開 LM Studio,開啟 Developer Mode(開發者模式)
進入模型設置,確認 llama.cpp 引擎版本是 2.15.0 以上

下載支持 MTP 的模型 推薦:
unsloth/Qwen3.6-35B-A3B-MTP-GGUF
unsloth/Qwen3.6-27B-MTP-GGUF
上一篇剛介紹過 ,作者也發了 MTP 頭版本,吞吐能跟 Qwen3.6 官方 MTP 跑出 1.66× 的對比
![]()
加載模型時勾選 MTP ,享受 ~2× 速度

? ?? 關鍵提示:普通 GGUF 模型開 MTP 不會變快,反而可能更慢,必須是帶 MTP head 的專用 GGUF。這點社區已經有不少坑貨反饋了實測速度有多炸?
直接看社區跑出來的數據:
硬件
模型
不開 MTP
開 MTP
加速比
RTX 3090
Qwen3.6-27B MTP
~20.69 tok/s
~42 tok/s~2.0×
高端配置
Qwen3.6-35B-A3B MTP
~130 tok/s
已知問題(提前避坑)
按 issue 區扒下來的踩坑清單:
問題
狀態
Build 2 代碼輸出空白符被吞掉
? Build 3 已修復
非 MTP 推測解碼在 MTP 開啟時報錯
? Build 4 已修復
小模型(4B 級別)MTP 反向加速
?? 待優化,建議先用大模型
Gemma 4 MTP 不可用
?? 已知 bug
MTP 默認關閉,新手容易找不到
?? 必須開 Dev Mode + 選加載參數
llama.cpp 引擎版本要求 2.15.0
?? 在 beta 頻道,部分人要手動升級
和原生 llama.cpp 對比
也有網友提到一個值得關注的點:原生 llama.cpp 命令行可以用ubatch等更多調參選項,理論上優化空間比 LM Studio 大
我感覺這個需要分場景:
想最快上手、不折騰:LM Studio 0.4.14 + MTP 一鍵開,無腦享受 2× 提速
想壓榨到極限:還是回到 llama.cpp 原生命令行,手動調 ubatch、n_gpu_layers、KV cache 這些
配合 froggeric 修復模板:Qwen-Fixed-Chat-Templates 在 LM Studio 上也能用,工具調用穩定性能再上一檔
.cpp
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.