網易首頁 > 網易號 > 正文 申請入駐

三大推理框架vLLM、llama.cpp、MLX 全部跟進!!!

0
分享至

本文是續集,看下主流推理框架跟進了情況

全面開花:誰在做,做到了什么程度?

先給一張全景圖,讓你 30 秒掌握當前進展:

框架

平臺

狀態

核心亮點

oMLX

Apple Silicon

? 已發布(v0.2.21)

128K 上下文 KV 省 79%,一鍵開啟

mlx-vlm

Apple Silicon

PR 進行中

Metal kernel 實現,解碼速度逼近全精度

llama.cpp

全平臺

實驗中

已有可編譯分支,社區在推進

vLLM

CUDA

方案已出

完整 6 步集成計劃,等 PR


oMLX:Mac 用戶已經可以用了

這是目前進度最快的——oMLX v0.2.21 已經把 TurboQuant KV Cache 作為實驗功能正式發布了


oMLX TurboQuant KV Cache 功能界面

先簡單說說 oMLX 是什么:這是一個專為 Mac 優化的本地 LLM 推理服務器,支持菜單欄管理、連續批處理、熱/冷兩級 KV Cache(內存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對接。

更具體介紹請看:

TurboQuant 在 oMLX 里的實現思路很巧妙:

Prefill 階段完全用 fp16,零質量損失。第一個 decode token 生成時,才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個 fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

這個設計太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數據,不走解壓再算的老路。

實測大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

上下文長度

Baseline

TurboQuant

KV 內存節省

32K

735MB → 195MB(省 73%)

64K

1407MB → 327MB(省 77%)

128K

2749MB → 589MB(省 79%)

128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質量零損失。

對于 Mac 用戶來說,這意味著你的機器一下子能裝下更長的上下文了。

速度方面也很穩:

模型

Prefill 速度

Decode 速度

Qwen3.5-35B-A3B

fp16 的 95%

fp16 的 87%

Qwen3.5-27B

fp16 的 97%

fp16 的 95%

用起來也簡單——Admin UI → 模型設置 → 實驗功能 → 打開 TurboQuant KV Cache 開關,完事。

# 安裝 oMLX
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx


# 啟動服務
brew services start omlx

順便提一句,這個版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎上加了 GPTQ 權重優化。對 MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

mlx-vlm:Metal Kernel 正在逼近全精度

mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實現。

這個 PR 一共提了 5 個 commit,逐步構建了完整的 TurboQuant 推理鏈路:

基礎 kernel:

  • _mse_score_kernel—— MSE 評分

  • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

  • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

  • _prod_score_kernel—— 內積計算

多頭優化 kernel:

  • _prod_score_multi_kernel—— 多頭批處理

  • _mse_weighted_rot_multi_kernel—— 加權旋轉多頭處理

  • _prod_score_repeat_kernel—— 重復模式優化

4-bit PolarQuant 路徑:

  • _polar_prod_score_kernel—— 極坐標內積

  • _polar_turbo_score_repeat_kernel—— 極坐標重復模式

同時scaled_dot_product_attention函數也做了適配,針對單 query 輸入走 TurboQuant 快速解碼路徑。

從已知數據看,MLX TurboQuant kernel 的解碼速度已經追到全精度的 **70-85%**,還在繼續優化。這個 PR 合進去之后,所有用 mlx-vlm 的項目都能直接受益。

llama.cpp:Issue 已開,社區在推

llama.cpp 這邊,Issue [2] 已經有人開了 feature request。

更值得關注的是,開發者 @mudler 已經在動手了——他 fork 了一個 feat/turbo-quant 分支[3],目前已經能編譯和啟動,正在評估效果。

llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

因為 llama.cpp 是目前本地部署生態的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應用都依賴它。

llama.cpp 支持了,意味著整個本地部署生態都支持了。

vLLM:方案最詳細,等 PR

vLLM 這邊開的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

  1. 擴展 Cache 配置—— 在CacheDType里加"turboquant"

  2. 創建 TurboQuantConfig 類—— 用@register_quantization_config裝飾器

  3. 實現 KV Cache Method—— 繼承BaseKVCacheMethod,注冊 codebook 參數

  4. 更新量化檢測—— 讓is_quantized_kv_cache()識別 TurboQuant

  5. 實現 CUDA/Triton Kernel—— 編碼 kernel(量化存儲)+ 解碼 kernel(注意力計算前還原)

  6. 內存管理更新—— 適配 codebook 額外開銷和可變壓縮率

這個 Issue 寫得像一份小型技術設計文檔,給后來接手的開發者鋪好了路。

對于跑云端推理的場景,vLLM + TurboQuant 的組合會非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發、更長上下文。

2026 年的本地 AI 體驗,會因為 TurboQuant 而躍遷一個檔次。我很期待。

.cpp

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個 ,謝謝你看我的文章,我們下篇再見!

參考資料

PR : https://github.com/Blaizzy/mlx-vlm/pull/858

Issue : https://github.com/ggml-org/llama.cpp/issues/20977

feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

Issue : https://github.com/vllm-project/vllm/issues/38171

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
15歲上個中專衛校,居然能一路混成主任技師?

15歲上個中專衛校,居然能一路混成主任技師?

歲月有情1314
2026-04-24 07:44:06
1.5億打了20分被棄用!為了鐵人稱號,常規賽全勤,季后賽沒勁了

1.5億打了20分被棄用!為了鐵人稱號,常規賽全勤,季后賽沒勁了

你的籃球頻道
2026-04-24 12:18:36
美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

忠于法紀
2026-04-24 14:43:45
醫生1分鐘復位收100元被舉報,衛健委回懟:應收110,你還少給了!家長拒繳溜走!

醫生1分鐘復位收100元被舉報,衛健委回懟:應收110,你還少給了!家長拒繳溜走!

醫客
2026-04-23 12:09:21
萬科財務幫時代結束

萬科財務幫時代結束

地產微資訊
2026-04-24 14:00:52
演員文章開飯店,爆火不到3天便遇“滑鐵盧”,糟心事一件接一件

演員文章開飯店,爆火不到3天便遇“滑鐵盧”,糟心事一件接一件

復轉這些年
2026-04-23 22:17:29
吳法憲出獄后,安置在濟南,同時告訴他有四個安排

吳法憲出獄后,安置在濟南,同時告訴他有四個安排

歷史甄有趣
2026-04-24 07:25:10
世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

三毛看世界
2026-04-17 16:43:17
官方:深圳正式簽約前NBA中鋒伊布-巴吉,頂替阿爾法-卡巴

官方:深圳正式簽約前NBA中鋒伊布-巴吉,頂替阿爾法-卡巴

懂球帝
2026-04-24 11:04:07
捷克一公路上兩只鳥上演“空中土豆爭奪戰”,土豆砸中路過汽車,司機查監控才知真相

捷克一公路上兩只鳥上演“空中土豆爭奪戰”,土豆砸中路過汽車,司機查監控才知真相

新京報
2026-04-23 14:05:12
返稅漏洞已被封死,百萬空殼連夜跑路,城投騙局已經走到盡頭

返稅漏洞已被封死,百萬空殼連夜跑路,城投騙局已經走到盡頭

關系大解密
2026-04-24 05:32:37
SWIFT:3月人民幣位居全球第五大支付貨幣,占比3.10%

SWIFT:3月人民幣位居全球第五大支付貨幣,占比3.10%

界面新聞
2026-04-23 18:38:50
廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

多特體育說
2026-04-23 23:07:54
A股:今天中午傳來3個特大消息!下午或迎來更大級別調整大行情?

A股:今天中午傳來3個特大消息!下午或迎來更大級別調整大行情?

股市皆大事
2026-04-24 12:34:12
河南12歲貧困女孩,被校長收留免費讀書,校長待她如親生。誰知,多年后,無意看見校長車內的一件衣服,她竟2次退學…

河南12歲貧困女孩,被校長收留免費讀書,校長待她如親生。誰知,多年后,無意看見校長車內的一件衣服,她竟2次退學…

勵職派
2026-04-24 12:48:47
老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

譚老師地理大課堂
2026-04-24 00:05:13
前后僅10天,日媒美媒統統出手,公開銳評樊振東,反應相當一致

前后僅10天,日媒美媒統統出手,公開銳評樊振東,反應相當一致

舍長阿爺談事
2026-04-24 12:09:15
兩家A股公司 將被實施退市風險警示,這只地產股股價腰斬

兩家A股公司 將被實施退市風險警示,這只地產股股價腰斬

每日經濟新聞
2026-04-24 07:44:44
中超第8輪預測:大連6連勝!成都贏浙江 國安兩連勝 海牛難敵泰山

中超第8輪預測:大連6連勝!成都贏浙江 國安兩連勝 海牛難敵泰山

刀鋒體育
2026-04-24 12:55:55
出乎意料!2032奧運主辦地確定了,不知名小城市以72:5碾壓當選

出乎意料!2032奧運主辦地確定了,不知名小城市以72:5碾壓當選

安珈使者啊
2026-04-24 11:44:45
2026-04-24 15:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3349文章數 11139關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

女子乘高鐵被掉落行李箱砸到 向箱子主人索賠6百無果

頭條要聞

女子乘高鐵被掉落行李箱砸到 向箱子主人索賠6百無果

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

時尚
旅游
健康
本地
數碼

襯衫+半裙,比別人好看不止一點點

旅游要聞

90元解鎖洛陽56個景區!@惠州市民,這個福利別錯過

干細胞如何讓燒燙傷皮膚"再生"?

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

數碼要聞

SSD全系上調10%!三星金士頓同時出手:4月第二波漲價潮殺到

無障礙瀏覽 進入關懷版