網易首頁 > 網易號 > 正文 申請入駐

最近很熱門的oMLX,Mac端大模型本地部署新選擇,Claude-Opus-4.6 蒸餾版 Qwen3.5-9B 實測

0
分享至

oMLX 走的是 Apple Silicon + MLX 這條路,Windows 和 NVIDIA 這邊的朋友,這篇先看看熱鬧就好

前文,評論區好幾個兄弟推薦測試 oMLX:

  • 博主有時間可以研究一下oMLX這個替代 LM Studio,據說比 lm 快很多倍。

  • 聽說 omlx 比 lm studio 更好用些,占用內存更小,有沒有嘗試部署一下?

  • 有大佬做成適合 omlx 跑的 fp8 量化版了,大概 10G,可以試試。同樣機器配置,換用了 oMLX 跑 qwen3.5 9b MLX Q4 版,利落了些,15token 左右吧。雖然回復慢,但還能用。而 ollama 跑就卡頓的很。

花半天玩了一下,先看大家最關心的測試情況:

  • oMLX 有很多亮點,UI、菜單欄、管理后臺儀表板,Chat 頁面都很漂亮,底層有 SSD KV 緩存、設置熱緩存、支持 MCP、一鍵對接各種 AI Coding Agent,OpenAI/Anthropic 兼容接口、針對 Claude Code 優化等

  • 單請求生成速度約 20 token/s,峰值顯存/統一內存占用約 5.7GB

  • 無法硬跑 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit,LM Studio 可以強跑,但只能加載,執行任務直接徹底卡死

安裝、配置、使用教程

安裝后直接進入 Perference,自定義模型位置,端口號

模型位置后面我把他改到了外接移動硬盤


菜單欄確實方便,一鍵啟停 server、進入管理后臺,進入聊天界面


先要進入模型 tab 然后點下載器


下面的瀏覽模型可以直接看能否支持當前主機


下載速度極慢,后來我換成了 modelcope


感覺也有 bug,直接從上面下載,他會默認下載整個項目下的不同精度模型,而我只需要 Q4


27B 我也下了


沒有選擇 Jackrong 原版,主要是被 mlx-community 這句話吸引了


但是 27B 最低使得 24 GB 及以上統一內存的 Mac 都能運行該模型,且還有足夠空間容納大型上下文窗口,推薦是 32GB

官方測試數據:

Metric

Result

Model load time

2.4 seconds

Prompt ingestion

86.5 tokens/sec

Generation speed

15.7 tokens/sec

Peak RAM usage

15.6 GB

Bit-rate

4.501 bits/weight

Final size

14 GB (3 shards)

下載過程中進入設置頁


資源管理這里可以控制內存占用情況,


下載完畢,可以選擇在設置 - 模型設置中啟動,剛開始居然沒找到哪里加載


聊天頁面,很清爽


儀表盤會記錄模型運行情況


現在往下也能把啟動的模型一見接入到 Codex、OpenCode、OpenClaw


它還可以做基準測試


32K 單請求測試,電腦已經有點卡了,TTFT 高的離譜,TPS 只有 11

測試

TTFT (ms)

TPOT (ms/tok)

pp TPS

tg TPS

端到端延遲

吞吐量

峰值內存

pp32768/tg128

187.4 tok/s

11.8 tok/s

185.686s

177.2 tok/s

9.06 GB

單請求 + 批處理能力沒敢開高,tg TPS 20.2 tok/s。輸入拉長到 4096 token 后 TTFT 從 4.8s 變成 18.8s,tg TPS 還在 19.8 tok/s,幾乎沒掉,Peak Mem 從 5.66 GB 到 6.40 GB

并發到 2-4 路時總吞吐提升明顯,但 8 路已經接近平臺上限,延遲代價很大。


依舊測試閱讀理解+SVG 代碼生成 + 審美

感覺不穩了,需要抽卡


重新嘗試可以識別到四次,svg 寫的很丑


讓其優化之后,它的腦回路讓我想笑,它直接設計了模擬人物動作,完全偏離了主題


27B 無法跑起來

改了 N 多配置都不行,有高手可以出出主意

我要換 32G 的 Mac 了


但是 LM Studio 就可以用 option 按鍵強跑,只是無法執行任務,機器卡死


其他再說說

看了官方文檔,再說幾個 oMLX 的亮點,可是我都沒嘗試

1. 連續批處理

它基于mlx-lmBatchGenerator做并發處理,首頁給了一組非常直觀的 benchmark,機器是 M3 Ultra 512GB,模型是 Qwen3.5-122B-A10B-4bit:

  • 單請求、8k 上下文時,Prompt 處理速度能到941 tok/s

  • Token 生成速度大約54.0 tok/s

  • 8x連續批處理下,總吞吐能到190.2 tok/s

  • 對應3.36 倍吞吐提升

  • 內存占用峰值 73 GB

另一組我很關注的數據是Qwen3-Coder-Next-8bit

  • 8k 上下文時,Prompt 處理速度2009 tok/s

  • 8x批處理總吞吐243.3 tok/s

  • 加速比來到4.14 倍

  • 內存占用峰值 85GB

2. Claude Code 優化

README 里有一句:

支持在 Claude Code 中使用較小上下文模型的上下文縮放。通過縮放上報的 Token 數量,讓自動壓縮在合適的時機觸發,同時提供 SSE keep-alive 防止長時間預填充導致的讀取超時。

官方給出的方向主要有兩個:

  • 通過上下文縮放,讓較小上下文模型在 Claude Code 里更容易觸發合適的自動壓縮時機

  • 通過 SSE keep-alive,降低長時間 prefill 時讀超時的風險

它本身還支持:

  • OpenAI 兼容接口:http://localhost:8000/v1

  • Anthropic 兼容接口:POST /v1/messages

  • 工具調用

  • MCP 集成

3. 多模型服務

它在同一服務里支持:

  • 文本 LLM

  • VLM

  • OCR 模型

  • Embedding

  • Reranker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

小祁談歷史
2026-04-24 05:23:52
一位漂亮素雅的新娘子!

一位漂亮素雅的新娘子!

情感大頭說說
2026-04-24 04:45:22
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

小椰的奶奶
2026-04-23 14:52:12
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
更大規模海戰來了?

更大規模海戰來了?

中國新聞周刊
2026-04-22 20:50:08
段睿深夜悲痛發文:再也沒有人等我回去了!

段睿深夜悲痛發文:再也沒有人等我回去了!

原夢叁生
2026-04-22 20:06:36
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

離離言幾許
2026-04-24 07:12:13
她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

混沌錄
2026-04-23 17:11:04
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

今朝牛馬
2026-04-23 23:23:59
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

游古史
2026-04-24 04:01:53
10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

環球網資訊
2026-04-23 19:39:20
高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

瘋狂小菠蘿
2026-04-23 14:27:12
2026-04-24 09:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

藝術
手機
本地
家居
軍事航空

藝術要聞

江青對聯驚艷眾人,書法與寫字的界限究竟在哪?

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

本地新聞

SAGA GIRLS 2026女團選秀

家居要聞

浪漫協奏 法式風格

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版