網易首頁 > 網易號 > 正文 申請入駐

Ollama 0.19 來了

0
分享至


Ollama 0.19 版來了,直接在 Apple Silicon 上用 MLX 重寫了推理引擎,速度飆到了一個讓人難以忽視的水平。

還有英偉達 NVPF4 傍身,強強聯合,贏麻了。

Ollama 0.19:MLX 駕到

Ollama 一直是 Mac 用戶跑本地大模型的首選

但說實話,之前的速度只能算"能用",跟云端推理比起來還是差了點意思。

這次 0.19 版本,Ollama 做了一個根本性的改變:底層推理引擎直接換成了 Apple 的 MLX 框架

MLX 是 Apple 專門為自家芯片的統一內存架構(Unified Memory Architecture)打造的機器學習框架。

簡單說,CPU 和 GPU 共享同一塊內存,數據不用來回拷貝,天然就快。之前 Ollama 用的是 llama.cpp 的推理后端,現在直接上了 MLX,等于換了個渦輪增壓。

效果有多猛?來看官方數據(基于 M5 芯片 + Qwen3.5-35B-A3B 模型):

指標

Ollama 0.19 (MLX + NVFP4)

Ollama 0.18 (llama.cpp + Q4_K_M)

提升

Prefill(預填充)

1810 tokens/s

1154 tokens/s

+57%Decode(生成)

112 tokens/s

58 tokens/s

+93%

Prefill 速度提了 57%,生成速度幾乎翻倍

跑 Coding Agent 的時候,那種"嗖嗖嗖"往外吐代碼的感覺,爽。

而且 Ollama 還透露,用 int4 量化時數據更好看:prefill 能到 1851 token/s,decode 到 134 token/s。

在 M5、M5 Pro 和 M5 Max 上,Ollama 還能利用新的GPU Neural Accelerators來同時加速首 token 延遲(TTFT)和生成速度。

NVFP4:英偉達的 4 位浮點量化格式

這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4,這個值得多聊兩句。

你可能會問:Mac 上跑大模型,跟英偉達有什么關系?

關系大了

NVFP4 是英偉達基于 Blackwell GPU 架構推出的一種 4 位浮點數格式,最大的特點就是在極低精度下仍然保持很高的模型準確率。

Ollama 把它引入到 MLX 推理中,目的是讓本地用戶跑出來的結果和云端生產環境盡量一致。

傳統量化(比如之前的 Q4_K_M)雖然也是 4 位,但精度損失比較明顯。NVFP4 的兩個核心設計讓它脫穎而出:

1. 高精度縮放因子

每 16 個值組成一個"微塊"(micro-block),共享一個 FP8(E4M3)格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放,NVFP4 的分組更細、縮放更準。

2. 雙層縮放策略

在微塊級別 FP8 縮放之上,還有一個張量級別的 FP32 二級縮放因子,兩層一起工作,大幅降低量化誤差。

英偉達官方給出的 DeepSeek-R1-0528 測試數據很有說服力:

評測

FP8

NVFP4

精度差異

MMLU-PRO

85%

84%

GPQA Diamond

81%

80%

Math-500

98%

98%

0

AIME 2024

89%

91%

在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒看錯,4 位量化比 8 位的分還高。

對 Ollama 用戶來說,NVFP4 意味著你本地跑的模型和云端推理服務(用 TensorRT-LLM、vLLM 部署的)結果幾乎一致。以前本地量化和云端之間總有一條"質量鴻溝",現在這條溝被大幅填平了。

更多關于 NVFP4 的技術細節,可以看英偉達官方博客:https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

緩存升級:Agent 場景更絲滑

除了推理引擎大換血,0.19 在緩存機制上也做了三項重要改進,主要面向 Coding Agent 和多輪對話場景:

  • 更低的內存占用:跨會話復用緩存。跑 Claude Code 這類工具時,多個分支會話共享系統提示的緩存,內存利用率更高。

  • 智能檢查點:Ollama 會在 prompt 的關鍵位置保存緩存快照,后續請求命中緩存的概率更高,prompt 處理更快。

  • 更聰明的淘汰策略:共享前綴的緩存不會因為舊分支被清理而丟失,存活時間更長。

這三點對 Agent 場景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具,底下都是不停地發 prompt 給大模型,緩存命中率高了,整體響應就快了。

快速上手

下載 Ollama 0.19 預覽版:https://ollama.com/download

?? 目前需要 32GB 以上統一內存的 Mac

目前優先支持的是 Qwen3.5-35B-A3B 模型(Alibaba 最新的 MoE 模型,35B 參數但只激活 3B),采樣參數已經針對編程任務做了優化。

Claude Code 用戶:

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw 用戶:

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接跑模型聊天:

ollama run qwen3.5:35b-a3b-coding-nvfp4

模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續會支持更多模型和架構,同時也會跟 NVIDIA 的 Model Optimizer 打通,讓你可以導入更多 NVFP4 優化的模型。

社區實測:M5 Max vs M4 Max

說到 Apple Silicon 上的推理性能,這里推薦一個開源的MLX 推理速度測試工具

inference-speed-tests:https://github.com/itsmostafa/inference-speed-tests

這個項目和 Ollama 無關,它用的是mlx-lm直接跑推理基準測試。但對于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來說,它太有用了。

有網友用它對比了M5 MaxM4 Max(都是 16 寸、128GB、40 核 GPU 的頂配),結論很有參考價值:

短 prompt(512 tokens 輸出上限):

  • Prompt 處理速度:M5 Max 提升14%~42%

  • 生成吞吐量:M5 Max 提升14%~17%

長 prompt(~21K tokens 的摘要任務,壓力測試內存帶寬):

  • 生成速度提升類似

  • Prompt 處理差距巨大:M5 Max快了 2~3 倍

長上下文處理快 2~3 倍,這個數據對實際使用影響很大。你想想,跑 Agent 的時候動不動就是幾萬 token 的上下文,prompt 處理快了就意味著首 token 來得更快,整個交互體驗就上了一個臺階。

怎么用這個工具:

# 安裝
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

# 跑個基準測試
uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

# 跑多個模型對比
uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

# 長文本壓力測試
uv run src/main.py mlx-community/Qwen3-8B-4bit \
--dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

結果會自動按你的機器型號保存到results/目錄下,包含 prompt tps、generation tps、TTFT、峰值內存、總時間等詳細指標。如果你有新機器,跑完提個 PR 到倉庫,就能給社區貢獻你的數據。

總結

Ollama 0.19 這次更新的核心就三件事:

  1. MLX 引擎替換:Apple Silicon 上推理速度翻倍級提升

  2. NVFP4 量化格式:英偉達的 4 位精度方案,精度損失極小,本地推理結果跟云端一致

  3. 緩存大升級:Agent 和多輪對話場景更流暢

對 Mac 用戶來說,這是 Ollama 有史以來最重要的一次更新。之前那種"本地跑模型就是慢"的印象,現在該更新了。M4/M5 芯片 + 128GB 統一內存 + MLX + NVFP4,這套組合拳打下來,本地推理的體驗已經逼近可用的門檻。

  • Ollama 博客原文:https://ollama.com/blog/mlx

  • Ollama 下載:https://ollama.com/download

  • NVFP4 技術詳解(英偉達官方):https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

  • 社區推理速度測試工具:https://github.com/itsmostafa/inference-speed-tests

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

西樓知趣雜談
2026-04-23 10:50:03
拍《風云》時,導演為省錢給江祖平戴了條繩,竟撐起一個時代審美

拍《風云》時,導演為省錢給江祖平戴了條繩,竟撐起一個時代審美

蕭狡科普解說
2026-04-23 06:09:07
《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
從“恐俄”到“祛魅”:俄烏戰爭如何終結了歐洲的百年心魔

從“恐俄”到“祛魅”:俄烏戰爭如何終結了歐洲的百年心魔

民間胡扯老哥
2026-04-22 04:47:09
數學的本質到底是什么?看完這篇文章你會愛上數學

數學的本質到底是什么?看完這篇文章你會愛上數學

真相Truth
2026-04-06 06:30:12
女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

孤獨的獨角獸影視
2026-04-23 09:20:10
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

阿握聊事
2026-04-24 00:23:37
錢是有靈性的,記住以下六點,你會越來越有錢

錢是有靈性的,記住以下六點,你會越來越有錢

金沛的國學筆記
2026-04-21 18:53:07
記者:湖人調整里夫斯出戰情況,球員有望G3復出

記者:湖人調整里夫斯出戰情況,球員有望G3復出

懂球帝
2026-04-24 07:30:36
警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

田先生籃球
2026-04-23 10:07:58
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

極目新聞
2026-04-23 15:05:28
用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

快科技
2026-04-23 19:07:05
穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

大運河時空
2026-04-21 16:30:03
兒子回國當晚國安上門,說他指紋虹膜全不對,這人是誰?

兒子回國當晚國安上門,說他指紋虹膜全不對,這人是誰?

曉艾故事匯
2026-01-07 10:14:33
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

墨印齋
2026-04-23 12:35:16
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
最新民調出爐!蔣萬安奪冠,鄭麗文墊底,國民黨又要變天了?

最新民調出爐!蔣萬安奪冠,鄭麗文墊底,國民黨又要變天了?

天仙無味小仙女
2026-04-24 02:23:37
一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

半解智士
2026-04-23 10:04:34
金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

小徐講八卦
2026-04-24 06:06:44
2026-04-24 09:20:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

親子
教育
旅游
健康
軍事航空

親子要聞

法國寶媽在網上偷偷賣自己的奶!暗訪“母乳黑市”:細菌、乙肝……這能放心喝?

教育要聞

相似無刻度直尺作圖,一個視頻學會!

旅游要聞

走進櫸溪村

干細胞如何讓燒燙傷皮膚"再生"?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版