網易首頁 > 網易號 > 正文申請入駐

Ollama 0.19 來了

2026-04-06 23:01:12　來源: Ai學習的老章

北京舉報

分享至

Ollama 0.19 版來了，直接在 Apple Silicon 上用 MLX 重寫了推理引擎，速度飆到了一個讓人難以忽視的水平。

還有英偉達 NVPF4 傍身，強強聯合，贏麻了。

Ollama 0.19：MLX 駕到

Ollama 一直是 Mac 用戶跑本地大模型的首選

但說實話，之前的速度只能算"能用"，跟云端推理比起來還是差了點意思。

這次 0.19 版本，Ollama 做了一個根本性的改變：底層推理引擎直接換成了 Apple 的 MLX 框架。

MLX 是 Apple 專門為自家芯片的統一內存架構（Unified Memory Architecture）打造的機器學習框架。

簡單說，CPU 和 GPU 共享同一塊內存，數據不用來回拷貝，天然就快。之前 Ollama 用的是 llama.cpp 的推理后端，現在直接上了 MLX，等于換了個渦輪增壓。

效果有多猛？來看官方數據（基于 M5 芯片 + Qwen3.5-35B-A3B 模型）：

指標

Ollama 0.19 (MLX + NVFP4)

Ollama 0.18 (llama.cpp + Q4_K_M)

提升

Prefill（預填充）

1810 tokens/s

1154 tokens/s

+57%Decode（生成）

112 tokens/s

58 tokens/s

+93%

Prefill 速度提了 57%，生成速度幾乎翻倍

跑 Coding Agent 的時候，那種"嗖嗖嗖"往外吐代碼的感覺，爽。

而且 Ollama 還透露，用 int4 量化時數據更好看：prefill 能到 1851 token/s，decode 到 134 token/s。

在 M5、M5 Pro 和 M5 Max 上，Ollama 還能利用新的GPU Neural Accelerators來同時加速首 token 延遲（TTFT）和生成速度。

NVFP4：英偉達的 4 位浮點量化格式

這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4，這個值得多聊兩句。

你可能會問：Mac 上跑大模型，跟英偉達有什么關系？

關系大了

NVFP4 是英偉達基于 Blackwell GPU 架構推出的一種 4 位浮點數格式，最大的特點就是在極低精度下仍然保持很高的模型準確率。

Ollama 把它引入到 MLX 推理中，目的是讓本地用戶跑出來的結果和云端生產環境盡量一致。

傳統量化（比如之前的 Q4_K_M）雖然也是 4 位，但精度損失比較明顯。NVFP4 的兩個核心設計讓它脫穎而出：

1. 高精度縮放因子

每 16 個值組成一個"微塊"（micro-block），共享一個 FP8（E4M3）格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放，NVFP4 的分組更細、縮放更準。

2. 雙層縮放策略

在微塊級別 FP8 縮放之上，還有一個張量級別的 FP32 二級縮放因子，兩層一起工作，大幅降低量化誤差。

英偉達官方給出的 DeepSeek-R1-0528 測試數據很有說服力：

評測

FP8

NVFP4

精度差異

MMLU-PRO

85%

84%

GPQA Diamond

81%

80%

Math-500

98%

AIME 2024

89%

91%

在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒看錯，4 位量化比 8 位的分還高。

對 Ollama 用戶來說，NVFP4 意味著你本地跑的模型和云端推理服務（用 TensorRT-LLM、vLLM 部署的）結果幾乎一致。以前本地量化和云端之間總有一條"質量鴻溝"，現在這條溝被大幅填平了。

更多關于 NVFP4 的技術細節，可以看英偉達官方博客：https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

緩存升級：Agent 場景更絲滑

除了推理引擎大換血，0.19 在緩存機制上也做了三項重要改進，主要面向 Coding Agent 和多輪對話場景：

更低的內存占用：跨會話復用緩存。跑 Claude Code 這類工具時，多個分支會話共享系統提示的緩存，內存利用率更高。
智能檢查點：Ollama 會在 prompt 的關鍵位置保存緩存快照，后續請求命中緩存的概率更高，prompt 處理更快。
更聰明的淘汰策略：共享前綴的緩存不會因為舊分支被清理而丟失，存活時間更長。

這三點對 Agent 場景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具，底下都是不停地發 prompt 給大模型，緩存命中率高了，整體響應就快了。

快速上手

下載 Ollama 0.19 預覽版：https://ollama.com/download

?? 目前需要 32GB 以上統一內存的 Mac

目前優先支持的是 Qwen3.5-35B-A3B 模型（Alibaba 最新的 MoE 模型，35B 參數但只激活 3B），采樣參數已經針對編程任務做了優化。

Claude Code 用戶：

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw 用戶：

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接跑模型聊天：

ollama run qwen3.5:35b-a3b-coding-nvfp4

模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續會支持更多模型和架構，同時也會跟 NVIDIA 的 Model Optimizer 打通，讓你可以導入更多 NVFP4 優化的模型。

社區實測：M5 Max vs M4 Max

說到 Apple Silicon 上的推理性能，這里推薦一個開源的MLX 推理速度測試工具：

inference-speed-tests：https://github.com/itsmostafa/inference-speed-tests

這個項目和 Ollama 無關，它用的是mlx-lm直接跑推理基準測試。但對于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來說，它太有用了。

有網友用它對比了M5 Max和M4 Max（都是 16 寸、128GB、40 核 GPU 的頂配），結論很有參考價值：

短 prompt（512 tokens 輸出上限）：

Prompt 處理速度：M5 Max 提升14%~42%
生成吞吐量：M5 Max 提升14%~17%

長 prompt（~21K tokens 的摘要任務，壓力測試內存帶寬）：

生成速度提升類似
Prompt 處理差距巨大：M5 Max快了 2~3 倍

長上下文處理快 2~3 倍，這個數據對實際使用影響很大。你想想，跑 Agent 的時候動不動就是幾萬 token 的上下文，prompt 處理快了就意味著首 token 來得更快，整個交互體驗就上了一個臺階。

怎么用這個工具：

# 安裝
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

 # 跑個基準測試
uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

 # 跑多個模型對比
uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

 # 長文本壓力測試
uv run src/main.py mlx-community/Qwen3-8B-4bit \
  --dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

結果會自動按你的機器型號保存到results/目錄下，包含 prompt tps、generation tps、TTFT、峰值內存、總時間等詳細指標。如果你有新機器，跑完提個 PR 到倉庫，就能給社區貢獻你的數據。

總結

Ollama 0.19 這次更新的核心就三件事：

MLX 引擎替換：Apple Silicon 上推理速度翻倍級提升
NVFP4 量化格式：英偉達的 4 位精度方案，精度損失極小，本地推理結果跟云端一致
緩存大升級：Agent 和多輪對話場景更流暢

對 Mac 用戶來說，這是 Ollama 有史以來最重要的一次更新。之前那種"本地跑模型就是慢"的印象，現在該更新了。M4/M5 芯片 + 128GB 統一內存 + MLX + NVFP4，這套組合拳打下來，本地推理的體驗已經逼近可用的門檻。

Ollama 博客原文：https://ollama.com/blog/mlx
Ollama 下載：https://ollama.com/download
NVFP4 技術詳解（英偉達官方）：https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
社區推理速度測試工具：https://github.com/itsmostafa/inference-speed-tests

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.