ollama v0.20.0 更新：Gemma 4 全家桶發(fā)布，音頻、視覺、MoE、BPE 支持全面升級

2026-04-04 00:11:44　來源: moonfdd

北京舉報(bào)

分享至

2026年4月3日，ollama 發(fā)布了v0.20.0版本。
這次更新的核心非常明確：Gemma 4 正式加入支持，并且圍繞模型推理、音頻能力、Tokenizer、視覺測試、轉(zhuǎn)換器、OpenAI 音頻接口等多個(gè)方向進(jìn)行了集中增強(qiáng)。

如果你關(guān)注本次更新，可以直接從兩個(gè)關(guān)鍵詞理解：

?Gemma 4
?音頻與推理能力升級

下面按照本次版本更新內(nèi)容，逐項(xiàng)整理成一篇完整的技術(shù)更新說明。

一、Gemma 4 正式加入支持

本次 v0.20.0 最重要的變化，就是Gemma 4相關(guān)支持的加入。
更新中給出了多個(gè)可直接運(yùn)行的模型規(guī)格：

1）Effective 2B（E2B）

運(yùn)行命令：

ollama run gemma4:e2b

這是 Gemma 4 的有效 2B 版本，適合輕量場景使用。

2）Effective 4B（E4B）

運(yùn)行命令：

ollama run gemma4:e4b

這是 Gemma 4 的有效 4B 版本，在能力和資源消耗之間做了更平衡的選擇。

3）26B（Mixture of Experts model with 4B active parameters）

運(yùn)行命令：

ollama run gemma4:26b

這是一個(gè)MoE（Mixture of Experts）模型，描述中說明其4B active parameters。

4）31B（Dense）

運(yùn)行命令：

ollama run gemma4:31b

這是 Gemma 4 的31B Dense版本，屬于更大規(guī)模的稠密模型。

從這次發(fā)布的信息來看，Gemma 4 已經(jīng)形成了較完整的規(guī)格覆蓋，從輕量到大模型都提供了支持方式，用戶可以按資源和場景選擇對應(yīng)版本。

二、What's Changed：本次更新涉及的關(guān)鍵內(nèi)容

本次版本的更新記錄非常集中，主要圍繞 Gemma 4、音頻、Tokenizer、文檔、推理與測試展開。下面逐條梳理。

三、文檔更新

首先是文檔相關(guān)更新：

?docs: update pi docs

這說明本次版本中對 pi 相關(guān)文檔進(jìn)行了更新。
雖然內(nèi)容本身不多，但說明文檔層面同步跟進(jìn)了新版本變化，方便用戶查閱和使用。

四、Tokenizer 增強(qiáng)：支持 SentencePiece-style BPE

本次更新中有一個(gè)非常關(guān)鍵的底層能力變化：

?tokenizer: add SentencePiece-style BPE support

這表示 Tokenizer 新增了SentencePiece 風(fēng)格的 BPE 支持。
這一變化對于模型適配和分詞處理非常重要，尤其是在處理不同模型格式與分詞規(guī)則時(shí)，可以提升兼容性。

與此同時(shí)，后續(xù)也有與 tokenizer 相關(guān)的配套修復(fù)：

?mlx: respect tokenizer add_bos_token setting in pipeline

這個(gè)改動說明在 pipeline 中會尊重 tokenizer 的add_bos_token設(shè)置。
換句話說，Tokenizer 的行為會更貼合配置，避免在處理輸入時(shí)出現(xiàn)不一致情況。

五、Gemma 4 的模型支持與轉(zhuǎn)換器更新 1）Gemma 4 GGML 模型支持

更新中明確寫到：

?gemma4: add Gemma 4 GGML model support

這表示 Gemma 4 的 GGML 模型支持已經(jīng)加入。

2）轉(zhuǎn)換器更新：適配新的 weight drop 命名

?gemma4: update converter for new weight drop naming

這說明 Gemma 4 相關(guān)轉(zhuǎn)換器已經(jīng)根據(jù)新的 weight drop 命名進(jìn)行了更新。
這是模型轉(zhuǎn)換流程中非常關(guān)鍵的一環(huán)，確保新版本模型文件命名和導(dǎo)入過程能夠順利對接。

六、音頻能力大幅增強(qiáng)

這次 v0.20.0 在音頻方向的變化非常密集，可以說是重點(diǎn)之一。

1）添加音頻支持，使用 USM conformer encoder

更新內(nèi)容：

?gemma4: add audio support with USM conformer encoder

這表明 Gemma 4 新增了音頻支持，并且使用的是USM conformer encoder。

2）OpenAI 音頻 API 支持與能力檢測

更新內(nèi)容：

?gemma4: add OpenAI audio API support and capability detection

這說明本次版本已經(jīng)加入了OpenAI 音頻 API 支持，并且還包含capability detection，也就是能力檢測機(jī)制。

3）音頻輸入支持

更新內(nèi)容：

?gemma4: add audio input support for run command

這意味著在 run 命令中已經(jīng)支持音頻輸入。

4）新增轉(zhuǎn)寫命令

更新內(nèi)容：

?gemma4: add transcribe command (ollama transcribe MODEL)

這次新增了一個(gè)轉(zhuǎn)寫命令：

ollama transcribe MODEL

這對于音頻轉(zhuǎn)文字場景非常直接，命令形式也很清晰。

5）增加 OpenAI 音頻轉(zhuǎn)寫 API 和 input_audio 支持

更新內(nèi)容：

?gemma4: add OpenAI audio transcription API and input_audio support

這進(jìn)一步完善了音頻能力，不僅是輸入和轉(zhuǎn)寫，還補(bǔ)充了與 OpenAI 音頻轉(zhuǎn)寫 API 相關(guān)的支持，以及 input_audio 能力。

6）音頻輸入改為 dropped file attachments

更新內(nèi)容：

?cmd: simplify audio input to dropped file attachments

這說明音頻輸入在命令層面被簡化為dropped file attachments，使用方式更直接。

從這一組更新可以看出，v0.20.0 在音頻方向完成了從輸入、轉(zhuǎn)寫、API 到命令行體驗(yàn)的一整套補(bǔ)強(qiáng)。

七、Gemma 4 解析、渲染與集成測試支持

本次更新還有一組圍繞 Gemma 4 的基礎(chǔ)設(shè)施改進(jìn)：

?gemma4: add parser, renderer, and integration test plumbing

這說明已經(jīng)加入了parser、renderer、integration test plumbing。
也就是說，Gemma 4 在解析、渲染以及集成測試方面的配套設(shè)施已經(jīng)補(bǔ)上。

1）渲染器修復(fù)：輸出 BOS token

?gemma4: fix renderer to emit BOS token

這是一個(gè)非常具體的修復(fù)，說明 renderer 現(xiàn)在會正確輸出BOS token。

2）渲染器重寫：與 HF Jinja2 模板完全一致

?gemma4: rewrite renderer to match HF Jinja2 template exactly

這說明渲染器被重寫，以確保與 HF Jinja2 模板保持完全一致。

這個(gè)變化通常意味著模型輸入模板的行為會更加標(biāo)準(zhǔn)化，減少模板差異帶來的結(jié)果偏差。

八、MoE 相關(guān)增強(qiáng)與修復(fù)

Gemma 4 的 26B 版本是 MoE 模型，因此 MoE 相關(guān)改動非常關(guān)鍵。

1）為 MoE router 增加 per_expert_scale，并修復(fù) moe_intermediate 問題

更新內(nèi)容：

?gemma4: add per_expert_scale to MoE router and fix moe_intermediate_s…

雖然后半部分在記錄中被截?cái)啵呀?jīng)明確看到兩個(gè)重點(diǎn)：

? 為 MoE router 增加per_expert_scale
? 修復(fù)moe_intermediate_s...相關(guān)問題

2）修復(fù) MoE fused gate_up split 和 multiline tool-call arg parsing

更新內(nèi)容：

?gemma4: fix MoE fused gate_up split and multiline tool-call arg parsing

這說明本次對 MoE 的 fused gate_up split 做了修復(fù)，同時(shí)還修復(fù)了multiline tool-call arg parsing。

3）MoE block 字段對齊格式調(diào)整

更新內(nèi)容：

?Format Gemma4 MoE block field alignment

這是一個(gè)格式層面的整理，說明 Gemma4 MoE block 的字段對齊做了統(tǒng)一和規(guī)范化。

從這些信息可以看出，Gemma 4 的 MoE 版本在結(jié)構(gòu)、解析、格式與計(jì)算路徑方面都做了較完整的修復(fù)和優(yōu)化。

九、視覺測試與 thinking 測試增強(qiáng)

更新中還有測試相關(guān)增強(qiáng)：

?integration: improve vision test robustness and add thinking tests

這表示集成測試進(jìn)一步增強(qiáng)了視覺測試的穩(wěn)定性，同時(shí)新增了 thinking tests。
從結(jié)果上看，這類更新主要是為了提升整體驗(yàn)證能力，讓新版本在視覺相關(guān)場景和推理相關(guān)場景下更加可靠。

十、Gemma 4 音頻測試與 OpenAI API 覆蓋

音頻相關(guān)不僅有能力支持，也同步加入了測試覆蓋：

?integration: add gemma4 audio tests including OpenAI API coverage

這說明本次版本已經(jīng)加入了 Gemma 4 音頻測試，并且包括 OpenAI API 的覆蓋。
這和前面音頻能力的增強(qiáng)是相互呼應(yīng)的，說明該版本并不是只做了功能接入，也同步補(bǔ)齊了對應(yīng)驗(yàn)證。

十一、Gemma 4 視覺模型注釋與字段格式調(diào)整

更新記錄中還有一些針對模型結(jié)構(gòu)和代碼可讀性的整理：

?Remove redundant comments in gemma4 vision model
?Format Gemma4 MoE block field alignment

前者表示移除了 Gemma 4 視覺模型中的冗余注釋。
后者則對 Gemma4 MoE block 的字段對齊格式進(jìn)行了調(diào)整。

這類更新雖然看起來偏細(xì)節(jié)，但對于代碼維護(hù)、結(jié)構(gòu)統(tǒng)一和后續(xù)協(xié)作非常重要。

十二、內(nèi)存緩存與推理緩存優(yōu)化

本次更新里還有一項(xiàng)和緩存相關(guān)的改動：

?use 4096 kvcache.NewSWAMemCache
?gemma4: use full SWA memory for better cache reuse

這說明緩存機(jī)制做了調(diào)整：

? 使用了4096 kvcache.NewSWAMemCache
? 同時(shí)使用full SWA memory來獲得更好的 cache reuse

這類優(yōu)化通常和推理效率、上下文緩存復(fù)用體驗(yàn)有關(guān)，是底層能力增強(qiáng)的一部分。

十三、Gemma 4 clamps 初始化與后端加載修復(fù)

更新記錄中還有：

?gemma4: initialize clamps after backend load

這表示 clamps 的初始化時(shí)機(jī)調(diào)整到了 backend load 之后。
從描述來看，這是一個(gè)初始化順序上的修復(fù)，用于保證加載流程更穩(wěn)定。

十四、Gemma 4 GGML 改進(jìn)合并

更新記錄最后還有一個(gè)重要的合并信息：

?Merge pull request from gemma4-ggml-improvements

這說明本次版本把 Gemma 4 的 GGML 改進(jìn)進(jìn)行了合并，和前面提到的 GGML model support、converter 更新等內(nèi)容形成閉環(huán)。

十五、本次 v0.20.0 更新總結(jié)

整體來看，ollama v0.20.0 這次更新可以概括為幾個(gè)核心方向：

1.Gemma 4 正式上線

? 提供了 E2B、E4B、26B、31B 多種規(guī)格
? 支持 GGML 模型

2.音頻能力全面增強(qiáng)

? 支持音頻輸入
? 新增轉(zhuǎn)寫命令
? 增加 OpenAI 音頻 API 與 transcription API 支持
? 支持 input_audio
? 簡化音頻輸入方式

3.Tokenizer 和模板能力增強(qiáng)

? 增加 SentencePiece-style BPE 支持
? pipeline 尊重 add_bos_token
? renderer 重寫并修復(fù) BOS token 輸出

4.MoE 與推理路徑優(yōu)化

? 增加 per_expert_scale
? 修復(fù) MoE 相關(guān)問題
? 調(diào)整字段格式和分裂邏輯
? 改進(jìn)緩存復(fù)用

5.測試與工程能力增強(qiáng)

? 視覺測試穩(wěn)定性提升
? 新增 thinking tests
? 補(bǔ)充 Gemma 4 音頻測試與 OpenAI API 覆蓋

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.