網易首頁 > 網易號 > 正文申請入駐

Google Gemma 4 開源｜全面解讀

2026-04-03 02:11:27　來源: 賽博禪心

北京舉報

分享至

Model

今天凌晨，Google DeepMind 發布了新一代開源模型 Gemma 4

Gemma 是 Google 的開源模型系列，和閉源旗艦 Gemini 共享底層技術，權重完全公開，任何人可以下載、修改、部署。上一代 Gemma 3 是 2025 年 3 月發的，到這次更新整整一年。在這一年里國內幾家開源模型已經迭代了好幾輪，Google 在開源賽道的存在感越來越弱

這次一口氣放出四款模型，從手機到工作站全覆蓋。許可證從 Google 自有協議換成了 Apache 2.0

Gemma 4 在 Arena AI 開源排行榜的 Elo 評分 vs 參數量，31B 排第三，26B MoE 排第六

四款模型

Gemma 4 發布了四個版本，分大模型組和小模型組

31B Dense：310 億參數全激活，60 層，256K 上下文。追求質量上限，Arena AI 開源排行榜第三。未量化 bfloat16 權重一張 80GB H100 就能裝下，量化后消費級顯卡也能跑

26B A4B MoE：252 億總參數、38 億激活參數，MoE 架構（128 個專家，每次激活 8 個加 1 個共享），30 層，256K 上下文。推理速度接近 4B 模型，質量遠超 4B 水平。排行榜第六

四款模型架構參數對比

E4B：80 億總參數、45 億有效參數，42 層，128K 上下文。名字里的 E 是 Effective 的縮寫，小模型用了 Per-Layer Embeddings 技術，有效參數遠小于總參數

E2B：51 億總參數、23 億有效參數，35 層，128K 上下文。據官方說法，在部分設備上內存占用可以壓到 1.5GB 以下

官方的四款模型能力對比

所有模型都支持圖像和視頻輸入，支持 140 多種語言

各模型均為多模態，小模型支持語音輸入，大模型反而不支持

E2B 和 E4B 各自帶了一個約 3 億參數的音頻編碼器，可以做語音識別和語音翻譯（最長 30 秒）。大模型沒有音頻能力。從產品邏輯看，手機端語音是剛需，工作站場景下不是

Google 和 Pixel 團隊、高通、聯發科合作優化了端側部署。E2B 和 E4B 可以在手機、樹莓派、NVIDIA Jetson Orin Nano 上完全離線運行

成績

先說結論：相比上一代 Gemma 3 27B，多個核心指標的提升是代際級別的

Gemma 4 完整 Benchmark 數據，最后一列為 Gemma 3 27B 基線

數學：AIME 2026 競賽測試，31B 拿到 89.2%，Gemma 3 27B 是 20.8%

代碼：Codeforces ELO 從 110 拉到 2150。LiveCodeBench v6 從 29.1% 到 80.0%。代碼是這次進步最大的方向

綜合推理：GPQA Diamond（研究生級科學問答）從 42.4% 到 84.3%。MMLU Pro 從 67.6% 到 85.2%

視覺：MMMU Pro 從 49.7% 到 76.9%。文檔 OCR（OmniDocBench）從 0.365 到 0.131

長上下文：MRCR v2 128K 從 13.5% 到 66.4%。長上下文此前是 Gemma 的短板，這次補回來了

多語言：MMMLU 從 70.7% 到 88.4%。原生訓練了 140 多種語言

26B MoE 和 31B 在大部分指標上只差 2 到 5 個百分點，但推理速度快得多。延遲敏感的場景下 26B MoE 性價比更高

E4B 的 MMLU Pro 69.4%%，有效參數只有 45 億，接近上一代 27B 的水平

核心能力

推理和思考。四款模型都內置了可開關的思考模式，開啟后模型先輸出內部推理再給答案。數學、邏輯、多步驟規劃類任務效果好很多，和 Gemini 的 thinking 能力同源

Agent 工作流。原生支持函數調用和結構化 JSON 輸出，可以讓模型調用外部工具和 API。Google 同步發布了 Agent Development Kit（ADK），一個開源的 Agent 框架。端側 E2B/E4B 也能跑 Agent，Google AI Edge Gallery 里已有示范應用

代碼生成。支持離線寫代碼。Codeforces ELO 2150、LiveCodeBench 80.0%，在代碼補全和生成場景里是可用的

多模態理解。所有模型都能處理圖片和視頻（視頻按幀處理，最長 60 秒）。圖片支持可變分辨率和寬高比，視覺 token 預算可手動配置（70 到 1120 五檔），低預算換速度，高預算換精度。OCR、文檔解析、圖表理解是重點場景

長文檔。大模型 256K 上下文，小模型 128K。架構上用混合注意力機制（局部滑動窗口 + 全局注意力交替），全局層用統一 KV 和 Proportional RoPE 優化長上下文的內存占用

多語言。原生訓練 140 多種語言，MMMLU 88.4%

Apache 2.0

之前 Gemma 1/2/3 用的都是 Google 自己的許可協議，雖然允許商用但有附加條款。這次直接換成了 Apache 2.0，開源社區最認可的商業友好型許可證之一。開發者可以自由修改、分發、商用，沒有用戶量門檻

Hugging Face 聯合創始人 Clément Delangue 評價這是一個重大里程碑。從 Gemma 系列自身看（三代自定義協議 → Apache 2.0），這是一個明確的轉向

Google 用許可證的選擇回答了一個討論了兩年的問題：大廠做開源到底有多大誠意

開源賽道的競爭者

Arena AI 開源排行榜上，Gemma 4 31B 排第三、26B MoE 排第六。排在前面的主要是國內的開源模型

目前開源賽道的主要競爭者是 DeepSeek（V3.2 在用，V4 即將發布）、通義千問 Qwen3.5、智譜 GLM-5.1、MiniMax M2.5、月之暗面 Kimi K2.5。這幾家在今年春節前后密集發布了新版本，參數量從幾百億到上千億不等，在推理、代碼、Agent 等方向各有側重

Gemma 4 最大只有 31B，參數量的天花板是一個限制。但 Gemma 4 在端側部署的工程完整度上做得最深：和高通、聯發科的芯片級合作，和 Android 生態的原生打通，加上 Apache 2.0 的合規便利，這些是它的差異化

訓練數據截止到 2025 年 1 月，且沒有公開訓練數據的具體組成

去哪里用

→在線體驗：Google AI Studio（31B、26B），Google AI Edge Gallery App（E4B、E2B）

→模型下載：Hugging Face、Kaggle、Ollama

→云端部署：Vertex AI、Cloud Run、GKE

→Android 開發：AICore Developer Preview（和 Gemini Nano 4 前向兼容）

→推理框架：Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、LM Studio、Unsloth、SGLang 等

Gemma 系列到目前累計超過 4 億 次下載，社區產出超過 10 萬 個變體

Kaggle 上同步啟動了 Gemma 4 Good Challenge，鼓勵用 Gemma 4 做有社會價值的項目

參考材料

→ Google 官方博客
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

→ Google DeepMind 產品頁
https://deepmind.google/models/gemma/gemma-4/

→ Gemma 4 Model Card（含完整 Benchmark）
https://ai.google.dev/gemma/docs/core/model_card_4

→ Hugging Face 模型集合
https://huggingface.co/collections/google/gemma-4

→ Hugging Face 技術博客
https://huggingface.co/blog/gemma4

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.