網易首頁 > 網易號 > 正文 申請入駐

谷歌重磅開源Gemma 4!手機離線跑 Agent、還降內存,Qwen 被拉進正面對決

0
分享至


整理 | 褚杏娟

剛剛,谷歌正式發布 Gemma 4,稱“這是其迄今為止最智能的開放模型系列”。該系列面向復雜推理與智能體工作流設計,采用商業許可的 Apache 2.0 許可證開源。

Gemma 4 提供四種規格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合專家模型(MoE)和 31B 稠密模型(Dense)。

在端側,E2B 和 E4B 模型針對移動和物聯網設備優化,推理時分別激活約 20 億和 40 億參數,以降低內存和電量消耗。據介紹,這兩個模型已與谷歌 Pixel 團隊、高通和聯發科等硬件廠商合作,可在手機、Raspberry Pi、NVIDIA Jetson Nano 等設備上離線運行,延遲接近零。

與此同時,研究人員表示,26B MoE 模型有一個巧妙之處:在推理任務中,它只會激活 38 億參數,因此既能保持較高運行速度,又不會犧牲大模型所具備的深厚知識儲備。

26B 和 31B 模型提供面向 IDE、編程助手和 Agent 工作流的高級推理能力。模型針對消費級 GPU 進行了優化,讓學生、研究人員和開發者能夠把自己的工作站變成以本地優先為核心的 AI 服務器。

谷歌 DeepMind 研究人員 Clement Farabet 和 Olivier Lacombe 表示,在 Gemma 4 上,他們設法進一步壓榨出了更多“單位參數智能”,讓這些模型能夠顯著實現“越級發揮”。例如,31B Dense 版本目前在行業標準榜單的開源模型中排名第三。

Gemma 4 建立在與 Gemini 3 相同的架構基礎之上,旨在處理復雜推理任務,并支持在工作站、智能手機等低功耗設備上本地運行的自主 AI Agent。這次關鍵提升包括:

  • 推理能力更強:該系列所有模型都面向復雜推理任務進行了優化,并提供可配置的“思考”模式;

  • 多模態能力進一步擴展:所有模型都支持文本和圖像輸入,其中圖像支持可變寬高比和不同分辨率;E2B 和 E4B 還原生支持視頻與音頻輸入;

  • 上下文窗口更大:端側模型為 128K,較大模型(26B/31B)最高 256K;

  • 編碼與智能體能力增強:模型在代碼能力基準測試中有明顯提升,同時內置函數調用支持,能夠更好地驅動自主 Agent 執行任務;

  • 原生支持系統提示詞:Gemma 4 內置了 system role 支持,讓對話結構更清晰,也更容易控制模型行為。


Farabet 和 Lacombe 解釋稱,每個 Gemma 4 模型都更適合用于運行 AI Agent。此前幾代 Gemma 模型往往需要開發者額外調整設計,才能與其他軟件工具交互;而 Gemma 4 已原生支持函數調用和結構化 JSON 輸出、原生系統指令以及超過 140 種語言。這意味著,開發者可以用它們來驅動自主 Agent,與第三方工具交互,并執行多步驟任務規劃。


根據 Arena AI 文本排行榜(截至 2026 年 2 月 1 日),31B 模型排名全球開放模型第 3 位,26B MoE 模型排名第 6 位。


谷歌表示,Gemma 4 在部分基準測試中表現優于參數大 20 倍的模型。


不過,有網友自己測算結果 Qwen3.5-27B 要略優于 Gemma 4 31B。


還有網友評價道,“最讓人眼前一亮的部分在于:一共四種尺寸,全部都為 Agent 場景做好了準備,而且全都可以在本地運行。我們一直都在呼吁,需要那種不用每次‘思考’都把數據傳回云端的模型。現在他們終于聽進去了,而且給出的東西甚至比預期還多。”

開源 + 本地,谷歌擴大優勢

此次,Gemma 4 繼續采用 Apache 2.0 許可證,允許商業使用、自由修改和部署。谷歌稱,這一選擇旨在給予開發者對數據、基礎設施和模型的完全控制權,支持本地或云端環境的安全部署。這消除了其他一些 AI 模型在商業使用上的諸多限制,或會成為企業應用開發者的理想選擇。

此外,谷歌還詳細列出了使用各種大小的 Gemma 4 模型版本運行推理所需的大致 GPU 或 TPU 內存。


Gemma 4 在架構設計上進一步兼顧了效率與部署現實。E2B 和 E4B 中的 “E” 指的是“有效參數”,這兩款小模型采用了 PLE(每層嵌入)技術,以提升端側部署時的參數利用效率。需要注意的是,PLE 雖然不會增加模型層數,但會為每層解碼器中的每個 token 配置獨立的小型嵌入,因此模型實際加載到內存中的靜態權重,往往會高于“有效參數規!北砻嫔蠈恼加谩

26B 版本采用了混合專家(MoE)架構,雖然生成時每個 token 實際只會激活約 40 億參數,但為了保證路由和推理速度,全部 260 億參數仍需提前載入內存,所以它的實際顯存需求更接近稠密 26B 模型,而不是 4B 模型。

此外,官方給出的內存估算通常只覆蓋靜態模型權重本身,并不包含運行框架、上下文窗口和 KV Cache 帶來的額外顯存開銷;如果進一步進行微調,顯存需求還會明顯高于推理階段,具體占用則取決于開發框架、批量大小,以及采用全參數微調還是 LoRA 等參數高效微調方案。

這次發布再次凸顯了谷歌想要主導“本地 AI”產業的雄心。Constellation Research 分析師 Holger Mueller 表示,即便是較大規模的 Gemma 4,也小到足以在單張圖形處理器上運行,因此它們非常適合邊緣場景以及那些對低延遲和數字主權有較高要求的應用。

他認為,“谷歌正在擴大自己在 AI 領域的領先優勢,不只是依靠 Gemini,也包括通過 Gemma 4 家族這樣的開放模型。這些模型對于構建 AI 開發者生態非常重要,也將幫助公司切入不同設備形態下的功能型和垂直行業應用場景。谷歌在此前發布 Gemma 3 時已經樹立了很高的門檻,因此這次發布也承載了很多期待!

現在,開發者可以通過谷歌云直接訪問這些模型,也可以在 Hugging Face、Kaggle 和 Ollama 上獲取模型及其開放權重。Android 開發者可在 AICore Developer Preview 中試用智能體工作流原型。

此外,谷歌提供了多種推理和微調路徑,包括:Hugging Face、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Cactus、Docker、MaxText、Tunix、Keras。云上部署支持 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速服務。

Gemma 4 開箱支持 NVIDIA(從 Jetson Nano 到 Blackwell GPU)、AMD GPU(通過開源 ROCm? 棧)以及 Google Cloud TPU。谷歌方面稱,新模型采用與谷歌專有模型相同等級的基礎設施安全協議,適用于企業和主權機構的高標準安全與可靠性要求。

https://deepmind.google/models/gemma/gemma-4/-and-e4b

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

QCon 全球軟件開發大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節跳動、小米、百度等一線科技企業與創新團隊的技術專家,圍繞 AI 工程化、系統架構與研發模式演進展開深入探討。更多詳情可掃碼或聯系票務經理 18514549229 進行咨詢。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
政治局會議定調“超預期”之后,中國手里至少還握著三張大牌!

政治局會議定調“超預期”之后,中國手里至少還握著三張大牌!

識局Insight
2026-05-07 14:21:37
牡丹花下死!這次拼完四胎想五胎的杜星霖,沒給張紀中留半點體面

牡丹花下死!這次拼完四胎想五胎的杜星霖,沒給張紀中留半點體面

樂天閑聊
2026-03-22 02:42:04
43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

漢史趣聞
2026-04-06 19:17:12
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
AI沒搶你的工作,它堵死了入口

AI沒搶你的工作,它堵死了入口

五觀不正
2026-05-07 14:28:56
高速免費大改賬:沒了節假日全免,換3000公里隨便跑,是賺是虧?

高速免費大改賬:沒了節假日全免,換3000公里隨便跑,是賺是虧?

娛樂圈的筆娛君
2026-05-06 05:47:30
城市更新大潮來了?中央明確:20年房齡老房子,2026年起或又吃香

城市更新大潮來了?中央明確:20年房齡老房子,2026年起或又吃香

云舟史策
2026-05-07 07:25:25
尷尬極了!母親天天穿緊身褲,女兒吐槽:都快50歲了,穿給誰看呢

尷尬極了!母親天天穿緊身褲,女兒吐槽:都快50歲了,穿給誰看呢

川渝視覺
2026-05-05 20:33:39
中紀委劃紅線:嚴查公務員出現這5種行為,觸碰將一律嚴肅處理

中紀委劃紅線:嚴查公務員出現這5種行為,觸碰將一律嚴肅處理

細說職場
2026-05-06 14:21:03
南韓148cm童顏網紅遭嗆「別再露奶了」 高級反虧:看來你很想看~

南韓148cm童顏網紅遭嗆「別再露奶了」 高級反虧:看來你很想看~

ETtoday星光云
2026-05-07 14:30:17
博主:據了解,若昂-卡洛斯非常想回到遼寧鐵人隊

博主:據了解,若昂-卡洛斯非常想回到遼寧鐵人隊

懂球帝
2026-05-07 10:33:05
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
高潔主任:半夜易醒,睡眠淺?每天拍打這處50次,讓你一覺到天亮

高潔主任:半夜易醒,睡眠淺?每天拍打這處50次,讓你一覺到天亮

大明愛養生
2026-04-28 14:17:50
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
兩大史詩級臺球巨擘夸贊吳宜澤:他改寫了臺球歷史,新人應當學習

兩大史詩級臺球巨擘夸贊吳宜澤:他改寫了臺球歷史,新人應當學習

里芃芃體育
2026-05-07 10:54:13
高市早苗之下跪,不是東施效顰,是荒誕不經!

高市早苗之下跪,不是東施效顰,是荒誕不經!

新民周刊
2026-05-07 09:07:23
匿名投票!申京排名第一。鄬宇I先!

匿名投票!申京排名第一。鄬宇I先。

柚子說球
2026-05-07 10:29:55
突發!世界冠軍退出元老賽,前往中國撈金,后天首秀,迎75雙雄PK

突發!世界冠軍退出元老賽,前往中國撈金,后天首秀,迎75雙雄PK

劉姚堯的文字城堡
2026-05-07 07:44:55
杭州同學聚會吃了32萬,請客的人付完錢走后,剩下的人翻臉了

杭州同學聚會吃了32萬,請客的人付完錢走后,剩下的人翻臉了

紙鳶奇譚
2025-12-19 14:19:59
47年,一農民給解放軍帶路,問到家人時:我哥參軍18年,叫陳錫聯

47年,一農民給解放軍帶路,問到家人時:我哥參軍18年,叫陳錫聯

歷史龍元閣
2026-05-06 12:20:15
2026-05-07 15:03:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

手機
時尚
親子
數碼
藝術

手機要聞

三星首款闊折疊手機!Galaxy Z Fold 8 Wide官方演示來了

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

親子要聞

2026年上海幼兒入園報名驗證、小學報名今起開始

數碼要聞

Q1全球平板排名:蘋果還是霸主,華為第三,小米第五

藝術要聞

這位老教授筆下的青年,活力滿滿

無障礙瀏覽 進入關懷版