无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌亮招,Gemma 4加速3倍,vLLM Day0 支持

0
分享至


Gemma 4 MTP Drafter

谷歌昨天又出招了——4 月初剛發(fā)的 Gemma 4,今天直接送上一個(gè)讓推理快 3 倍的「外掛」:MTP drafter

官方原話只有一句,但很狠:Same quality, way more speed

Gemma 4 是什么,先簡(jiǎn)單回顧

幾個(gè)關(guān)鍵數(shù)字:

  • 參數(shù)覆蓋 2B → 31B 全檔位 ,從手機(jī)能跑的 E2B/E4B 到工作站級(jí)別的 31B Dense、26B MoE 都有

  • 多模態(tài) :文本、圖像、視頻、音頻統(tǒng)統(tǒng)支持

  • 推理強(qiáng) :MMLU Pro 跑到 85%+,開源陣營(yíng)里站在第一梯隊(duì)

  • 下載量驚人 :發(fā)布前 4 周已經(jīng)超過(guò) 6000 萬(wàn)次下載(Google 自己公布的數(shù)據(jù))

但模型再?gòu)?qiáng),跑不起來(lái)都是白搭。今天這次更新,谷歌瞄準(zhǔn)的就是「跑」這件事

MTP 加速的真實(shí)數(shù)字

谷歌博客地址:blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

下面是博客里直接給出的速度對(duì)比圖,橫坐標(biāo)是不同硬件、不同框架、不同模型規(guī)格,縱坐標(biāo)是 tokens/sec 提升倍數(shù):


Gemma 4 MTP drafter speed ups across hardware

測(cè)試涵蓋 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 四套主流推理?xiàng)#?strong>最高可達(dá) 3 倍提速

為什么能快這么多

要看懂 MTP,先得理解一個(gè)反直覺(jué)的事實(shí):

? 標(biāo)準(zhǔn) LLM 推理不是算力瓶頸,是顯存帶寬瓶頸

谷歌博客原話翻譯過(guò)來(lái)是:

? CPU/GPU 大部分時(shí)間都花在「把幾十億參數(shù)從顯存挪到計(jì)算單元」上,僅僅是為了生成一個(gè) token。計(jì)算單元長(zhǎng)期閑置,延遲主要被搬運(yùn)拖死

所以 MTP 這套思路的本質(zhì)是——用閑著的算力,提前預(yù)測(cè)多個(gè) token

具體怎么做:

1. 主模型(target,比如 Gemma 4 31B)+ 一個(gè)輕量級(jí) drafter(草稿模型)
2. drafter 利用主模型已經(jīng)計(jì)算好的 activations 和 KV cache,一次預(yù)測(cè)多個(gè) token
3. 主模型并行驗(yàn)證這些 token:對(duì)的整段接受,還順帶多生成 1 個(gè)
4. 錯(cuò)的丟掉,從分歧點(diǎn)繼續(xù)

老章用人話翻譯一下:

小弟(drafter)打草稿  → 一口氣往后猜 4-8 個(gè) token
大哥(target)做審核 → 整段并行打勾,對(duì)的全收,錯(cuò)的從那里重來(lái)

最關(guān)鍵的是 drafter 復(fù)用 target 的 KV cache,不需要重新算上下文,幾乎是「白嫖」算力

谷歌還在邊緣端做了額外優(yōu)化:E2B/E4B 這種小模型在 embedder 階段引入了 efficient clustering,把生成端再壓一壓,給手機(jī)/平板續(xù)命

推測(cè)解碼不是新東西,但谷歌把它做成了開箱即用

熟悉的同學(xué)知道,speculative decoding 這套東西最早是谷歌自己 2022 年那篇 Fast Inference from Transformers via Speculative Decoding 提出來(lái)的

DeepSeek、Qwen 在自己的推理?xiàng)@锒加眠^(guò)類似思路。但這次 Gemma 4 的關(guān)鍵貢獻(xiàn)是:

  1. 官方出 drafter :每個(gè)尺寸的 Gemma 4 都配了對(duì)應(yīng) drafter,不用自己練

  2. 生態(tài)全面適配 :Apache 2.0 協(xié)議,HuggingFace、Kaggle 都能下,Day-0 全家桶覆蓋

直接看支持的框架矩陣:

框架/平臺(tái)

狀態(tài)

入口

Hugging Face Transformers

? 已支持

https://huggingface.co/collections/google/gemma-4

MLX(Apple Silicon)

? 已支持

https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp

vLLM

? Day-0

https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html

SGLang

? Day-0

https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4

Ollama

? 已支持

ollama run gemma4:31b-coding-mtp-bf16

Google AI Edge Gallery

? Android/iOS 直接玩

App Store / Play Store


vLLM 的 Day-0 配合

vLLM 這次相當(dāng)上心,直接發(fā)了一個(gè)開箱即用的 docker 鏡像:


docker pull vllm/vllm-openai:gemma4-0505-cu129

完整 recipes 在這:recipes.vllm.ai/Google/gemma-4-26B-A4B-it

網(wǎng)友實(shí)測(cè):DGX Spark 跑 31B

光看官方數(shù)據(jù)沒(méi)意思,看一份獨(dú)立的實(shí)測(cè)

有位老哥在 NVIDIA DGX Spark(GB10 芯片)上跑 Gemma 4 31B,配上對(duì)應(yīng)的 31B drafter,對(duì)照組是關(guān)掉 MTP 的同一個(gè)模型

實(shí)測(cè)數(shù)字(baseline → MTP):

  • concurrency=1:3.65 → 6.37 tok/s (1.74×)

  • concurrency=4:14.34 → 23.59 tok/s (1.65×)

  • concurrency=8:14.37 → 24.18 tok/s (1.68×)

老哥的原話:

? Google 說(shuō) up to 2x,我們沒(méi)完全摸到,但提升是實(shí)打?qū)嵉模皇?vapor

技術(shù)棧也直接給出來(lái)了:

DGX Spark (GB10)
+ gemma-4-31b-it
+ gemma-4-31b-it-assistant # MTP drafter
+ vLLM (PR 41745 自編譯)
一些值得注意的細(xì)節(jié)

谷歌博客里埋了幾個(gè)老章覺(jué)得很關(guān)鍵的點(diǎn):

1. Apple Silicon 上 batch=1 時(shí) 26B MoE 路由有挑戰(zhàn)

但只要把并發(fā)拉到 4-8,本地最高能拿到 ~2.2× 加速——M 系列 Mac 跑模型的人請(qǐng)注意,并發(fā)開起來(lái)才能吃到這波紅利

2. 26B MoE 和 31B Dense 都能在消費(fèi)級(jí) GPU 上跑

之前這個(gè)尺寸基本是數(shù)據(jù)中心獨(dú)占。MTP 把延遲壓下來(lái)之后,本地編程助手、Agent 工作流的可行性大幅提升

3. 邊緣端 E2B/E4B 直接續(xù)航受益

設(shè)備端推理快了,CPU 喚醒時(shí)間就短,電池消耗就少。手機(jī)上跑大模型不再是噱頭

4. 零質(zhì)量損失

谷歌反復(fù)強(qiáng)調(diào):因?yàn)樽罱K輸出由主模型驗(yàn)證,輸出和不開 MTP 完全一致——這點(diǎn)對(duì)生產(chǎn)環(huán)境很關(guān)鍵

老章的看法

Gemma 4 的劇本其實(shí)分兩幕:

  • 第一幕(4 月初) :放出全尺寸全模態(tài)模型,把開源的智能上限往上推

  • 第二幕(5 月 5 日) :放出 MTP drafter,把同一批模型的速度往上推

把這兩件事拼起來(lái)看,谷歌想做的是:讓開源模型從「能跑」走向「日常可用」

適合誰(shuí)用:

  • 想在自有 GPU 上把 Gemma 4 服務(wù)化的團(tuán)隊(duì)

  • 對(duì)延遲敏感的 Agent / 編程助手 / 語(yǔ)音交互場(chǎng)景

  • Mac 用戶、Android/iOS 邊緣開發(fā)者

  • 顯卡不夠多但要榨吞吐量的工作室(這個(gè)我熟)

不太適合:

  • 單純做超大 batch 離線推理,本來(lái) GPU 就拉滿的場(chǎng)景,加速空間會(huì)縮水

  • 還在等 transformers 4.x 老版本支持的,請(qǐng)先升級(jí)

總結(jié)

Gemma 4 這波的關(guān)鍵不是「分?jǐn)?shù)又漲多少」,而是同樣的模型、同樣的輸出、速度直接 ×2~×3

這種「不動(dòng)質(zhì)量動(dòng)效率」的更新,對(duì)開源生態(tài)的實(shí)際意義比再發(fā)一個(gè)更大的模型更大

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現(xiàn)場(chǎng)落淚:女兒去世后他一直照顧我,別人家兒子都沒(méi)這么好;女婿:若再婚也會(huì)帶著她

“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現(xiàn)場(chǎng)落淚:女兒去世后他一直照顧我,別人家兒子都沒(méi)這么好;女婿:若再婚也會(huì)帶著她

都市快報(bào)橙柿互動(dòng)
2026-06-17 22:17:34
上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對(duì)衣服狀態(tài)回春

上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對(duì)衣服狀態(tài)回春

一個(gè)小豹子
2026-06-16 20:23:20
陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復(fù)婚

陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復(fù)婚

喜歡歷史的阿繁
2026-06-18 02:13:58
還是來(lái)了,為了制裁中國(guó),特朗普開出天價(jià)籌碼!普京這次真心動(dòng)了

還是來(lái)了,為了制裁中國(guó),特朗普開出天價(jià)籌碼!普京這次真心動(dòng)了

史料布籍
2026-06-17 10:27:47
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

健康科普365
2026-05-09 21:05:04
有梅西勝率76%,沒(méi)他75%!名記直言:梅西是球王,但阿根廷走不遠(yuǎn)

有梅西勝率76%,沒(méi)他75%!名記直言:梅西是球王,但阿根廷走不遠(yuǎn)

圣西羅的太陽(yáng)
2026-06-17 12:07:38
在美菲壓力下,中方已撤出在黃巖島安裝的所謂設(shè)施?外交部:敦促有關(guān)國(guó)家立即停止造謠污蔑

在美菲壓力下,中方已撤出在黃巖島安裝的所謂設(shè)施?外交部:敦促有關(guān)國(guó)家立即停止造謠污蔑

每日經(jīng)濟(jì)新聞
2026-06-17 15:58:49
20萬(wàn)家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩(wěn)中向好”?

20萬(wàn)家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩(wěn)中向好”?

戧詞奪理
2026-06-17 16:00:17
離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說(shuō)說(shuō)
2026-06-18 01:10:50
3-2!3-0!世聯(lián)賽:有驚無(wú)險(xiǎn),中國(guó)女排3:2逆轉(zhuǎn)德國(guó)女排

3-2!3-0!世聯(lián)賽:有驚無(wú)險(xiǎn),中國(guó)女排3:2逆轉(zhuǎn)德國(guó)女排

寶哥精彩賽事
2026-06-17 21:49:22
穆勒曬和梅西的合照:這家伙是goat

穆勒曬和梅西的合照:這家伙是goat

懂球帝
2026-06-17 11:44:39
烏軍在多戰(zhàn)場(chǎng)取得重大突破,俄軍節(jié)節(jié)敗退。

烏軍在多戰(zhàn)場(chǎng)取得重大突破,俄軍節(jié)節(jié)敗退。

世界探索發(fā)現(xiàn)
2026-04-22 01:08:43
特朗普罵奧巴馬“蠢貨”,《觀點(diǎn)》主持人群嘲:你的協(xié)議更爛?

特朗普罵奧巴馬“蠢貨”,《觀點(diǎn)》主持人群嘲:你的協(xié)議更爛?

追星雷達(dá)站
2026-06-18 01:00:22
你在無(wú)意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

你在無(wú)意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

夜深愛(ài)雜談
2026-03-16 22:21:03
賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

夢(mèng)醉為紅顏一笑
2026-06-12 20:44:29
中東那個(gè)惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

中東那個(gè)惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

明天后天大后天
2026-06-17 04:42:38
佛山徹底失守!廣東第三城易主

佛山徹底失守!廣東第三城易主

洞見(jiàn)報(bào)告
2026-05-02 18:55:22
特朗普突然表態(tài):以色列不用停火,但必須"保持分寸"

特朗普突然表態(tài):以色列不用停火,但必須"保持分寸"

桂系007
2026-06-17 23:50:23
官方:B席加盟皇馬,雙方簽約至2028年

官方:B席加盟皇馬,雙方簽約至2028年

懂球帝
2026-06-17 17:23:22
再訪蔡磊:每天工作12小時(shí),只有死亡才能讓我停下

再訪蔡磊:每天工作12小時(shí),只有死亡才能讓我停下

一條
2026-06-17 11:25:07
2026-06-18 04:35:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3435文章數(shù) 11165關(guān)注度
往期回顧 全部

科技要聞

馬斯克好友長(zhǎng)文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊(duì)史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊(duì)史世界杯首分

體育要聞

梅西帽子戲法:紀(jì)錄厚重,球王輕盈

娛樂(lè)要聞

陳紅一反常態(tài)保持沉默

財(cái)經(jīng)要聞

拉加德警告:AI可能引爆下一場(chǎng)金融危機(jī)

汽車要聞

23.99萬(wàn)起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國(guó)大家庭夢(mèng)中情車!

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
手機(jī)
教育
公開課

房產(chǎn)要聞

最新房?jī)r(jià):海口、三亞;新房、二手房全線下跌!

藝術(shù)要聞

235米!曼谷地標(biāo)“金字塔”動(dòng)工,BIG操刀

手機(jī)要聞

蘋果iPhone傳四喜:辟謠、漲內(nèi)存、漲影像、紀(jì)念版也有新變化!

教育要聞

認(rèn)知天性|一本改變你人生的書

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版