網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌全家桶，都被新模型“污染”了

2026-05-27 12:18:36　來(lái)源: 字母榜

北京舉報(bào)

分享至

距離谷歌的Gemini 3.5 Flash發(fā)布已經(jīng)一周多了。

皮查伊在谷歌發(fā)布會(huì)上口口聲聲地表示，Gemini 3.5 Flash性能比3.1 Pro還強(qiáng)，說(shuō)它是Agent時(shí)代的底座。

可結(jié)果呢？網(wǎng)上對(duì)Gemini 3.5 Flash的評(píng)價(jià)，除了速度快這唯一的優(yōu)點(diǎn)外，全是缺點(diǎn)。輸出的內(nèi)容錯(cuò)誤多、啰嗦、干活token消耗量爆炸……

谷歌Antigravity負(fù)責(zé)人瓦倫·莫漢（Varun Mohan）在5月25日發(fā)帖稱(chēng)，谷歌已增設(shè)Gemini 3.5 Flash (Low) 模型用于優(yōu)化資源消耗。

瓦倫表示，根據(jù)谷歌的內(nèi)部測(cè)試數(shù)據(jù)，在處理簡(jiǎn)單任務(wù)時(shí)，Gemini 3.5 Flash (Low) 相比Gemini 3.5 Flash (Medium) 可以減少約45%的token生成量。在軟件工程（SWE）任務(wù)上的表現(xiàn)，Gemini 3.5 Flash (Low) 普遍優(yōu)于上一代旗艦?zāi)Ｐ虶emini 3 Flash (High)。

然而網(wǎng)友們并不買(mǎi)賬，現(xiàn)在，瓦倫的評(píng)論區(qū)已經(jīng)被網(wǎng)友們的冷嘲熱諷徹底攻占。

熱評(píng)第一條是“你們的產(chǎn)品測(cè)試過(guò)嗎？看起來(lái)你們是拿我們?cè)谧鰷y(cè)試啊！”

第二條是“能否也解決一下圖像模型的生成數(shù)量限制問(wèn)題？你們的能力需要對(duì)標(biāo)Codex。我使用Codex可以生成1000張圖像，但在谷歌的高級(jí)套餐下，我只能使用Antigravity生成24張。”

Gemini 3.0 Pro出來(lái)的時(shí)候，所有人都在為谷歌鼓掌，OpenAI甚至因此拉響紅色警報(bào)，以防止被谷歌超越。

然而到了 3.5 Flash，谷歌成了小丑，眼瞅著就要步入Meta的后塵。

那我們不禁要問(wèn)，谷歌，你這是咋了？

Gemini 3.5的表現(xiàn)沒(méi)有達(dá)到預(yù)期

網(wǎng)上對(duì)Gemini 3.5 Flash的評(píng)價(jià)非常一致，很快，但是不夠好。

皮查伊在發(fā)布會(huì)上反復(fù)強(qiáng)調(diào)模型多便宜，然而現(xiàn)實(shí)中情況截然相反。

按照官方定價(jià)，Gemini 3.5 Flash每百萬(wàn)輸入token收費(fèi)1.5美元，每百萬(wàn)輸出token收費(fèi)9美元，確實(shí)比Claude Opus 4.7的5美元和25美元便宜。

但這只是價(jià)格表，真正決定成本的，是完成一個(gè)任務(wù)到底要消耗多少token。

Artificial Analysis在完整評(píng)估套件中測(cè)試發(fā)現(xiàn)，Gemini 3.5 Flash完成全部任務(wù)的總成本是1552美元，而Gemini 3 Flash只需要282美元，前者是后者的5.5倍。

哪怕是和Gemini 3.1 Pro相比，F(xiàn)lash的成本也高出75%，大約是870美元。更尷尬的是，Gemini 3.5 Flash完成任務(wù)的費(fèi)用，比GPT-5.5 medium還貴。

原因在于turn count，也就是完成任務(wù)需要的輪次。

在Agent評(píng)估中，F(xiàn)lash模型平均每個(gè)任務(wù)需要49輪對(duì)話。每一輪對(duì)話，它都會(huì)把完整的對(duì)話歷史輸入給模型，token成本因此暴增。

而這樣的任務(wù)，GPT-5.5或者Opus 4.7，差不多只用20輪就能完成。

所以谷歌說(shuō)的“成本不到一半”，指的是單位token價(jià)格。但對(duì)用戶來(lái)說(shuō)，Gemini 3.5 Flash一點(diǎn)都不便宜。

除了輪次多了，Gemini 3.5 Flash的輸出非常啰嗦。

比如以前你問(wèn)Gemini 3.1 Pro一個(gè)技術(shù)問(wèn)題，模型會(huì)直接給出代碼和簡(jiǎn)短解釋。

換成3.5 Flash之后，同樣的問(wèn)題，模型會(huì)先解釋背景，再列舉三種可能的方案，然后逐一分析優(yōu)缺點(diǎn)，最后才給出代碼。

看起來(lái)很全面，實(shí)際上大部分內(nèi)容都是廢話。更要命的是，這些廢話都算token，都要收費(fèi)。

復(fù)雜任務(wù)的token消耗更是爆炸。

有用戶反映，讓Flash執(zhí)行一個(gè)多步驟的代碼重構(gòu)任務(wù)，模型反復(fù)在不同文件之間跳轉(zhuǎn)，每次跳轉(zhuǎn)都要重新加載上下文，最終消耗的token是預(yù)期的三倍以上。

還有用戶表示，只是輸入了一個(gè)復(fù)雜的prompt，就直接觸發(fā)了5小時(shí)使用限制。

谷歌在I/O 2026之后悄悄修改了AI Pro訂閱的額度規(guī)則，從固定消息數(shù)，改成了基于計(jì)算資源的配額（compute-based quota）。

就是說(shuō)你一個(gè)任務(wù)，如果讓模型思考得多，那即使它給你回復(fù)的內(nèi)容不變，花的錢(qián)也比以前更多。

那么問(wèn)題來(lái)了，我怎么知道一個(gè)任務(wù)會(huì)讓模型消耗多少算力？而且，我也推算不出來(lái)我還剩多少算力。

可能我只是跟它打個(gè)招呼，就花掉很多token。讓它執(zhí)行一個(gè)長(zhǎng)周期任務(wù)，反而不怎么消耗token。

有用戶在外網(wǎng)論壇上直接把新限制稱(chēng)為“騙局”，稱(chēng)單個(gè)prompt就消耗了13%的配額，某些Gemini AI Plus功能一次能燒掉將近30%。

那為什么Gemini 3.5 Flash表現(xiàn)會(huì)這么一般？

答案藏在benchmark里，F(xiàn)lash的表現(xiàn)非常不均衡。

Gemini 3.5 Flash在Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld這類(lèi)Agent、工具調(diào)用、代碼執(zhí)行榜單上表現(xiàn)不錯(cuò)。Terminal-Bench 2.1拿到76.2%，MCP Atlas拿到83.6%，都算是頭部成績(jī)。

這些榜單測(cè)的是模型能不能按照指令調(diào)用工具、執(zhí)行命令、完成多步驟操作。Flash在這些方面確實(shí)有優(yōu)勢(shì)。

但在更接近“聰明不聰明”的綜合推理榜上，它的表現(xiàn)就有點(diǎn)難看了。

Humanity‘s Last Exam是40.2%，低于Gemini 3.1 Pro的44.4%和Claude Opus 4.7的46.9%。ARC-AGI-2是72.1%，低于Gemini 3.1 Pro的77.1%和GPT-5.5的84.6%。GDPval-AA也低于Claude Opus和GPT-5.5。

也就是說(shuō)，Gemini 3.5 Flash有點(diǎn)“蠢”。你給它任務(wù)它能去干活，但它“智力不夠”。它做不了現(xiàn)在最火的復(fù)雜推理、長(zhǎng)鏈分析、創(chuàng)意判斷。

記憶方面也有問(wèn)題。

在谷歌的宣傳中，Gemini 3.5 Flash有最高1M token上下文。但模型卡里的MRCR v2長(zhǎng)上下文測(cè)試顯示，128k平均成績(jī)是77.3%，到1M pointwise只有26.6%。

Gemini 3.5 Flash雖然能一口吃下很多內(nèi)容，但是到用的時(shí)候就開(kāi)始糊涂了。

Artificial Analysis的獨(dú)立測(cè)試直接打臉谷歌。

在編程指數(shù)（Coding Index）上，Artificial Analysis給Flash打了45.0分，低于Gemini 3.1 Pro的56.5分，更遠(yuǎn)低于GPT-5.5。

Gemini污染了谷歌的入口，導(dǎo)致模型問(wèn)題會(huì)污染Google的所有產(chǎn)品體驗(yàn)

谷歌I/O 2026上，皮查伊宣布，Gemini是谷歌全產(chǎn)品宇宙的連接層。

也就是說(shuō)，Gemini 3.5 Flash嵌入到了谷歌絕大多數(shù)產(chǎn)品里。

外媒表示，“Gemini正在變得無(wú)法避開(kāi)”。

過(guò)去，一個(gè)AI不好用，你可以不用。你覺(jué)得ChatGPT不行，可以換Claude，還覺(jué)得不好你可以壓根不用AI。

但谷歌把Gemini放進(jìn)所有入口以后，Gemini 3.5 Flash的糟糕體驗(yàn)，污染了谷歌所有產(chǎn)品。

最典型的例子是AI Overview和AI Mode的“disregard/ignore/stop”故障。

用戶搜索“disregard”“ignore”“stop”等單詞時(shí)，谷歌AI Overview會(huì)把它們誤判成指令，導(dǎo)致搜索結(jié)果異常或空白。

有用戶在X上發(fā)帖說(shuō)，搜索“disregard”這個(gè)詞，AI Overview不是給出定義，而是回復(fù)“明白了！我會(huì)忽略之前的提示，重新開(kāi)始。”

搜索“stop”，AI Overview說(shuō)“沒(méi)問(wèn)題。我已經(jīng)停止當(dāng)前操作。”

搜索“ignore”，AI Overview說(shuō)“收到。消息已忽略。”

嵌入Gemini 3.5 Flash以后，AI Overview把這些單詞當(dāng)成了對(duì)話指令，導(dǎo)致AI Overview把這些單詞當(dāng)成了對(duì)話指令。

問(wèn)題不只出現(xiàn)在這幾個(gè)詞上。經(jīng)過(guò)網(wǎng)友測(cè)試，“remember”“start”“finished”“forget”這些詞也會(huì)觸發(fā)類(lèi)似故障。即便在搜索詞里加上“definition”，也無(wú)法讓AI Overview回歸正常。

谷歌方面回應(yīng)稱(chēng)，這個(gè)問(wèn)題與I/O的新搜索發(fā)布無(wú)關(guān)，是AI Overviews自身問(wèn)題，團(tuán)隊(duì)正在修復(fù)。

搜索是谷歌的命根子，一旦搜索出了問(wèn)題，所有人都只會(huì)覺(jué)得“谷歌要涼了”。

所以現(xiàn)在的壓力給到了Gemini 3.5 Pro。

外界真正想看的，不是谷歌能不能把AI塞進(jìn)所有入口。這個(gè)問(wèn)題已經(jīng)有答案了，谷歌確實(shí)做到了。外界想看的是，Google能不能拿出一個(gè)足夠聰明、足夠穩(wěn)定、足夠有說(shuō)服力的旗艦?zāi)Ｐ停匦伦C明自己在模型能力上沒(méi)有掉隊(duì)。

這個(gè)任務(wù)Flash完成不了。它是一個(gè)執(zhí)行型模型，速度快，能干活，但智力不夠。它適合做Agent架構(gòu)里的子任務(wù)執(zhí)行器，配合強(qiáng)規(guī)劃器使用。但它不是旗艦，它撐不起谷歌在AI時(shí)代的門(mén)面。

最終只能落到3.5 Pro。

目前，Gemini 3.5 Pro還在內(nèi)部測(cè)試中。官方博客表示，“我們也在努力開(kāi)發(fā)3.5 Pro。它已經(jīng)在內(nèi)部使用，我們期待下個(gè)月（6月）推出。”

谷歌產(chǎn)品負(fù)責(zé)人圖爾西·多希（Tulsee Doshi）表示，“3.5 Pro像項(xiàng)目經(jīng)理，負(fù)責(zé)想清楚事情該怎么做；Flash像執(zhí)行團(tuán)隊(duì)，負(fù)責(zé)把一個(gè)個(gè)具體任務(wù)跑完。真正需要推理和規(guī)劃的地方，要交給更大的Pro；只是需要快速調(diào)用工具、批量處理任務(wù)的地方，用Flash就夠了。。”

這個(gè)架構(gòu)設(shè)計(jì)本身沒(méi)問(wèn)題，問(wèn)題在于Pro還沒(méi)出來(lái)，很多場(chǎng)景只能讓Flash一個(gè)人苦苦硬撐。

所以Gemini 3.5 Pro變成了一個(gè)二次驗(yàn)貨節(jié)點(diǎn)。

如果3.5 Pro出來(lái)后表現(xiàn)還不錯(cuò)，那谷歌高低還能圓過(guò)去。

話術(shù)我都想好“全線嵌入Flash是我們一個(gè)嘗試，給大家造成了一些不好的產(chǎn)品體驗(yàn)，不過(guò)我們已經(jīng)發(fā)布了3.5 Pro，絕對(duì)好用，歡迎大家體驗(yàn)”。

Flash的問(wèn)題可以被理解為一種妥協(xié)，Pro才是真正的實(shí)力展示。

但如果3.5 Pro表現(xiàn)不好，那谷歌在AI這塊可以說(shuō)是全面潰敗。

AI Overview有低級(jí)錯(cuò)誤、ChatBot啰嗦、WorkSpace消耗token過(guò)高導(dǎo)致價(jià)格太貴、Antigravity沒(méi)什么起色。所有這些產(chǎn)品都會(huì)被Gemini拖累，從優(yōu)勢(shì)變成負(fù)擔(dān)。

谷歌現(xiàn)在的處境很微妙。它有現(xiàn)金、有基礎(chǔ)設(shè)施、有DeepMind。但自從3.0 Pro之后，它就一直缺能打的旗艦?zāi)Ｐ汀?/p>

3.5 Pro要補(bǔ)的就是這個(gè)缺口。如果3.5 Pro做不到，谷歌真就有可能步入Meta的后塵。

谷歌正在成為硬件公司

不過(guò)谷歌并非一敗涂地，相反，在硬件這塊，谷歌反而支棱起來(lái)了。

谷歌2026年Q1財(cái)報(bào)顯示，公司收入1099億美元，同比增長(zhǎng)22%。谷歌Search & Other收入604億美元，同比增長(zhǎng)19%。YouTube廣告收入約99億美元，同比增長(zhǎng)11%。谷歌Cloud收入200億美元，同比增長(zhǎng)63%。

這說(shuō)明谷歌仍然是一臺(tái)賺錢(qián)機(jī)器。

這份財(cái)報(bào)里最亮眼的數(shù)字，來(lái)自于谷歌Cloud的63%增長(zhǎng)。

皮查伊在財(cái)報(bào)電話會(huì)上說(shuō)，Cloud的增長(zhǎng)是“強(qiáng)勁需求”的結(jié)果。其實(shí)這句話的本質(zhì)，就是在說(shuō)谷歌的TPU硬件和數(shù)據(jù)中心賣(mài)得非常好。

基于谷歌模型構(gòu)建的AI解決方案同比增長(zhǎng)近800%。Gemini Enterprise的付費(fèi)月活用戶環(huán)比增長(zhǎng)40%。通過(guò)API使用的AI token增長(zhǎng)到每分鐘160億個(gè)，比第四季度的100億增長(zhǎng)了60%。

Cloud的backlog（已經(jīng)簽下，但還沒(méi)有確認(rèn)成收入的合同金額）在本季度翻了一番，達(dá)到4620億美元。

皮查伊說(shuō)，“顯然，我們?cè)诙唐趦?nèi)受到算力限制。如果我們能夠滿足需求，我們的Cloud收入會(huì)更高。所以我們正在度過(guò)這個(gè)時(shí)刻，我們正在投資，但我們有一個(gè)強(qiáng)大的長(zhǎng)期規(guī)劃框架……我們看到了前所未有的機(jī)會(huì)。”

公司預(yù)計(jì)在未來(lái)24個(gè)月內(nèi)完成50%的backlog。

雖然谷歌基座模型不行，編程工具Antigravity表現(xiàn)也差強(qiáng)人意，但TPU這塊表現(xiàn)太好了。

我都懷疑，谷歌是不是忘了自己其實(shí)是一個(gè)互聯(lián)網(wǎng)公司，不是一個(gè)硬件公司？

Anthropic、Meta等外部大客戶正在租用或采購(gòu)谷歌TPU資源。

Anthropic在5月宣布與谷歌和Broadcom簽署了新的多年期協(xié)議，擴(kuò)大使用谷歌Cloud的TPU。

這筆交易讓Anthropic獲得了多達(dá)100萬(wàn)個(gè)谷歌AI計(jì)算芯片的使用權(quán)，價(jià)值數(shù)百億美元，預(yù)計(jì)將在2026年帶來(lái)超過(guò)1吉瓦的容量上線。

1吉瓦的電廠，大約能給35萬(wàn)戶家庭供電。

谷歌在Google Cloud Next 2026上宣布了第八代TPU，首次采用雙芯片方法，分別針對(duì)訓(xùn)練和推理設(shè)計(jì)專(zhuān)用架構(gòu)，TPU 8t和TPU 8i。

尤其是TPU 8t，它是專(zhuān)為大規(guī)模、計(jì)算密集型的訓(xùn)練工作準(zhǔn)備的，具有更大的計(jì)算吞吐量和更多的scale-up帶寬。

TPU 8i則是專(zhuān)為低延遲推理工作負(fù)載設(shè)計(jì)，Agent干活要反復(fù)“思考、調(diào)用工具、再思考”。每一步慢一點(diǎn)，幾十上百步下來(lái)就會(huì)很慢，所以低延遲對(duì)Agent特別重要。

或者你可以這么理解，TPU 8t是給模型用的。

訓(xùn)練前沿大模型就是讓幾萬(wàn)塊芯片一起跑馬拉松。問(wèn)題不是單塊芯片夠不夠快，而是這幾十萬(wàn)塊芯片能不能一直持續(xù)地跑。

比如說(shuō)某根網(wǎng)絡(luò)線壞了、某塊芯片不亮了、系統(tǒng)需要重啟檢查點(diǎn)，那么整個(gè)訓(xùn)練集群就會(huì)因此浪費(fèi)掉大量時(shí)間。

所以Google說(shuō)TPU 8t的重點(diǎn)不是單純“算力更強(qiáng)”，而是讓訓(xùn)練過(guò)程更少中斷。

谷歌說(shuō)，TPU 8t的設(shè)計(jì)目標(biāo)，是goodput超過(guò)97%。

所謂goodput，你可以理解成真正用于干活的時(shí)間。

比如一臺(tái)機(jī)器理論上工作100小時(shí)，但中間故障、等待、重啟浪費(fèi)了10小時(shí)，那有效工作時(shí)間只有90小時(shí)，goodput就是90%。

Google說(shuō)TPU 8t目標(biāo)超過(guò)97% goodput，意思是它希望大部分時(shí)間都真的在訓(xùn)練，而不是在等修復(fù)、等重啟、等網(wǎng)絡(luò)恢復(fù)。

為了實(shí)現(xiàn)超過(guò)97%的goodput，谷歌給TPU 8t加入了很多橫向提升性能的功能。比如系統(tǒng)發(fā)現(xiàn)哪里壞了，可以自動(dòng)繞路，不用人手工停機(jī)修。

TPU 8i則是給Agent用的。

Agent推理是一個(gè)非常麻煩的事情，前文提到，Agent不是回答一次就結(jié)束了的，它會(huì)反復(fù)思考、查資料、調(diào)用工具、寫(xiě)代碼、再檢查、再修正。

一次任務(wù)可能要調(diào)用模型幾十次甚至上百次。

所以TPU 8i重點(diǎn)是讓這些調(diào)用盡可能快。

它有384MB板載SRAM，可以理解成芯片旁邊有一片非常快的小記憶區(qū)。Agent短期記憶就保留在這里，那么當(dāng)Agent需要用這些記憶的時(shí)候，就可以直接從這里面拿，從而減少來(lái)回搬數(shù)據(jù)的時(shí)間。

它還用了更多CPU主機(jī)，也就是讓旁邊有更多“調(diào)度員”幫忙安排數(shù)據(jù)輸入輸出、任務(wù)協(xié)調(diào)。Agent跑起來(lái)不只是模型算一下，還要不斷讀數(shù)據(jù)、發(fā)請(qǐng)求、調(diào)工具、拿結(jié)果，CPU就是幫TPU處理這些雜活的。

微軟曾經(jīng)有過(guò)這么一個(gè)預(yù)測(cè)，到2028年將有13億個(gè)Agent投入運(yùn)行，這才是為什么，谷歌要把TPU分成8t和8i，Agent的歸Agent，訓(xùn)練的歸訓(xùn)練。

和谷歌傳統(tǒng)的互聯(lián)網(wǎng)業(yè)務(wù)相比，TPU反而是他們現(xiàn)在最硬的敘事。

但問(wèn)題就在于，Anthropic能用TPU造出Claude Opus 4.7以及現(xiàn)在的Mythos，可谷歌只拿出來(lái)了Gemini 3.5 Flash。

還真就是橘生淮南則為橘，生于淮北則為枳。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.