无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Gemini 3.5 Flash 實測:當模型速度進入 4G 時代,Agent 的游戲規則變了 | AI上新

0
分享至


天下武功,唯快不破。


作者|金光浩

編輯|靖宇

本周 Google I/O 大會上,谷歌發布了最新模型 Gemini 3.5 Flash。


Google I/O 大會發布 Gemini 3.5 Flash|圖片來源:youtube

有趣的是,隔一天國內 Qwen3.7-Max 也發布了,并且兩個模型都號稱自己在 Agent 場景上做了深度優化。

我看到他們的第一反應是:又是新一輪「模型大戰」,國內外廠商再次開啟跑分競賽。

但這次我花了兩天時間實測之后,我發現Gemini 3.5 Flash 給我最大的感受不是它有多聰明,而是它的速度快到讓我不得不重新想一個問題:

當模型的響應速度從「能用」變成「實時」,整個 Agent 的使用體驗會發生什么質變?

01

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很有意思:

Google 把它放在了 Flash 系列,但在 MCP Atlas 這個 Agent 基準測試上拿了 83.6% 的 SOTA 水平,甚至超過了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代碼能力在 Terminal-Bench 2.1 上得分 76.2%,超過了自家上一代旗艦 Gemini 3.1 Pro 的 70.3%。

這意味著一個 Flash 定位的模型,在干活能力上已經逼近甚至超過了許多旗艦產品。


Gemini 3.5 Flash 的各項性能|圖片來源:Google 播客

定價方面,輸入 1.5 美元/百萬 token,輸出 9 美元/百萬 token。它跟 Claude Opus 4.7 輸入 5 美元輸出 25 美元的定價比,便宜了幾倍。跟 GPT-5.5 比,也有明顯的價格優勢。

但真正讓它在一眾模型中脫穎而出的,是 289 tokens/秒的輸出速度:首 token 延遲大約 65 毫秒,比其他前沿模型快了 4 倍左右。


Gemini 3.5 Flash 在性能 * 速度方面獨一檔|圖片來源:Google 播客

它在 benchmark 做到了許多維度的 SOTA,具體用起來到底怎么樣?

02

實測:

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下:Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分數比較接近。


Gemini 3.5 Flash 和 qwen3.7-max 的評分很接近|圖片來源:Arena

Qwen3.7-Max 這個模型,在評測集上已經超過了國內的旗艦模型 Kimi 2.6、GLM-5.1、DeepSeek-V4,是目前國內的第一水平,效果也非常接近國外的頂尖模型。

Qwen 這次也專門為 Agent 可靠性設計,支持長達 35 小時的端到端自主任務執行,推理內核經過深度 GPU 優化,速度提升達 10 倍。


Qwen3.7-Max 的效果|圖片來源:Qwen

兩個面向 Agent 場景的頂級選手放在一起測,真實效果會如何呢?

第一個測試:寫一首給自己的小情詩

提示詞:幫我寫首給自己的小情詩

這是個輕量級任務,主要看基礎文本生成的速度和質量。

Qwen3.7-Max 輸出用了 30 秒,Gemini 3.5 Flash 用了 11 秒。速度差距接近 3 倍。

質量上,Qwen 的中文文筆確實更好一些,遣詞造句更有韻味。Gemini 雖然中文表達稍顯直白,但考慮到 11 秒的響應時間,這個響應體驗已經很接近即時對話了。


Qwen 3.7-max 實測 |圖片來源:Zenmux


Gemini 3.5 Flash 實測 |圖片來源:Zenmux

如果你只是日常聊天寫文字,兩者都夠用。

但如果場景換成 Agent 產品,用戶每說一句話都在等回復,11 秒和 30 秒的差距就是「流暢對話」和「明顯在等」的區別。

第二個測試:Golden Gate Bridge 3D 體素模擬

提示詞:ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.

我給了一個非常復雜的 Three.js 需求,要求生成一個帶晝夜系統、霧氣效果、交通流、船只和鳥群的金門大橋 3D 場景,輸出必須是單文件 HTML,不能用任何構建工具。

Qwen3.7-Max 輸出用了 204 秒,消耗了 14770 個 token。Gemini 3.5 Flash 用了 157 秒,但消耗了 35996 個 token。


Qwen 3.7-max 實測 |圖片來源:Zenmux


Gemini 3.5 Flash 實測 |圖片來源:Zenmux

這里出現了一個有意思的現象:Gemini 雖然總耗時更短,但 token 消耗是 Qwen 的 2.4 倍。

換句話說,Gemini 完成同樣任務寫的代碼消耗的 token 確實更「多」,這也意味著整體 Gemini 在執行任務的費用更貴。

不過 Gemini 3.5 Flash 因為每秒吐出的 token 數量遠高于對手,所以還是能保持總時間反而更短。

視覺效果上,Qwen3.7-Max 的整體層次感更豐富,光影和氛圍做得更細膩。Gemini 則勝在橋的結構細節,懸索、塔柱的比例更接近真實的金門大橋。

兩者各有所長,都是高水準的輸出。

第三個測試:macOS 菜單欄語音輸入應用

提示詞:https://github.com/yetone/voice-input-src

模型能力強不強,Agent 場景才是真正拉開差距的地方。

前兩個測試本質上都是「一次性生成」——給個提示詞,模型輸出一段內容就結束了。但真實的 Agent 工作流不是這樣的,它是一個長程任務,需要模型反復與環境交互、試錯、修正。

所以這次,我讓兩個模型各自實現一個完整的 macOS 語音輸入應用。這個開源項目很有意思:倉庫里只有一份提示詞,沒有任何代碼。想到朋友說的那句話:在 AI 時代,文檔是資產,代碼是負債。

我把需求丟給兩個模型,分別在 Claude Code 上跑。需求包括:Fn 鍵全局監聽、流式語音識別、懸浮窗動畫、輸入法兼容處理、LLM 糾錯集成、菜單欄配置界面,最終要求輸出簽名好的 .app 包。

結果差距非常大:

Qwen3.7-Max 跑了 55 分鐘,但是程序也沒能一遍過,中間出現編譯錯誤,需要人工介入。


Qwen 3.7-max 實測 |圖片來源:Zenmux

而 Gemini 3.5 Flash 僅跑了 10 分鐘,程序直接一遍過。


Gemini 3.5 Flash 實測 |圖片來源:Zenmux

從 55 分鐘到 10 分鐘:將近 5 倍的效率差距,而且 Gemini 的輸出是直接能用的,不需要額外調試。

這個結果讓我有點意外:

之前寫詩和做 3D 的測試里,兩者差距并不大。但一旦進入 Agent 編程的場景,Gemini 3.5 Flash 的 Agent 能力和速度優勢被急劇放大了。

原因也很好理解:Agent 執行長程編碼任務,不是一次性輸出一大段文字,而是要反復調用工具、讀取反饋、修改代碼、再次執行。每一輪交互都省下來的時間累積起來,差距就變得巨大。

03

模型體驗正在進入 4G 時代

我用了一個可能不太精確,但很直觀的說法:

過去大模型的生成速度更接近 3G 的體驗,你知道它在工作,但你需要等。

而 Gemini 3.5 Flash,讓我第一次感受到了接近 4G 的流暢度。

這種速度上的變化帶來的不僅僅是「快一點」的體驗提升,它直接決定了某些產品形態能不能成立。

比如 AI 陪伴這個場景:最近520 EVE 火了,王登科最近也上線了 AI 陪伴產品 The One。

在陪伴場景里,用戶對回應速度的敏感度極高:

如果對方兩三秒就能回你,那種感覺是「在聊天」,但如果要等十幾秒,那種感覺是「在等一個機器給你生成內容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 延遲,289 tokens/秒的輸出速度,意味著用戶幾乎感受不到等待。


微信里的 AI 陪伴 The One |圖片來源:微信

但速度和智能之間存在一個很現實的矛盾:

GPT-5.4 剛出來的時候,編程效果超過了 Anthropic 4.5,但很多人還是選擇繼續用 Anthropic 4.5。

為什么?因為在實際工程任務里,穩定性和指令遵循的精度有時候比極致的聰明更重要:

模型想變得更聰明,通常意味著參數量更大、推理鏈更長,這就會導致速度下降。

所以行業里開始出現一種分化:有的公司死磕模型能力上限,有的公司則專注于在保持夠用的智能水平的同時,把速度推到極致。

Gemini 3.5 Flash 選擇了后者,而且做得相當激進:它甚至把默認推理檔位從上一代 Flash 的 High 降到了 Medium,主動降低推理深度來換取速度提升。

Google 在這里做了一個關鍵的決策:對于 Agent 場景來說,快比聰明更重要。

這個判斷對不對?從 Agent 的發展趨勢來看,它很可能是對的。

04

速度對 Agent 意味著什么

回到文章開頭那個問題:

當模型的響應速度從「能用」變成「實時」,Agent 的使用體驗會發生什么質變?

我想從兩個維度來回答。

第一個是實時交互的體驗升級。

Claude Code 這類 Agent 產品在執行任務時,用戶能明顯感覺到模型在「思考」「等待」「處理」的間隙。

這些間隙加起來,一個 20 分鐘的任務可能有 5 分鐘是你在看它轉圈。

當速度快 4 倍,這些間隙被大幅壓縮,整個過程變得更像「你交代任務,它流暢執行」,而不是「你交代任務,它斷斷續續地干」。

第二個維度更有意思,也是我覺得 Gemini 3.5 Flash 真正的價值所在:

它讓 Agent 能在相同時間內完成更多的事。

想象一下這樣一個場景。假設你讓一個 Agent 跑 24 小時來完成一個大型項目。如果模型輸出速度是原來的 4 倍,在 Agent 調用工具的時間不變的前提下,一天內的產出可能提升 2 到 3 倍。

這個計算很粗略,因為 Agent 執行過程中有大量時間花在等待工具返回結果、讀取文件、編譯代碼上,這些時間不會因為模型變快而縮短。但模型思考和輸出代碼的那部分時間確實能被大幅壓縮。

而最近的趨勢是,Agent 執行任務的時間越來越長:

Claude Code 在不斷優化它的任務編排能力;OpenAI Codex 最近推出了 /goal 功能,可以讓Agent連續運行幾小時甚至幾天直到任務完成;各家都在努力拉長模型的持續工作時間:從半小時的任務到幾小時的項目,再到 Qwen3.7-Max 宣稱支持的 35 小時端到端執行。

任務時間線被拉長的同時,模型響應速度的價值也在同步放大:

一個 10 分鐘的任務,省幾分鐘你可能無感。

但當任務拉長到 10 小時、24 小時,省下的時間可能是小時級的。

即使只算模型輸出環節快 4 倍,一天的長程任務也能多擠出好幾個小時的有效產出。


Agent 的長程工作時間越來越長 | 圖片來源:Anthropic

這就是 Gemini 3.5 Flash 對 Agent 生態真正的價值:

它讓 Agent 的生產效率提升了一個量級,而且這個收益會隨著任務時長的增加而持續放大。

05

長程 Agent 能力之王

寫到這里我想做個總結。

Gemini 3.5 Flash 有明顯的短板:它在 Humanity's Last Exam 上只拿了 40.2%,低于自家上一代 Pro 的 44.4%。在抽象推理、長文檔檢索等測試中表現也不算突出。

它確實「偏科」,這是有意而為之,Google 主動在某些能力上做了取舍:

Gemini 3.5 Flash 選擇了 Coding 和 長程 Agent 能力,比如在 APEX 基準測試上(評估模型在真實工作場景中執行跨應用、長跨度任務的能力),Gemini 3.5 Flash 排名全球第一。


Gemini 3.5 Flash 在 APEX 獨一檔 | 圖片來源:artificialanalysis

但如果你把視角從「模型對比」切換到「Agent 工具選型」,你會發現這些短板在很多實際場景里并不致命:

大部分 Agent 任務不需要模型去回答「人類最后一考」那種綜合知識題,它需要的是快速生成代碼、準確調用工具、高效處理多步驟工作流。

而在這些場景上,Gemini 3.5 Flash 做到了又快又好。

前兩天聽了一期播客,張小珺對姚順宇的四小時訪談,姚順宇是從 Anthropic 跳到 Google DeepMind 的研究科學家,參與過 Claude 3.7 和 Gemini 3 的開發。


張小珺和姚順宇對談 | 圖片來源:小宇宙

他有句話讓我印象很深:現在模型在紙面上看著都差不多,benchmark 高一個點低一個點,那些差距主要是噪聲而不是信號,實際用起來,區別依然明顯。

然后他聊到自己現在的研究重心,兩件事:AI 自己做研究,以及 long horizon。Long horizon 就是讓模型在更長的時間跨度里持續工作,完成那些一句提示詞搞不定的復雜任務。

Gemini 3.5 Flash 無疑是這個觀點印證,它的發布標志著一個新階段的開始:

以前我們選模型看的是「誰最聰明」。但當Agent成為主要的調用方式,答案可能要改成「誰能讓Agent跑得最快、最遠、最穩」。它也是第一個讓我明確感知到這個拐點的產品。

如果你正在用 Claude Code 或者其他 Agent 工具做開發,我建議試試把底層模型切到 Gemini 3.5 Flash 跑幾個項目。

你會發現:那種 10 分鐘交付一個完整應用的體驗,用過之后很難回去。

畢竟,天下武功,唯快不破。

*頭圖來源:youtube

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

極客一問

你認為大模型的速度和能力,

哪個更重要?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
堅決反對向此次菲律賓8級地震提供任何援助。

堅決反對向此次菲律賓8級地震提供任何援助。

荊楚寰宇文樞
2026-06-09 23:00:52
你想活成Tiffany,生活卻把你逼成了Jessica

你想活成Tiffany,生活卻把你逼成了Jessica

晚風寄溫柔
2026-06-09 13:00:35
超市為啥要把秤挪到收銀臺?員工透露:有4個原因,很現實

超市為啥要把秤挪到收銀臺?員工透露:有4個原因,很現實

小談食刻美食
2026-06-10 07:30:40
不止“手伸進褲子”!那些片場潛規則,正在毀掉多少年輕女演員?

不止“手伸進褲子”!那些片場潛規則,正在毀掉多少年輕女演員?

川渝視覺
2026-06-10 08:59:23
綠凱官方曬布朗力挺!效仿文班拜師少林寺 頂級天賦擊碎交易流言

綠凱官方曬布朗力挺!效仿文班拜師少林寺 頂級天賦擊碎交易流言

顏小白的籃球夢
2026-06-10 13:15:48
4100公里洲際大殺器深夜突襲!炮擊俄羅斯關鍵橋梁,基輔成功反擊

4100公里洲際大殺器深夜突襲!炮擊俄羅斯關鍵橋梁,基輔成功反擊

悄悄史話
2026-06-10 11:06:59
中國剛和朝鮮握手,不到24小時,美國轉身就給韓國出了道臺灣題!

中國剛和朝鮮握手,不到24小時,美國轉身就給韓國出了道臺灣題!

青青子衿
2026-06-09 23:34:07
我國越來越多的人患腦梗?建議:停止食用“6物”,保護大腦

我國越來越多的人患腦梗?建議:停止食用“6物”,保護大腦

路醫生健康科普
2026-06-07 19:00:04
“中戲最丑女演員”:年輕時被李湘橫刀奪愛,憑《主角》再次出圈

“中戲最丑女演員”:年輕時被李湘橫刀奪愛,憑《主角》再次出圈

她時尚丫
2026-06-06 22:20:32
可口可樂,竟把111年沒變過的瓶子,做成足球瓶

可口可樂,竟把111年沒變過的瓶子,做成足球瓶

設計癖
2026-06-09 18:39:50
與孫穎莎秘密領證真相大白后,王楚欽近況曝光,難怪能當男隊隊長

與孫穎莎秘密領證真相大白后,王楚欽近況曝光,難怪能當男隊隊長

大嘴愛嗶嗶
2026-06-10 06:05:59
柬埔寨安徽商會會長劉忍被捕:錄音曝光令人發指,販賣人口起家!

柬埔寨安徽商會會長劉忍被捕:錄音曝光令人發指,販賣人口起家!

眼光很亮
2026-06-08 07:13:32
報應來了!日本,永久停產!

報應來了!日本,永久停產!

安安說
2026-06-09 13:13:36
64歲港劇男神近況曝光!獨坐公園吸煙,去年已退圈努力走出喪妻之痛

64歲港劇男神近況曝光!獨坐公園吸煙,去年已退圈努力走出喪妻之痛

TVB劇評社
2026-06-08 00:19:02
盧靖姍慶41歲生日,顴骨突出、臉頰凹陷,二胎后為減肥不敢吃甜食

盧靖姍慶41歲生日,顴骨突出、臉頰凹陷,二胎后為減肥不敢吃甜食

小瘋子耶
2026-06-10 10:55:48
馬科斯怎么都料不到!在仁愛礁坐灘27年的破船,卻意外助力中國了

馬科斯怎么都料不到!在仁愛礁坐灘27年的破船,卻意外助力中國了

共工之錨
2026-06-10 00:41:05
追隨瓦良格來華的蘇聯航母設計師,如今過得怎樣?

追隨瓦良格來華的蘇聯航母設計師,如今過得怎樣?

阿器談史
2026-06-05 04:41:04
哈薩比斯最新震撼預言:留給舊世界的時間,不到2000天

哈薩比斯最新震撼預言:留給舊世界的時間,不到2000天

筆記俠
2026-06-09 21:58:31
40歲的詹姆斯,40歲的賈巴爾,40歲的喬丹,沒有對比就沒有尷尬

40歲的詹姆斯,40歲的賈巴爾,40歲的喬丹,沒有對比就沒有尷尬

錢說體育
2026-06-07 23:00:33
前香港先生冠軍勸TVB年輕藝人:不要急著離巢

前香港先生冠軍勸TVB年輕藝人:不要急著離巢

TVB劇評社
2026-06-10 12:13:33
2026-06-10 14:48:49
極客公園
極客公園
讓最棒的創新成為頭條
12144文章數 78907關注度
往期回顧 全部

科技要聞

凌晨突發!Anthropic神級模型向你開放

頭條要聞

湖北15名大學生靠"手搓"饅頭創業 已拿到1000萬元投資

頭條要聞

湖北15名大學生靠"手搓"饅頭創業 已拿到1000萬元投資

體育要聞

2026世界杯,我們看什么?

娛樂要聞

850萬請跑男,公款追星肥了誰的口袋

財經要聞

大盤股IPO終結行情盛宴?背后真相來了

汽車要聞

賽豆科技發布AIVA品牌 首款概念車亮相/量產版新車今年內發布

態度原創

教育
本地
房產
親子
公開課

教育要聞

80歲學希臘語被嘲笑?這句話背后的故事把我看哭了

本地新聞

用楊柳青年畫的方式,打開天津

房產要聞

6885畝!海口教育新城來了!

親子要聞

小銳銳一歲兩個月,可以自己動手吃湯圓了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版