網易首頁 > 網易號 > 正文申請入駐

Gemini 3.5 Flash 實測：當模型速度進入 4G 時代，Agent 的游戲規則變了 | AI上新

2026-05-25 14:19:01　來源: 極客公園

北京舉報

分享至

天下武功，唯快不破。

作者｜金光浩

編輯｜靖宇

本周 Google I/O 大會上，谷歌發布了最新模型 Gemini 3.5 Flash。

Google I/O 大會發布 Gemini 3.5 Flash｜圖片來源：youtube

有趣的是，隔一天國內 Qwen3.7-Max 也發布了，并且兩個模型都號稱自己在 Agent 場景上做了深度優化。

我看到他們的第一反應是：又是新一輪「模型大戰」，國內外廠商再次開啟跑分競賽。

但這次我花了兩天時間實測之后，我發現Gemini 3.5 Flash 給我最大的感受不是它有多聰明，而是它的速度快到讓我不得不重新想一個問題：

當模型的響應速度從「能用」變成「實時」，整個 Agent 的使用體驗會發生什么質變？

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很有意思：

Google 把它放在了 Flash 系列，但在 MCP Atlas 這個 Agent 基準測試上拿了 83.6% 的 SOTA 水平，甚至超過了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代碼能力在 Terminal-Bench 2.1 上得分 76.2%，超過了自家上一代旗艦 Gemini 3.1 Pro 的 70.3%。

這意味著一個 Flash 定位的模型，在干活能力上已經逼近甚至超過了許多旗艦產品。

Gemini 3.5 Flash 的各項性能｜圖片來源：Google 播客

定價方面，輸入 1.5 美元/百萬 token，輸出 9 美元/百萬 token。它跟 Claude Opus 4.7 輸入 5 美元輸出 25 美元的定價比，便宜了幾倍。跟 GPT-5.5 比，也有明顯的價格優勢。

但真正讓它在一眾模型中脫穎而出的，是 289 tokens/秒的輸出速度：首 token 延遲大約 65 毫秒，比其他前沿模型快了 4 倍左右。

Gemini 3.5 Flash 在性能 * 速度方面獨一檔｜圖片來源：Google 播客

它在 benchmark 做到了許多維度的 SOTA，具體用起來到底怎么樣？

實測：

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下：Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分數比較接近。

Gemini 3.5 Flash 和 qwen3.7-max 的評分很接近｜圖片來源：Arena

Qwen3.7-Max 這個模型，在評測集上已經超過了國內的旗艦模型 Kimi 2.6、GLM-5.1、DeepSeek-V4，是目前國內的第一水平，效果也非常接近國外的頂尖模型。

Qwen 這次也專門為 Agent 可靠性設計，支持長達 35 小時的端到端自主任務執行，推理內核經過深度 GPU 優化，速度提升達 10 倍。

Qwen3.7-Max 的效果｜圖片來源：Qwen

兩個面向 Agent 場景的頂級選手放在一起測，真實效果會如何呢？

第一個測試：寫一首給自己的小情詩

提示詞：幫我寫首給自己的小情詩

這是個輕量級任務，主要看基礎文本生成的速度和質量。

Qwen3.7-Max 輸出用了 30 秒，Gemini 3.5 Flash 用了 11 秒。速度差距接近 3 倍。

質量上，Qwen 的中文文筆確實更好一些，遣詞造句更有韻味。Gemini 雖然中文表達稍顯直白，但考慮到 11 秒的響應時間，這個響應體驗已經很接近即時對話了。

Qwen 3.7-max 實測｜圖片來源：Zenmux

Gemini 3.5 Flash 實測｜圖片來源：Zenmux

如果你只是日常聊天寫文字，兩者都夠用。

但如果場景換成 Agent 產品，用戶每說一句話都在等回復，11 秒和 30 秒的差距就是「流暢對話」和「明顯在等」的區別。

第二個測試：Golden Gate Bridge 3D 體素模擬

提示詞：ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.

我給了一個非常復雜的 Three.js 需求，要求生成一個帶晝夜系統、霧氣效果、交通流、船只和鳥群的金門大橋 3D 場景，輸出必須是單文件 HTML，不能用任何構建工具。

Qwen3.7-Max 輸出用了 204 秒，消耗了 14770 個 token。Gemini 3.5 Flash 用了 157 秒，但消耗了 35996 個 token。

Qwen 3.7-max 實測｜圖片來源：Zenmux

Gemini 3.5 Flash 實測｜圖片來源：Zenmux

這里出現了一個有意思的現象：Gemini 雖然總耗時更短，但 token 消耗是 Qwen 的 2.4 倍。

換句話說，Gemini 完成同樣任務寫的代碼消耗的 token 確實更「多」，這也意味著整體 Gemini 在執行任務的費用更貴。

不過 Gemini 3.5 Flash 因為每秒吐出的 token 數量遠高于對手，所以還是能保持總時間反而更短。

視覺效果上，Qwen3.7-Max 的整體層次感更豐富，光影和氛圍做得更細膩。Gemini 則勝在橋的結構細節，懸索、塔柱的比例更接近真實的金門大橋。

兩者各有所長，都是高水準的輸出。

第三個測試：macOS 菜單欄語音輸入應用

提示詞：https://github.com/yetone/voice-input-src

模型能力強不強，Agent 場景才是真正拉開差距的地方。

前兩個測試本質上都是「一次性生成」——給個提示詞，模型輸出一段內容就結束了。但真實的 Agent 工作流不是這樣的，它是一個長程任務，需要模型反復與環境交互、試錯、修正。

所以這次，我讓兩個模型各自實現一個完整的 macOS 語音輸入應用。這個開源項目很有意思：倉庫里只有一份提示詞，沒有任何代碼。想到朋友說的那句話：在 AI 時代，文檔是資產，代碼是負債。

我把需求丟給兩個模型，分別在 Claude Code 上跑。需求包括：Fn 鍵全局監聽、流式語音識別、懸浮窗動畫、輸入法兼容處理、LLM 糾錯集成、菜單欄配置界面，最終要求輸出簽名好的 .app 包。

結果差距非常大：

Qwen3.7-Max 跑了 55 分鐘，但是程序也沒能一遍過，中間出現編譯錯誤，需要人工介入。

Qwen 3.7-max 實測｜圖片來源：Zenmux

而 Gemini 3.5 Flash 僅跑了 10 分鐘，程序直接一遍過。

Gemini 3.5 Flash 實測｜圖片來源：Zenmux

從 55 分鐘到 10 分鐘：將近 5 倍的效率差距，而且 Gemini 的輸出是直接能用的，不需要額外調試。

這個結果讓我有點意外：

之前寫詩和做 3D 的測試里，兩者差距并不大。但一旦進入 Agent 編程的場景，Gemini 3.5 Flash 的 Agent 能力和速度優勢被急劇放大了。

原因也很好理解：Agent 執行長程編碼任務，不是一次性輸出一大段文字，而是要反復調用工具、讀取反饋、修改代碼、再次執行。每一輪交互都省下來的時間累積起來，差距就變得巨大。

模型體驗正在進入 4G 時代

我用了一個可能不太精確，但很直觀的說法：

過去大模型的生成速度更接近 3G 的體驗，你知道它在工作，但你需要等。

而 Gemini 3.5 Flash，讓我第一次感受到了接近 4G 的流暢度。

這種速度上的變化帶來的不僅僅是「快一點」的體驗提升，它直接決定了某些產品形態能不能成立。

比如 AI 陪伴這個場景：最近520 EVE 火了，王登科最近也上線了 AI 陪伴產品 The One。

在陪伴場景里，用戶對回應速度的敏感度極高：

如果對方兩三秒就能回你，那種感覺是「在聊天」，但如果要等十幾秒，那種感覺是「在等一個機器給你生成內容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 延遲，289 tokens/秒的輸出速度，意味著用戶幾乎感受不到等待。

微信里的 AI 陪伴 The One ｜圖片來源：微信

但速度和智能之間存在一個很現實的矛盾：

GPT-5.4 剛出來的時候，編程效果超過了 Anthropic 4.5，但很多人還是選擇繼續用 Anthropic 4.5。

為什么？因為在實際工程任務里，穩定性和指令遵循的精度有時候比極致的聰明更重要：

模型想變得更聰明，通常意味著參數量更大、推理鏈更長，這就會導致速度下降。

所以行業里開始出現一種分化：有的公司死磕模型能力上限，有的公司則專注于在保持夠用的智能水平的同時，把速度推到極致。

Gemini 3.5 Flash 選擇了后者，而且做得相當激進：它甚至把默認推理檔位從上一代 Flash 的 High 降到了 Medium，主動降低推理深度來換取速度提升。

Google 在這里做了一個關鍵的決策：對于 Agent 場景來說，快比聰明更重要。

這個判斷對不對？從 Agent 的發展趨勢來看，它很可能是對的。

速度對 Agent 意味著什么

回到文章開頭那個問題：

當模型的響應速度從「能用」變成「實時」，Agent 的使用體驗會發生什么質變？

我想從兩個維度來回答。

第一個是實時交互的體驗升級。

Claude Code 這類 Agent 產品在執行任務時，用戶能明顯感覺到模型在「思考」「等待」「處理」的間隙。

這些間隙加起來，一個 20 分鐘的任務可能有 5 分鐘是你在看它轉圈。

當速度快 4 倍，這些間隙被大幅壓縮，整個過程變得更像「你交代任務，它流暢執行」，而不是「你交代任務，它斷斷續續地干」。

第二個維度更有意思，也是我覺得 Gemini 3.5 Flash 真正的價值所在：

它讓 Agent 能在相同時間內完成更多的事。

想象一下這樣一個場景。假設你讓一個 Agent 跑 24 小時來完成一個大型項目。如果模型輸出速度是原來的 4 倍，在 Agent 調用工具的時間不變的前提下，一天內的產出可能提升 2 到 3 倍。

這個計算很粗略，因為 Agent 執行過程中有大量時間花在等待工具返回結果、讀取文件、編譯代碼上，這些時間不會因為模型變快而縮短。但模型思考和輸出代碼的那部分時間確實能被大幅壓縮。

而最近的趨勢是，Agent 執行任務的時間越來越長：

Claude Code 在不斷優化它的任務編排能力；OpenAI Codex 最近推出了 /goal 功能，可以讓Agent連續運行幾小時甚至幾天直到任務完成；各家都在努力拉長模型的持續工作時間：從半小時的任務到幾小時的項目，再到 Qwen3.7-Max 宣稱支持的 35 小時端到端執行。

任務時間線被拉長的同時，模型響應速度的價值也在同步放大：

一個 10 分鐘的任務，省幾分鐘你可能無感。

但當任務拉長到 10 小時、24 小時，省下的時間可能是小時級的。

即使只算模型輸出環節快 4 倍，一天的長程任務也能多擠出好幾個小時的有效產出。

Agent 的長程工作時間越來越長 | 圖片來源：Anthropic

這就是 Gemini 3.5 Flash 對 Agent 生態真正的價值：

它讓 Agent 的生產效率提升了一個量級，而且這個收益會隨著任務時長的增加而持續放大。

長程 Agent 能力之王

寫到這里我想做個總結。

Gemini 3.5 Flash 有明顯的短板：它在 Humanity's Last Exam 上只拿了 40.2%，低于自家上一代 Pro 的 44.4%。在抽象推理、長文檔檢索等測試中表現也不算突出。

它確實「偏科」，這是有意而為之，Google 主動在某些能力上做了取舍：

Gemini 3.5 Flash 選擇了 Coding 和長程 Agent 能力，比如在 APEX 基準測試上（評估模型在真實工作場景中執行跨應用、長跨度任務的能力），Gemini 3.5 Flash 排名全球第一。

Gemini 3.5 Flash 在 APEX 獨一檔 | 圖片來源：artificialanalysis

但如果你把視角從「模型對比」切換到「Agent 工具選型」，你會發現這些短板在很多實際場景里并不致命：

大部分 Agent 任務不需要模型去回答「人類最后一考」那種綜合知識題，它需要的是快速生成代碼、準確調用工具、高效處理多步驟工作流。

而在這些場景上，Gemini 3.5 Flash 做到了又快又好。

前兩天聽了一期播客，張小珺對姚順宇的四小時訪談，姚順宇是從 Anthropic 跳到 Google DeepMind 的研究科學家，參與過 Claude 3.7 和 Gemini 3 的開發。

張小珺和姚順宇對談 | 圖片來源：小宇宙

他有句話讓我印象很深：現在模型在紙面上看著都差不多，benchmark 高一個點低一個點，那些差距主要是噪聲而不是信號，實際用起來，區別依然明顯。

然后他聊到自己現在的研究重心，兩件事：AI 自己做研究，以及 long horizon。Long horizon 就是讓模型在更長的時間跨度里持續工作，完成那些一句提示詞搞不定的復雜任務。

Gemini 3.5 Flash 無疑是這個觀點印證，它的發布標志著一個新階段的開始：

以前我們選模型看的是「誰最聰明」。但當Agent成為主要的調用方式，答案可能要改成「誰能讓Agent跑得最快、最遠、最穩」。它也是第一個讓我明確感知到這個拐點的產品。

如果你正在用 Claude Code 或者其他 Agent 工具做開發，我建議試試把底層模型切到 Gemini 3.5 Flash 跑幾個項目。

你會發現：那種 10 分鐘交付一個完整應用的體驗，用過之后很難回去。

畢竟，天下武功，唯快不破。

*頭圖來源：youtube

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你認為大模型的速度和能力，

哪個更重要？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.