![]()
天下武功,唯快不破。
作者|金光浩
編輯|靖宇
本周 Google I/O 大會上,谷歌發布了最新模型 Gemini 3.5 Flash。
![]()
Google I/O 大會發布 Gemini 3.5 Flash|圖片來源:youtube
有趣的是,隔一天國內 Qwen3.7-Max 也發布了,并且兩個模型都號稱自己在 Agent 場景上做了深度優化。
我看到他們的第一反應是:又是新一輪「模型大戰」,國內外廠商再次開啟跑分競賽。
但這次我花了兩天時間實測之后,我發現Gemini 3.5 Flash 給我最大的感受不是它有多聰明,而是它的速度快到讓我不得不重新想一個問題:
當模型的響應速度從「能用」變成「實時」,整個 Agent 的使用體驗會發生什么質變?
01
Gemini 3.5 Flash 是什么水平
Gemini 3.5 Flash 的定位很有意思:
Google 把它放在了 Flash 系列,但在 MCP Atlas 這個 Agent 基準測試上拿了 83.6% 的 SOTA 水平,甚至超過了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。
代碼能力在 Terminal-Bench 2.1 上得分 76.2%,超過了自家上一代旗艦 Gemini 3.1 Pro 的 70.3%。
這意味著一個 Flash 定位的模型,在干活能力上已經逼近甚至超過了許多旗艦產品。
![]()
Gemini 3.5 Flash 的各項性能|圖片來源:Google 播客
定價方面,輸入 1.5 美元/百萬 token,輸出 9 美元/百萬 token。它跟 Claude Opus 4.7 輸入 5 美元輸出 25 美元的定價比,便宜了幾倍。跟 GPT-5.5 比,也有明顯的價格優勢。
但真正讓它在一眾模型中脫穎而出的,是 289 tokens/秒的輸出速度:首 token 延遲大約 65 毫秒,比其他前沿模型快了 4 倍左右。
![]()
Gemini 3.5 Flash 在性能 * 速度方面獨一檔|圖片來源:Google 播客
它在 benchmark 做到了許多維度的 SOTA,具體用起來到底怎么樣?
02
實測:
Gemini 3.5 Flash vs Qwen3.7-Max
先提一下:Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分數比較接近。
![]()
Gemini 3.5 Flash 和 qwen3.7-max 的評分很接近|圖片來源:Arena
Qwen3.7-Max 這個模型,在評測集上已經超過了國內的旗艦模型 Kimi 2.6、GLM-5.1、DeepSeek-V4,是目前國內的第一水平,效果也非常接近國外的頂尖模型。
Qwen 這次也專門為 Agent 可靠性設計,支持長達 35 小時的端到端自主任務執行,推理內核經過深度 GPU 優化,速度提升達 10 倍。
![]()
Qwen3.7-Max 的效果|圖片來源:Qwen
兩個面向 Agent 場景的頂級選手放在一起測,真實效果會如何呢?
第一個測試:寫一首給自己的小情詩
提示詞:幫我寫首給自己的小情詩
這是個輕量級任務,主要看基礎文本生成的速度和質量。
Qwen3.7-Max 輸出用了 30 秒,Gemini 3.5 Flash 用了 11 秒。速度差距接近 3 倍。
質量上,Qwen 的中文文筆確實更好一些,遣詞造句更有韻味。Gemini 雖然中文表達稍顯直白,但考慮到 11 秒的響應時間,這個響應體驗已經很接近即時對話了。
![]()
Qwen 3.7-max 實測 |圖片來源:Zenmux
![]()
Gemini 3.5 Flash 實測 |圖片來源:Zenmux
如果你只是日常聊天寫文字,兩者都夠用。
但如果場景換成 Agent 產品,用戶每說一句話都在等回復,11 秒和 30 秒的差距就是「流暢對話」和「明顯在等」的區別。
第二個測試:Golden Gate Bridge 3D 體素模擬
提示詞:ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.
我給了一個非常復雜的 Three.js 需求,要求生成一個帶晝夜系統、霧氣效果、交通流、船只和鳥群的金門大橋 3D 場景,輸出必須是單文件 HTML,不能用任何構建工具。
Qwen3.7-Max 輸出用了 204 秒,消耗了 14770 個 token。Gemini 3.5 Flash 用了 157 秒,但消耗了 35996 個 token。
![]()
Qwen 3.7-max 實測 |圖片來源:Zenmux
![]()
Gemini 3.5 Flash 實測 |圖片來源:Zenmux
這里出現了一個有意思的現象:Gemini 雖然總耗時更短,但 token 消耗是 Qwen 的 2.4 倍。
換句話說,Gemini 完成同樣任務寫的代碼消耗的 token 確實更「多」,這也意味著整體 Gemini 在執行任務的費用更貴。
不過 Gemini 3.5 Flash 因為每秒吐出的 token 數量遠高于對手,所以還是能保持總時間反而更短。
視覺效果上,Qwen3.7-Max 的整體層次感更豐富,光影和氛圍做得更細膩。Gemini 則勝在橋的結構細節,懸索、塔柱的比例更接近真實的金門大橋。
兩者各有所長,都是高水準的輸出。
第三個測試:macOS 菜單欄語音輸入應用
提示詞:https://github.com/yetone/voice-input-src
模型能力強不強,Agent 場景才是真正拉開差距的地方。
前兩個測試本質上都是「一次性生成」——給個提示詞,模型輸出一段內容就結束了。但真實的 Agent 工作流不是這樣的,它是一個長程任務,需要模型反復與環境交互、試錯、修正。
所以這次,我讓兩個模型各自實現一個完整的 macOS 語音輸入應用。這個開源項目很有意思:倉庫里只有一份提示詞,沒有任何代碼。想到朋友說的那句話:在 AI 時代,文檔是資產,代碼是負債。
我把需求丟給兩個模型,分別在 Claude Code 上跑。需求包括:Fn 鍵全局監聽、流式語音識別、懸浮窗動畫、輸入法兼容處理、LLM 糾錯集成、菜單欄配置界面,最終要求輸出簽名好的 .app 包。
結果差距非常大:
Qwen3.7-Max 跑了 55 分鐘,但是程序也沒能一遍過,中間出現編譯錯誤,需要人工介入。
![]()
Qwen 3.7-max 實測 |圖片來源:Zenmux
而 Gemini 3.5 Flash 僅跑了 10 分鐘,程序直接一遍過。
![]()
Gemini 3.5 Flash 實測 |圖片來源:Zenmux
從 55 分鐘到 10 分鐘:將近 5 倍的效率差距,而且 Gemini 的輸出是直接能用的,不需要額外調試。
這個結果讓我有點意外:
之前寫詩和做 3D 的測試里,兩者差距并不大。但一旦進入 Agent 編程的場景,Gemini 3.5 Flash 的 Agent 能力和速度優勢被急劇放大了。
原因也很好理解:Agent 執行長程編碼任務,不是一次性輸出一大段文字,而是要反復調用工具、讀取反饋、修改代碼、再次執行。每一輪交互都省下來的時間累積起來,差距就變得巨大。
03
模型體驗正在進入 4G 時代
我用了一個可能不太精確,但很直觀的說法:
過去大模型的生成速度更接近 3G 的體驗,你知道它在工作,但你需要等。
而 Gemini 3.5 Flash,讓我第一次感受到了接近 4G 的流暢度。
這種速度上的變化帶來的不僅僅是「快一點」的體驗提升,它直接決定了某些產品形態能不能成立。
比如 AI 陪伴這個場景:最近520 EVE 火了,王登科最近也上線了 AI 陪伴產品 The One。
在陪伴場景里,用戶對回應速度的敏感度極高:
如果對方兩三秒就能回你,那種感覺是「在聊天」,但如果要等十幾秒,那種感覺是「在等一個機器給你生成內容」。
而 Gemini 3.5 Flash 65 毫秒的首 token 延遲,289 tokens/秒的輸出速度,意味著用戶幾乎感受不到等待。
![]()
微信里的 AI 陪伴 The One |圖片來源:微信
但速度和智能之間存在一個很現實的矛盾:
GPT-5.4 剛出來的時候,編程效果超過了 Anthropic 4.5,但很多人還是選擇繼續用 Anthropic 4.5。
為什么?因為在實際工程任務里,穩定性和指令遵循的精度有時候比極致的聰明更重要:
模型想變得更聰明,通常意味著參數量更大、推理鏈更長,這就會導致速度下降。
所以行業里開始出現一種分化:有的公司死磕模型能力上限,有的公司則專注于在保持夠用的智能水平的同時,把速度推到極致。
Gemini 3.5 Flash 選擇了后者,而且做得相當激進:它甚至把默認推理檔位從上一代 Flash 的 High 降到了 Medium,主動降低推理深度來換取速度提升。
Google 在這里做了一個關鍵的決策:對于 Agent 場景來說,快比聰明更重要。
這個判斷對不對?從 Agent 的發展趨勢來看,它很可能是對的。
04
速度對 Agent 意味著什么
回到文章開頭那個問題:
當模型的響應速度從「能用」變成「實時」,Agent 的使用體驗會發生什么質變?
我想從兩個維度來回答。
第一個是實時交互的體驗升級。
Claude Code 這類 Agent 產品在執行任務時,用戶能明顯感覺到模型在「思考」「等待」「處理」的間隙。
這些間隙加起來,一個 20 分鐘的任務可能有 5 分鐘是你在看它轉圈。
當速度快 4 倍,這些間隙被大幅壓縮,整個過程變得更像「你交代任務,它流暢執行」,而不是「你交代任務,它斷斷續續地干」。
第二個維度更有意思,也是我覺得 Gemini 3.5 Flash 真正的價值所在:
它讓 Agent 能在相同時間內完成更多的事。
想象一下這樣一個場景。假設你讓一個 Agent 跑 24 小時來完成一個大型項目。如果模型輸出速度是原來的 4 倍,在 Agent 調用工具的時間不變的前提下,一天內的產出可能提升 2 到 3 倍。
這個計算很粗略,因為 Agent 執行過程中有大量時間花在等待工具返回結果、讀取文件、編譯代碼上,這些時間不會因為模型變快而縮短。但模型思考和輸出代碼的那部分時間確實能被大幅壓縮。
而最近的趨勢是,Agent 執行任務的時間越來越長:
Claude Code 在不斷優化它的任務編排能力;OpenAI Codex 最近推出了 /goal 功能,可以讓Agent連續運行幾小時甚至幾天直到任務完成;各家都在努力拉長模型的持續工作時間:從半小時的任務到幾小時的項目,再到 Qwen3.7-Max 宣稱支持的 35 小時端到端執行。
任務時間線被拉長的同時,模型響應速度的價值也在同步放大:
一個 10 分鐘的任務,省幾分鐘你可能無感。
但當任務拉長到 10 小時、24 小時,省下的時間可能是小時級的。
即使只算模型輸出環節快 4 倍,一天的長程任務也能多擠出好幾個小時的有效產出。
![]()
Agent 的長程工作時間越來越長 | 圖片來源:Anthropic
這就是 Gemini 3.5 Flash 對 Agent 生態真正的價值:
它讓 Agent 的生產效率提升了一個量級,而且這個收益會隨著任務時長的增加而持續放大。
05
長程 Agent 能力之王
寫到這里我想做個總結。
Gemini 3.5 Flash 有明顯的短板:它在 Humanity's Last Exam 上只拿了 40.2%,低于自家上一代 Pro 的 44.4%。在抽象推理、長文檔檢索等測試中表現也不算突出。
它確實「偏科」,這是有意而為之,Google 主動在某些能力上做了取舍:
Gemini 3.5 Flash 選擇了 Coding 和 長程 Agent 能力,比如在 APEX 基準測試上(評估模型在真實工作場景中執行跨應用、長跨度任務的能力),Gemini 3.5 Flash 排名全球第一。
![]()
Gemini 3.5 Flash 在 APEX 獨一檔 | 圖片來源:artificialanalysis
但如果你把視角從「模型對比」切換到「Agent 工具選型」,你會發現這些短板在很多實際場景里并不致命:
大部分 Agent 任務不需要模型去回答「人類最后一考」那種綜合知識題,它需要的是快速生成代碼、準確調用工具、高效處理多步驟工作流。
而在這些場景上,Gemini 3.5 Flash 做到了又快又好。
前兩天聽了一期播客,張小珺對姚順宇的四小時訪談,姚順宇是從 Anthropic 跳到 Google DeepMind 的研究科學家,參與過 Claude 3.7 和 Gemini 3 的開發。
![]()
張小珺和姚順宇對談 | 圖片來源:小宇宙
他有句話讓我印象很深:現在模型在紙面上看著都差不多,benchmark 高一個點低一個點,那些差距主要是噪聲而不是信號,實際用起來,區別依然明顯。
然后他聊到自己現在的研究重心,兩件事:AI 自己做研究,以及 long horizon。Long horizon 就是讓模型在更長的時間跨度里持續工作,完成那些一句提示詞搞不定的復雜任務。
Gemini 3.5 Flash 無疑是這個觀點印證,它的發布標志著一個新階段的開始:
以前我們選模型看的是「誰最聰明」。但當Agent成為主要的調用方式,答案可能要改成「誰能讓Agent跑得最快、最遠、最穩」。它也是第一個讓我明確感知到這個拐點的產品。
如果你正在用 Claude Code 或者其他 Agent 工具做開發,我建議試試把底層模型切到 Gemini 3.5 Flash 跑幾個項目。
你會發現:那種 10 分鐘交付一個完整應用的體驗,用過之后很難回去。
畢竟,天下武功,唯快不破。
*頭圖來源:youtube
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你認為大模型的速度和能力,
哪個更重要?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.