網易首頁 > 網易號 > 正文 申請入駐

ZPedia|Gemini 3全面斷崖式領先,單個模型橫掃多模態、推理、Agent三大戰場,Google王者歸來

0
分享至

過去一年,Google 的進步肉眼可見。

ChatGPT 橫掃全球時,Google 一度像被打了個措手不及的巨頭。但短短不到一年,Veo 3、Nano Banana、Genie 3 接連發布,一個被外界質疑“落后”的公司,突然又展現出定義時代的力量。

今天,在全球技術圈幾乎屏住呼吸的等待中,Google 終于推出了最新一代 AI 模型——Gemini 3。

遙遙領先,Gemini 3化身無情的屠榜機器

如果只看數字,Gemini 3 這一代的成績幾乎去全面碾壓。它不是在一個榜單上領先,而是把能刷的榜單都刷了一遍;不是以某一項特色出圈,而是把多模態、推理、Agent 三條最難突破的線路,一次性拉到行業天花板。


先看推理能力。

在開放評測平臺 LMArena 上,Gemini 3 Pro 以 1501 分的成績站到通用模型第一梯隊的最前列。在 SimpleQA Verified 這種強調事實性與復雜問答準確度的測試里,它達到 72.1%,意味著幻覺率和知識錯誤率被顯著壓低。

在更加嚴苛的人類“終極試卷” Humanity’s Last Exam 中,它在不借用任何外部工具的情況下拿到 37.5%;在博士級科學問答 GPQA Diamond 上更是達到 91.9%;在數學難題集 MathArena Apex 上刷新最新記錄,拿下 23.4%,為數學推理模型樹立了新的基準線。

真正具有象征意義的,是它的 Deep Think 模式。當模型能夠分配更多 token、延長推理鏈路后,它在 Humanity’s Last Exam 上躍升至 41%,在 GPQA Diamond 上攀升到 93.8%,在 ARC-AGI 上突破 45%。

這些都是傳統 scaling law 被認為“撞墻”的任務,而上一代 Gemini 2.5 在 ARC-AGI 上還不到 5%。在 2025 年這樣一個對推理悲觀論甚囂塵上的時期,這種接近 10 倍的跨越無疑刺破了行業的認知天花板。


再來看多模態表現。

Gemini 3 Pro 在 MMMU-Pro 上取得 81%,在 Video-MMMU 上達到 87.6%,幾乎把這幾年所有主流多模態模型的紀錄重新洗牌。這兩項被業內視為真正的“硬試卷”,考驗的不是看圖回答,而是在跨圖像、跨學科、跨語境的混合任務中,保持一條不被打斷的推理鏈條。

真正讓行業震動的,并不是這些高分本身,而是它如何得到這些分數:Gemini 3 首次把“視覺理解”與“邏輯推理”合成同一種能力。

谷歌展示了一個場景——一個手寫、符號混雜、排版混亂的本子,模型不僅能精準 OCR,還能自動消解符號不一致帶來的歧義,最終給出的答案甚至比受過訓練的學生更穩定。


更關鍵的是,這些表現全部來自一個通用模型,而不是圖像或視頻方向的專精模型。這意味著多模態不再是外掛能力,而是模型內部原生的一部分。

隨著這些能力被整合在一起,Gemini 3 逐漸顯露出一種超出語言層面的“操作心智”:它不僅能理解視覺結構,也能讀懂界面變化、預測用戶操作,甚至推斷環境動態。推理不再只是答題,而開始向“理解世界如何運作”邁一步。

最后看 Agent 能力。

Gemini 3 Pro 的進步已經不是“更強一點”,而是直接跨到一個新的層級。

在 t2-bench 這項工具與系統操作測試中,它拿到 85.4% 的高分,意味著模型不僅能理解你的指令,還能像工程師一樣在真實軟件環境里調用 API、處理文件、執行系統命令。這是檢驗 Agent 真本事的關鍵,一旦失誤就無法偽裝,而 Gemini 3 Pro 展現出了頂尖的穩定性。

真正體現智能體“耐力”的,是 Vending-Bench 2。這項測試模擬一個自動售貨機一整年的運營,考驗模型能否長期記住目標、保持策略不跑偏。Gemini 3 Pro 最終獲得 5478 分,明顯領先所有同級模型,展現出罕見的長鏈任務穩態能力。


在 Terminal-Bench 2.0 中,它還需要在 Unix 環境里讀日志、改配置、跑驗證,模擬一次真實的自動化修復流程。它的 54.2% 得分說明,它不僅會“說”,也真的會“修”。

這些數字背后的共性其實只有一個:

Gemini 3 不再是“某個維度特別強”的模型,而是第一次在推理、多模態、Agent 三個最難突破的方向上,同時達成了可觀的領先優勢,而且全部集中在同一個通用模型里。

從模型到產品:Gemini 3 把“答案”變成了“界面”和“行動”

如果說榜單告訴我們的是“能力”,那產品呈現的則是這些能力如何被組織起來、如何被普通人真正用到手里的。

在 Gemini 3 身上,谷歌做了兩件過去很少有人認真做的事:

第一,把模型的輸出從“文本”升級成“界面”;

第二,讓模型從“對話參與者”變成“任務執行者”。

在日常使用中,最直觀的變化發生在 Gemini App 自身。新版應用已經不再是一個單一對話框,而更像是一個“由模型驅動的工作空間”。在這里,你可以在 Canvas 中用自然語言構建完整的程序、應用或原型——Gemini 3 Pro 負責多步驟的規劃、代碼生成、界面生成和調試,你只需要不斷描述你想要的效果。

另一條非常關鍵的產品線,是所謂的“生成式界面”(Generative Interfaces)。在 Google 的研究與產品博客中,這被稱為一類全新的交互體驗:用戶發出一個自然語言請求,模型不是直接返回一段答案,而是即時生成一個結構化的、視覺化的界面。

Google 把這種能力分成兩類實驗形態:視覺布局負責“把復雜信息排版成一篇好讀的雜志頁”,而 Dynamic View 則直接生成可以操作的計算器、圖形、模擬器、圖廊甚至完整的小工具,讓回答本身就變成一個“能動”的界面。這些體驗已經開始在 Search 的 AI Mode 中出現,用戶可以在搜索里直接見到動態布局、交互組件和實時模擬。

與此同時,Gemini Agent 作為一項仍在實驗階段的能力,負責把這些“理解”和“界面”延伸到行動層面。在 Gemini App 中,它可以連接 Gmail、Calendar 等 Workspace 應用,自動為你整理郵箱、歸類任務、提煉行動項,甚至根據郵件中的航班信息和預算需求,主動比較租車、預訂酒店,再把決策節點交給用戶確認。

對開發者而言,Google Antigravity 則是另一個意義重大的新物種。The Verge 和 TechCrunch 的報道都指出,這個 IDE 本質上是一個“agent-first”的開發環境:多個 Gemini 3 驅動的代理可以同時在編輯器、終端、瀏覽器三處操作,生成代碼、執行命令、打開網頁、做驗證,并把整個過程記錄為 Artifact 供人類復盤。

整條產品線串起來,會發現 Gemini 3 正在做一件非常有野心的事。

它試圖把“答案”升級為“可操作的界面”,再進一步升級為“真實執行的行動”,最終把模型變成一個“能替你做完一件事”的系統,而不僅僅是一個“告訴你怎么做”的顧問。

Gemini 3 到底改變了什么?

從表面看,Gemini 3 只是把一堆 benchmark 刷到了新高,把搜索、App、IDE 同步做了升級;但如果把這些碎片放在一起看,就會發現它其實踩中了幾個關鍵的技術與產品轉折點。

第一,統一模型路線第一次有了清晰的技術樣本。

過去幾年,業界在多模態這件事上有一個隱形共識:想要圖像強,就做一個圖像向的專精模型;想要推理強,就做一個思考向的推理模型;想要 Agent 能力,就往工具調用上拼命堆安全與流程。結果就是,每條賽道上都有一些強模型,但真正能在同一個模型里把三件事都做好的,幾乎沒有。

Gemini 3 給出的答案是:不拆分、不堆疊,而是真正做一個原生多模態、原生推理、原生 Agent 的統一架構。也就是說,這不是“多模型拼盤”,而是一個統一心智在面對不同任務。

第二,“scaling law 撞墻”這句話,恐怕要重新討論了。

過去一年,大家對于 scaling law 的悲觀,主要來自兩個現實:其一是預訓練數據逼近上限,其二是參數繼續往上堆卻難以換來線性可感知的推理提升。但 Gemini 3 在 ARC-AGI、Humanity’s Last Exam 等極難基準上的跳躍式表現說明,真正起決定性作用的,很可能并不是“堆多大”,而是“結構、訓練范式和任務設計有沒有跟著一起升級”

第三,交互范式正在從“對話式 AI”邁向“界面式 AI”。

ChatGPT 把整個行業帶入了“對話優先”的交互世界,大家開始習慣在一個大輸入框里問所有問題。但 Gemini 3 的 generative UI、Dynamic View 等能力表明,谷歌相信的下一步,是讓模型直接生成界面、頁面、控制面板、模擬器,而不再把“答案”局限在一條條文本里。

當模型可以根據你的問題即時構造出一個適配任務的 UI 時,人與 AI 的關系就從“問—答”變成了“設定任務—共同操作界面”。AI 不再只是在語言層面輔佐你,而是開始和你共享一個可操作的工作環境。

第四,谷歌拿到了Nano Banana之后又一次“產品側翻盤窗口”。

OpenAI 在 GPT-5 / GPT-5.1 這一代上并沒有像 GPT-4 那樣形成壓倒性優勢,反而給了競爭對手喘息空間。而谷歌這次的打法非常明確:模型端用統一架構“屠榜”,產品端在 Search、Gemini App、Workspace、Antigravity 全線鋪開,交互上又用 generative UI 和 Agent 拉開與傳統對話式 AI 的差異。

如果這些能力在接下來半年到一年里持續穩定,不只是開發者,普通用戶也會真切地感受到“這代產品不太一樣了”。那時,誰在消費級 AI 上更有優勢,很可能就要重新算賬。

全面反攻——Google AI 戰略的真正底牌

Google的轉變并不是爆發,而是一次漫長沉淀后的結構性反攻。

在 Google 內部,“AI-first”已經不再是口號,而是一次痛下決心的自我改造。皮查伊多次在公開采訪中強調:Google 正在進入“AI-first 的第二階段”。這句話意味著公司核心身份悄然改變——它不再把自己視為一家搜索公司,而是要成為下一代計算平臺的創建者。搜索、Android、Chrome、Workspace、YouTube、Cloud 等所有核心業務都在圍繞 Gemini 重構,甚至連公司 2025 年接近 900 億美元的資本開支,幾乎都指向同一件事:為模型供電,為未來鋪路。

組織結構上的調整是這次反攻的起點。Google Brain 與 DeepMind 的合并,讓全公司的模型路線首次“統一指揮”。DeepMind CEO Demis Hassabis 負責整條模型主線,Jeff Dean 轉向長期研究;所有頂級芯片、TPU 和工程資源開始向 Gemini 集中。這種集中讓 Google 結束了過去那種“研究多、產品慢”的狀態,第一次把十多年積累的基礎研究能力真正整合成可落地的產品。Gemini 3 的推理能力、Veo 3 的視頻建模、Nano Banana 的圖像編輯、Genie 3 的世界模擬——這些并不是奇跡,而是論文體系第一次系統化落地。

更關鍵的是,Google 不再滿足于“模型更強一點”,而是想重新定義用戶與信息的關系。外界習慣把這場競爭描述為“Google 對 OpenAI”;但從 Google 的戰略動作來看,它要的不是一個更強的 ChatGPT,而是一個新的入口體系。

Gemini Agent 成為新的工作入口,AI Mode 重塑搜索入口,Gemini App 成為移動入口,NotebookLM 成為知識入口,Veo 3、Nano Banana 是視覺內容入口,Genie 3 則是未來智能體訓練的虛擬入口。Google 不準備圍繞某個產品競爭,而是試圖重構“AI 時代的操作系統”。

為什么 Google 這次變得如此激進?

答案很簡單:這是一場生死局。AI 生成答案讓搜索的護城河開始變薄,廣告模式面臨潛在風險,用戶的第一觸點也可能遷移到 AI 通道。如果不能重新定義入口,Google 的核心商業模式就會動搖。對于一個過去二十年靠搜索主導互聯網的巨頭來說,這不是“贏不贏”的問題,而是“能不能留在桌上”的問題。

也正因為此,Google 過去的謹慎正在被新的節奏所取代。內部開始出現跨部門座位混編的合作方式,搜索工程師與 DeepMind 的研究者一起調試 AI Mode,Android 團隊與 Labs 共同推進 Gemini App 的 UI 迭代。曾經開放、松散、鼓勵長期研究的文化,正在被一種更集中、更執行導向的節奏替代。甚至連高層人事安排也指向同一個方向——讓更懂產品、懂用戶、懂節奏的人接手關鍵業務。NotebookLM 背后的 Josh Woodward 接掌 Gemini,就是典型例子。

今天的 Google 不僅恢復了工程速度,也重新找回了“用產品定義技術”的能力。Gemini 3 讓人看到它仍然具備構建頂級模型的硬實力;Veo 3、Nano Banana 證明 Google 在多模態領域依舊有別人無法復制的深度;Genie 3 則是 Google 對世界模型的押注,這些都是指向未來十年的關鍵方向。

未來的格局尚未定型,但有一點幾乎可以確定——當一家公司同時掌握搜索入口、移動系統、瀏覽器、辦公套件、云和世界模型,它一旦重新踩住節奏,力量會呈指數級回流。

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

草莓解說體育
2026-05-09 05:34:27
外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

環球網資訊
2026-05-08 15:50:22
斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

劉姚堯的文字城堡
2026-05-08 09:00:42
網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

東方不敗然多多
2026-05-08 16:46:11
47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

可樂談情感
2026-05-08 14:09:54
發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

共工之錨
2026-05-07 23:58:12
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

王姐懶人家常菜
2026-05-08 03:48:09
這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

夢史
2026-05-09 00:53:33
現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

懂球帝
2026-05-08 11:07:06
機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

碧翰烽
2026-05-08 07:33:09
不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

細說職場
2026-04-26 21:04:20
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網
2026-04-16 19:42:33
亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

影視情報室
2026-05-08 00:14:58
34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

豬小艷吖
2026-05-07 11:21:34
4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

通鑒史智
2026-03-15 11:45:00
世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

體壇最前線66
2026-05-09 05:39:01
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

阿腩講娛樂
2026-05-09 06:10:06
2026-05-09 08:40:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
177文章數 16關注度
往期回顧 全部

數碼要聞

前行者X87 V2三模機械鍵盤發售:雙8k回報,12000mAh大電池

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

白宮:特朗普計劃5月14日至15日訪問中國

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

藝術
家居
旅游
公開課
軍事航空

藝術要聞

清風拂面,心曠神怡

家居要聞

流動的尺度 打破家的形式主義

旅游要聞

藏北高原“海洋藍” 壯美奇觀引客來

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:最高領袖穆杰塔巴全面掌控局勢

無障礙瀏覽 進入關懷版