網易首頁 > 網易號 > 正文 申請入駐

Gemini 3 來了:忘掉聊天,一句話生成一個世界 (附與Gemini 團隊溝通實錄)

0
分享至


Gemini3太強了。

11月18日,在所有人的期待中,Google的最新AI模型Gemini3正式發布。這次,一切都回到了Google的節奏。

徹底屠榜

這是一個幾乎“屠榜”了所有評測集的模型,而且,請注意,是一個通用模型在細分評測上碾壓了諸多“推理模型”、“多模態模型”等細分領域模型。


根據Google的介紹,Gemini 3 是一個有原生多模態、強大推理和Agent能力的模型。在硅星人參加的發布前小范圍溝通會上,Gemini的團隊強調這個模型的這些能力“不是分開的,是都在一處,都在一個模型里,你可以同時用這些能力”。

今天用來評測模型各種能力的榜單,被Gemini3刷到了離譜的新高。

在多模態能力上,它的理解和推理都達到新高度:

Gemini 3 Pro以81%的MMMU-Pro分數和87.6%的Video-MMMU分數直接刷新了這個多模態推理的記錄。


案例介紹:Gemini 3.0的視覺能力融入了推理,能主動解決不一致符號帶來的歧義問題,對手寫舊表格的 OCR 識別能力甚至優于受過訓練的學生。

可能Gemini 3才真正第一次稱得上是一個有多模態推理能力的模型。

Google展示了一個很有趣的用法:做一個等離子體流在托卡馬克里的可視化展現,同時用一首詩來捕捉核聚變的美。

在推理能力上:

它以突破性的1501分登頂LMArena排行榜。

它還在SimpleQA Verified上取得了72.1%的最新最優成績,在事實準確性方面顯示出巨大進步。這意味著Gemini 3 Pro在科學和數學等廣泛主題上解決復雜問題時具有高度的可靠性。

它在"人類最后考試"上也展示了博士級推理能力(在不使用任何工具的情況下得分37.5%),在GPQA Diamond上獲得91.9%的高分。它還在數學領域為前沿模型設立了新標準,在MathArena Apex上達到了23.4%的最新最優成績。

一個Prompt生成復古任天堂模擬器,自帶游戲且無需外部素材,一分鐘就能完成輸出。

這還不算完,在深度推理模式Deep Think下,也就是讓模型增加推理的token消耗和用更多時間去處理一些問題時,它在"人類最后考試"里,在不使用工具的情況下得分41.0%,在GPQA Diamond 得分93.8%。而在ARC-AGI上,它還取得了前所未有的45.1%的成績(使用代碼執行)。而已經很強的Gemini 2.5,這一項的得分只有:

4.9%。

在人人喊scaling law撞墻的今天,又搞出了十倍的提升。

而在Agent能力上:

Gemini 3以1487 ELO分的成績登頂WebDev Arena排行榜。它在Terminal-Bench 2.0上得分54.2%,該測試衡量模型通過終端操作計算機的工具使用能力,并且在SWE-bench Verified(76.2%)上大幅超越2.5 Pro,該基準衡量編碼智能體的能力。

另外,Gemini的長上下文和推理的結合也有提升,在一個讓AI模擬運營一個自動售貨機,來考察它在agent場景的記憶能力的榜單Vending-Bench 2上,它也同樣登頂——Gemini 3 Pro在完整的模擬一年的運營中保持了持續的工具使用和決策能力,在不偏離任務的情況下獲得更高回報。


Google官方也展示了一個案例,當你要求它:

"根據我郵件中的詳細信息,幫我搜索并預訂一輛下周旅行用的中型SUV,租金需控制在每天80美元以內。"

它在獲得你充分的Google全家桶授權后,真的就完美幫你找到了這樣一個服務,并放到你面前,你只需確認即可。

此次Gemini還推出了Agent模式,就是為了這樣的場景,當你給他充分授權后,你能讓AI把你一切的Google系產品都可以調用起來,完成復雜任務。

看了這些榜單的情況,只剩下SWE-Bench Verified上,Claude Sonnet 4.5領先它1分,其他全部被它占了第一。

有人評論道:OpenAI and Anthropic are so over。

強大到開始全量鋪開生成式UI

在Google自己看來,這些全面提升的能力有多強?

它已經足夠強大到,讓Google認為Gemini這個app必須更改自己的交互形態了。

Google這次給Gemini做了界面大更新。除了改變了頁面設計,增加了更方便調用個人數據庫的"我的資料"文件夾功能、“徹底改進了購物體驗”,可以直接從Google購物圖譜帶來商品列表、比較表格和價格,該圖譜包含超過500億條商品列表等。最主要的,就是對輸入輸出的交互做了徹底改變。

什么“ChatGPT”式的一問一答,那是上個時代的做法,現在Gemini要直接給你全模態的可交互結果:

“Gemini 3將突破界面設計的邊界。它的推理和多模態能力已經解鎖了一項我們稱為生成式UI的新功能。

我們介紹一種新穎的生成式UI,它動態創建沉浸式視覺體驗和交互式界面——如網頁、游戲、工具和應用程序——而且這些界面自動設計并完全定制以響應任何問題、指令或提示。

這些提示可以簡單到一個單詞,或根據需要長而詳細的指令。這些新型界面與AI模型通常渲染內容的靜態、預定義界面明顯不同。”

說的更直接一點,哪怕一個詞,也能給你一個app。

比如,當你詢問關于物理學里的三體問題(three body problem),你能得到一個可以交互的模擬界面,讓你直接改變變量來觀察結果。

而這整個答案更像是一個有文字有圖片還有3D可交互網頁的獨立web app。你甚至可以繼續用自然語言開發下去最終把它變成你的一個項目。

目前,Gemini先提供了兩個“實驗性”功能選項——視覺布局(Visual layout)和動態視圖(Dynamic View)。不過Google也表示,為了幫助了解這些實驗,用戶最初可能只看到其中之一。

而且這個新的交互方式也會在Google的搜索里上線。在搜索的AI mode里提問,也會給出類似一個可交互app的搜索答案。

新的Dynamic View展示,當你只是問了一下梵高,就能得到一個完整可交互的界面供你探索

Google還為此發布了一篇論文。這意思似乎是向所有人喊話:

你們也跟上啊。


此次發布里,還有一個非常值得重視的舉動是,這一次Gemini 3在第一時間就部署到了Google搜索上,而且包括這個還被稱為實驗性的生成式UI,也直接進入搜索的AI mode。

這說明什么?

說明這是一個在Google看來已經訓練到十分穩定,可以直接放入主營業務產品,而不用擔心有反噬的模型,而且,它還是一個遙遙領先,沒有人再能隨便狙擊的模型,一個完全按Google自己節奏訓練和應用的模型。

當如此謹慎的Google都在Gemini的介紹里大量的使用“any”,強調這個模型可以讓任何想法變成產品時,你品,你細細品,它對這模型到底有多自信。

One more thing: 徹底讓Agent來開發軟件的“IDE”平臺 Antigravity

而對于Google來說,似乎這些還不夠,Google當天還順帶發了一個自己的全新“類IDE”Vibe coding產品,一個讓Agent來主導軟件開發全流程的平臺——Antigravity 。

Google也不免俗的介紹了一句話開發的案例。

你輸入一個Prompt,就能得到一個完整的飛行追蹤應用。但實現的過程正是不同所在,Antigravity是一個讓Agent主導一切的環境,它為多個Agent做好了多個它們可以使用的工具和環境,包括編輯器、瀏覽器、終端等。

“Google Antigravity將AI助手從開發者工具箱中的工具轉變為主動合作伙伴。雖然Google Antigravity的核心是熟悉的AI IDE體驗,但其Agent已提升到一個專用界面,并可直接訪問編輯器、終端和瀏覽器。現在,Agent可以在驗證自身代碼的同時,自主地為您同時規劃和執行復雜的端到端軟件任務。”

Antigravity也集合了Google各個強大模型:“除了Gemini 3 Pro,Google Antigravity還與我們最新的Gemini 2.5計算機使用模型緊密耦合,用于瀏覽器控制,以及我們頂級的圖像編輯模型Nano Banana(Gemini 2.5圖像)。”

而且,Google又給這個產品帶來一個瘋狂的新能力:它會在和你的配合中,學習你的coding風格, 和你搭建框架的喜好,最終越來越像你...或者說,像一個更全能全棧工程師版的你...

如此高預期的模型,不僅沒有讓人失望,還帶著驚喜一起到來。Google真的是強。

而且,Google勢頭也正猛。在硅星人參加的小范圍提前溝通會上,Google也順帶公布了最新的用戶數據:

從上一季度的4.5億用戶,猛增到了這季度6.5億用戶。1300萬開發者在用Gemini等Google的模型開發,而本季度的日常調用也同比翻了3倍。


據Gemini團隊透露,過去一季度的增長很大程度歸功于Nano Banana。

要知道,Nano Banana 2 也在傳聞中,排隊等待Google的發布......不得不感慨Google的工具箱里,武器實在太多了。

在此次發布前,我們也有機會與Google Gemini團隊交流,以下為溝通實錄:

硅星人:能否分享一下在訓練這個新模型過程中的一些"Aha moments"?

Gemini團隊:這是個有趣的問題,因為我認為在使用這個模型時,有很多時刻你能真正感受到它的推理能力,也能感受到它在多模態能力上的強大。我想指出幾個時刻。第一個是我第一次用它進行氛圍編碼(vibe coding)的時候。令人驚艷的是,它僅憑非常簡單的提示就能創造出各種游戲。能夠在那個環境中創建3D可視化并玩一個真正的游戲,我覺得太棒了。

實際上,我們的一位工程師一直在用它來創建游戲,這些游戲明天就會在YouTube上發布,因為你可以用這些游戲創造出如此豐富、高保真的體驗,我覺得這太棒了。另一個我認為我們不常談到的"頓悟時刻"是該模型在多語言性能上的強大。

對我來說,特別有趣的一點是,拿一首用古吉拉特語寫的詩——我父母從小說的語言——不僅進行翻譯,還在此基礎上進行創作。你能看到模型的細微差別、創造力和寫作風格。我認為那也是另一個讓我感嘆"這個模型非常聰明,能夠將多個要素融合在一起"的時刻。我覺得真正酷的是,當你找到這些時刻,你可以將多模態輸入、復雜的推理問題,以及你希望看到的輸出格式結合起來。我認為這時你才能真正看到Gemini 3的魔力顯現。

問:你會如何描述AntiGravity在當前生態系統中的定位?

Gemini團隊:這是個好問題。先提醒一下,我認為AntiGravity會非常令人興奮。大語言模型和AI確實改變了我們的編碼方式,使我們軟件工程師能夠保持在一個非常高的層次上,借助智能體的幫助處理真正復雜的任務,這樣你就可以專注于最終目標,并更快地達成。

所以AntiGravity真正構建在此基礎上,構建在模型的能力之上。這是一個新的IDE。市場上也有其他IDE,需要明確的是,我們的模型在多個IDE中以及通過API供開發者繼續使用。但AntiGravity將給我們提供另一種與開發者接觸的方式,了解他們的用例,了解那些真實世界任務和挑戰,然后幫助我們改進模型,通過成為這種以智能體為中心的IDE,為他們提供最佳體驗。我認為這將對軟件開發帶來一點全新的思路。

問:對于消費者來說,你期望Gemini智能體有哪些使用場景?

Gemini團隊:我們希望幫助人們應對生活中遇到的更復雜的任務。我個人在幾件事上正在使用它:首先,如果我要找演唱會門票之類的,不用再自己去搜索所有不同選項,為帶兩個孩子的家庭找到合適的套票,我可以讓智能體去完成,它會找到合適的配置,并帶我到達可以購買的那一步,然后我只需點擊一個按鈕就能繼續完成購買。

另一件我覺得很酷的事是使用智能體模式來幫你分類處理郵件收件箱。我開始每天早上這么做:我醒來有50封郵件,要花很長時間逐一查看并決定怎么處理。我可以使用智能體模式來幫我處理這些,它會告訴我:這里有你需要完成的任務、這里有你需要回復的郵件、這些是可以歸檔的。這真的為我節省了大量時間,我非常興奮能讓更多人使用到這個功能。

問:隨著Pro版本發布,我們能期待Flash和Flashlight很快推出嗎?

Gemini團隊:是的,我的意思是,我們確實希望構建Gemini 3模型家族。這是我們首要考慮的。

我們感到興奮的是,看看對Gemini 3 Pro的反饋如何?人們用它做什么?我們在哪里看到機會?然后當我們思考完整的模型家族,思考Flash和Flashlight時,我們首要考慮的是如何構建這個主力模型?合適的成本和延遲應該是怎樣的?我們如何思考正確的使用場景?所以我們會繼續利用Pro版本的反饋來確保我們能夠持續構建。你們很快就會看到我們推出更多產品。

問:Gemini應用最近用戶增長顯著,團隊在此期間做了什么來如此快速地加速采用?

Gemini團隊:一個主要因素是我們在Nano Banana上看到的病毒式傳播,特別是在泰國、印度尼西亞、印度等國家。顯然,這是一個極其成功的產品,很多人都想玩一玩。如果你看到那些手辦潮流和許多其他人們真正想參與并分享給朋友的東西。

我們也對我們與GEO的合作以及我們為學生提供的優惠感到非常興奮。我們看到學生群體中有很多使用熱情,他們真的很想用Gemini來幫助完成作業和課堂學習材料。

最后我想說的是,模型質量真的非常重要。我們在2.5 Pro上看到了這一點,我們也很期待看到人們將如何使用Gemini 3。

問:你們是否在用AntiGravity與Cursor等工具競爭?這是企業最大的使用場景之一嗎?

Gemini團隊:非常感謝。這是個好問題。我不會這樣看待它。這次發布中,我們實際上正在與Cursor進行非常緊密的合作。我們在許多不同行業都有許多合作伙伴,并與他們密切合作。對我們來說,在用戶所在的地方觸達并連接用戶非常重要。

AI開發以及AI如何影響不同領域和行業也還處于非常早期的階段。我認為這對我們來說能夠進行實驗也很重要。我相信會有其他人也在實驗,每個產品本身也會不斷發展,對吧?我們將通過我們的模型和許多其他想法繼續與Cursor保持緊密合作。除此之外,我想我們對AntiGravity將創造的接觸點也感到興奮。

問:AI行業有聲音稱迭代速度已放緩,擴展定律已失效。但Google的大模型似乎取得了顯著進展。到目前為止,你對大模型的迭代速度以及技術是否還能做到這一點有什么看法?

Gemini團隊:這是個好問題。當然,關于這方面的討論有很多。我認為,當我觀察AI領域時,我看到了很多進展,而且進展速度非常快。我認為最好的觀察方式是AI領域總體上對許多不同行業產生的影響。你可以看到這一點在越來越多的不同職業中發生。人們正在使用AI模型來幫助他們的工作。學生正在使用AI模型來幫助他們的作業。

或者我們在日常生活中使用這些模型來了解事物,了解我們好奇的事物,想了解更多的東西。所有這些方面,模型在我們的日常生活中變得越來越有影響力。所以我認為進展非常快。當我觀察我們自己模型能力的進展時,我認為我們看到非常令人興奮的進展正在發生。

我認為有時候,并不總是全新的能力出現,而是模型所使能的能力。你能做什么新事物?從模型開發的角度來看,當我們觀察預訓練、后訓練時,我們看到各方面都有相當令人振奮的發展。我認為隨著我們了解更多,隨著我們與用戶進行更多互動,這將繼續一段時間,這對我們來說非常重要,能夠通過我們的產品進行這個開發周期,觸達我們的用戶。我們將更多了解他們的需求在哪里,他們對什么感興趣,他們想學什么,這將引導我們引入新能力并構建技術。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前廣西首富負債343億:他用18年建起商業帝國,又用10年親手拆掉

前廣西首富負債343億:他用18年建起商業帝國,又用10年親手拆掉

豆腐腦觀察局
2026-04-26 00:05:03
笑麻!原來可樂到了拉薩也高反,當地網友:不是這種的肯定都壞了

笑麻!原來可樂到了拉薩也高反,當地網友:不是這種的肯定都壞了

夜深愛雜談
2026-04-26 07:42:23
中國雷達又凡爾賽了一把

中國雷達又凡爾賽了一把

安安說
2026-04-24 11:32:46
斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉NO.1

斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉NO.1

劉姚堯的文字城堡
2026-04-26 00:21:08
濟南一地整排充電口被綠化帶阻隔,多方回應:先有充電樁,綠化帶系施工后恢復,正溝通

濟南一地整排充電口被綠化帶阻隔,多方回應:先有充電樁,綠化帶系施工后恢復,正溝通

瀟湘晨報
2026-04-26 11:28:18
荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

春秋硯
2026-04-25 17:15:06
2-0!西甲大結局!巴薩11分領跑,有望誕生名場面:戰勝皇馬奪冠

2-0!西甲大結局!巴薩11分領跑,有望誕生名場面:戰勝皇馬奪冠

小徐講八卦
2026-04-26 05:41:47
韓旭獲前勇士四冠王朝教練盛贊 替補20分全隊最高

韓旭獲前勇士四冠王朝教練盛贊 替補20分全隊最高

體壇周報
2026-04-26 11:49:21
27+10+92.2%!效率逆天!最可怕的是,他連球隊老三都算不上

27+10+92.2%!效率逆天!最可怕的是,他連球隊老三都算不上

阿浪的籃球故事
2026-04-25 16:01:55
湖人在G3擊敗火箭后,宣布關于勒布朗·詹姆斯的重要消息!

湖人在G3擊敗火箭后,宣布關于勒布朗·詹姆斯的重要消息!

夜白侃球
2026-04-25 23:54:45
隨著38歲梅西多次射門無果+邁阿密國際1-1,美職聯最新積分榜出爐

隨著38歲梅西多次射門無果+邁阿密國際1-1,美職聯最新積分榜出爐

凌空倒鉤
2026-04-26 09:42:06
霍爾木茲海峽封鎖,美國能源出口飆升,二戰以來首次接近成為原油凈出口國

霍爾木茲海峽封鎖,美國能源出口飆升,二戰以來首次接近成為原油凈出口國

紅星新聞
2026-04-25 12:32:20
獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

復轉這些年
2026-04-25 18:51:48
女大學生泰國旅游被高價轉賣緬甸園區,照片流出長這么好看被折磨太慘

女大學生泰國旅游被高價轉賣緬甸園區,照片流出長這么好看被折磨太慘

不二表姐
2026-04-24 22:41:14
6位央企高管酒后大鬧國外機場,為何2年多才被曝出結果?誰在捂?

6位央企高管酒后大鬧國外機場,為何2年多才被曝出結果?誰在捂?

西門老爹
2026-04-25 15:07:02
一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

川渝視覺
2026-04-25 20:19:24
1-0!沙特豪門衛冕亞冠冠軍 少打1人后加時賽絕殺 日本球隊3連亞

1-0!沙特豪門衛冕亞冠冠軍 少打1人后加時賽絕殺 日本球隊3連亞

我愛英超
2026-04-26 05:40:51
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

夜深愛雜談
2026-04-25 07:33:34
老板娘問我她屁股翹不翹?我該怎么回答?

老板娘問我她屁股翹不翹?我該怎么回答?

太急張三瘋
2026-04-26 10:05:33
李嘉誠又跑了!百佳超市被賣,接盤者每次都得“脫層皮”

李嘉誠又跑了!百佳超市被賣,接盤者每次都得“脫層皮”

子芫伴你成長
2026-04-25 23:17:42
2026-04-26 12:07:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
健康
時尚
公開課
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

干細胞如何讓燒燙傷皮膚"再生"?

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版