網易首頁 > 網易號 > 正文申請入駐

谷歌最新多模態大模型和圖像模型刷屏！可視化學習、P圖、做網站樣樣行

2025-11-21 22:13:41　來源: 多知

北京舉報

分享至

通用大模型基礎模型能力越來越強大，接下來看其他大模型如何出招。

來源|多知

“智能的新時代”來了！

谷歌本周發布了其最新的大型語言模型（LLM）——Gemini 3 系列產品，其中旗艦機型 Gemini 3 Pro 率先面向用戶推出。

Gemini 3 是原生多模態的大模型，集聽、看、思考為一體，能一次性處理文字、圖片與音頻，而不是分成不同流程，官方稱能夠將任何想法變為現實。

Gemini 3 這款全新的AI模型將帶來一系列升級功能，從生成可生成交互式 3D 可視化效果的代碼，到能夠完成任務的“智能體”能力。

谷歌稱，Gemini 3 Pro在所有主要的AI基準測試中都顯著優于2.5 Pro。它以突破性的1501 Elo分數榮登LMArena排行榜榜首。它在“人類最后的考試”（不使用任何工具，得分37.5%）和GPQA Diamond（得分91.9%）測試中均取得了頂尖成績，展現了博士級別的推理能力。此外，它還在MathArena Apex測試中取得了23.4%的全新最高分，為數學領域的前沿模型樹立了新的標桿。

除了文本推理之外，Gemini 3 Pro 在 MMMU-Pro 測試中取得了 81% 的正確率，在 Video-MMMU 測試中取得了 87.6% 的正確率，重新定義了多模態推理能力。它在 SimpleQA Verified 測試中也獲得了 72.1% 的成績，展現了在事實準確性方面的顯著進步。

這意味著 Gemini 3 Pro 能夠以高度的可靠性解決涵蓋科學和數學等眾多領域的復雜問題。

在測試中，Gemini 3 Deep Think 在 Humanity's Last Exam（不使用工具的情況下得分 41.0%）和 GPQA Diamond（得分 93.8%）上的表現均優于 Gemini 3 Pro 已相當出色的成績。此外，它在 ARC-AGI-2（代碼執行，已通過 ARC Prize 驗證）上也取得了前所未有的 45.1% 的得分，展現了其解決全新挑戰的能力。

Gemini 從一開始就旨在無縫整合任何主題的多種模態信息，包括文本、圖像、視頻、音頻和代碼。Gemini 3 結合了其先進的推理、視覺和空間理解能力、領先的多語言性能以及百萬級上下文窗口，進一步拓展了多模態推理的邊界。

可以說，只要想學任何東西，都可以通過Gemini 3去實現：

“例如，如果您想學習如何烹飪家族傳統菜肴，Gemini 3 可以解讀并翻譯不同語言的手寫食譜，生成可與家人分享的食譜。

或者，如果您想學習某個新主題，您可以提供學術論文、長篇視頻講座或教程，它可以生成交互式記憶卡片、可視化或其他格式的代碼，幫助您掌握相關知識。

它甚至可以分析您匹克球的比賽視頻，找出您可以改進的地方，并制定訓練計劃，幫助您全面提升球技。”

Gemini 3 還構建了 Vibe 編碼和代理編碼模型，它在 WebDev Arena 排行榜上名列榜首，獲得了令人矚目的 1487 Elo 分數。此外，它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績，該測試旨在評估模型通過終端操作計算機的工具使用能力。同時，它在 SWE-bench Verified 測試中也大幅超越了 2.5 Pro 版本（得分為 76.2%），該測試用于衡量編碼代理的性能。

現在，用戶可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及我們全新的智能體開發平臺 Google Antigravity 中的 Gemini 3 進行構建。它也適用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平臺。

Gemini 3 適用于Gemini 應用中的所有用戶，以及 Google AI Pro 和 Ultra 訂閱用戶在搜索的AI 模式下使用此功能。

對于使用 AI Studio 中的 Gemini API、新的智能體開發平臺、Google Antigravity 和 Gemini CLI 的開發者而言，Gemini API 和 Gemini CLI 都非常有用。

還適用于Vertex AI 和 Gemini Enterprise 的企業。

根據網友們的評測，使用Gemini 3，可以生成健身課程網站、小游戲等。

緊跟著，谷歌還發布了新的圖像編輯和生成工具 Nano Banana Pro（也叫Gemini 3 Pro Image），該產品基于Gemini 3 Pro打造。

據介紹，該模型不僅支持高達4K分辨率的圖像輸出，還集成了圖像生成與對話式多輪編輯的強大功能。它通過深度推理技術顯著提升圖像品質，同時支持多語言長文本的精準渲染。

谷歌DeepMind和谷歌研究院首席科學家，Gemini項目負責人Jeff Dean提到：Gemini 3 Pro Image 可以生成種類繁多的逼真圖像、復雜的視覺效果、信息圖表等等。

他給到Gemini 3 Pro Image 一個提示詞：請給我一張太陽系圖，并為每個行星標注一個有趣的要素。

這樣的圖片看起來非常清晰、直觀，適合老師做教案，也可以用來直接進行知識學習。

Nano Banana Pro還可以P圖、做海報等。

比如，上傳一張生活照片，告訴它：去掉其他人物，改成影棚燈光，身著正裝，一張生活照就可以變成正裝圖。

Nano Banana Pro可以看到，擁有更高級的世界知識、文本渲染、更高的精度和更強大的控制功能能讓角色保持一致性。基于 Gemini 3 構建，尤其擅長制作復雜的圖表，就像工程師看待世界的方式一樣。

可以看到，通用大模型基礎模型能力越來越強大，接下來看其他大模型如何出招。

教育從業者年度必讀丨《教育科技這一年：教育+AI新紀元》火熱銷售中，點擊小程序購買?

掃碼加入多知新書交流群，共同探討教育+AI的未來

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.