无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

0
分享至

AI挑戰全套高考數學題來了!

高考數學一結束,我們連夜使用六款大模型產品,按照一般用戶截圖提問的方式,挑戰了 14 道最新高考客觀題,不過有網友質疑測評過程不夠嚴謹,所以這次我們加上解答題,重新測一遍。

本次參加挑戰的選手分別是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增網友們非常期待的 Gemini 2.5 pro。上一次我們使用網頁端測試,這次除 o3 外,其他模型全部調用 API。

在考題選擇上,我們仍然采用 2025 年數學新課標 Ⅰ 卷,包含 14 道客觀題,總計 73 分;5 道解答題,總計 77 分。其中第 6 題由于涉及到圖片,我們就單獨摘出來,后面通過上傳題目截圖的形式針對多模態大模型進行評測。其他文本題目全部轉成 latex 格式,分別投喂給大模型,還是老規矩,不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果。

(注:第 17 題雖然也涉及到圖片,但文字表述足夠清晰,不影響答題,因此也以 latex 格式測評。)

客觀題計分方法按照以往高考判分原則:

單選題每道 5 分,選項正確計分,錯誤不得分;

多選題每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;

填空題每道 5 分,填空正確計分,錯誤不得分。

至于解答題,由于現在還未出具體的評分細則,所以我們請數學專業的朋友進行評判,主要還是看大模型的最終答案以及解題步驟中是否有嚴重失誤點。

7 家大模型考試成績如下圖所示。

從客觀題來看,各家大模型幾乎拉不開差距,最大分差也只有 3 分,第 6 題圖像題更是讓這幾家多模態大模型「全軍覆沒」。在上一次測評中,o3 客觀題成績墊底,但有網友表示,這可能是由于某些原因導致后臺自動切換成其他模型,而這一次我們選用的是未「降智」的 o3,選擇題和填空題成績仍是排在最后,當然,65 分的成績相比「降智」版確實有很大提升。

解答題是大模型失分的「重災區」。除了 Gemini 2.5 Pro 拿到全部的分數外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丟了一分;o3 則失了 2 分,最終得到 75 分。相較而言,hunyuan-t1-latest 和文心 X1 Turbo 發揮不佳,分別拿到 68 分和 66 分。

從總分上來看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

解答題:大模型失分「重災區」

我們先來看看解答題的情況。

第 15 題和第 17 題,一道考查概率問題,一道涉及立體幾何知識,7 家大模型均拿到滿分。

第 16 題是一道數列綜合題,滿分 15 分,只要證明完整、計算過程完整、結果正確就能拿到全部的分數。大模型整體表現不錯,只有 Qwen3 解答正確,但最終答案里面增加了多余的假設求值,扣了一分。

第 18 題這道橢圓方程與幾何就難倒了不少大模型,僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿分 17 分,其他模型各有各的扣分點。Qwen3 前面回答得都不錯,過程也很完整,但偏偏最后一小問|PQ|最大值取約等于 9 的步驟多余,導致結果偏差,扣了一分。

o3 則是第(3)問答案沒化簡丟了一分。

文心 X1 在第 2 問 (2) 正確算出 P 點軌跡,但未證明極值,直接按最遠點計算造成結果錯誤,扣 6 分。

hunyuan-t1-latest 前兩問中回答正確,到了第 3 問完成 P 點軌跡之后就全錯了,一下子丟了 5 分。

對于最后一道壓軸題,Gemini2.5 pro 是唯一全對的大模型。Doubao 只說明了震蕩項的振幅大于 0,但是也有可能震蕩項的相位是反的,那樣的話最大值反而有可能更小,證明過程不夠嚴謹,扣一分。

DeepSeek R1 在第(3)問中分情況討論,得出了兩類解,但對第一類解未做后續說明,扣了一分。

o3 第(2)問思路正確,但因為開閉區間差別,「完全重合」說法錯誤,扣 1 分。

hunyuan-t1-latest 在第(2)問上思路可行但證明過程模糊,扣 2 分,到了第(3)問沒有判斷 phi 取值,又扣了 2 分。

文心 X1 和 Qwen3 也都是在第 2 問和第 3 問上失了分,第 2 問證明模糊扣 2 分,第 3 問則是未具體說明 phi 值扣 2 分,而且文心 X1 比大小還發生錯誤,又扣了 1 分。

客觀題:一道圖像題難倒幾家多模態大模型

在不考慮識圖題(第6題)的情況下,客觀題大模型總體表現都不錯,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多選題上少選了一項丟了分。

其中,o3 在第 9 題計算過程中,忽視了「正三棱柱」這一關鍵條件。它在建立坐標系時,分別用 (x?, y?, 0) 表示 A 點坐標,用 (c, 0, 0) 表示 C 點坐標,但沒有考慮到:正三棱柱的底面是正三角形,這意味著正三角形的邊長 c 與 x?、y?之間存在關系:c=2x?=2y?/√3。導致對 B 選項的判斷出現錯誤。

接下來看看這道圖片題。

遺憾的是,此次測評的多模態大模型都在這道識圖題上表現不佳。雖然 hunyuan-t1-latest 不是多模態,但我們又測試了 hunyuan-t1-vision ,也在這道題上敗下陣來。

相比之下,Doubao 和 o3 至少正確識別了坐標位置,只是誤判了視風風速方向,而 Gemini 連基本坐標都未能正確識別。

總的來說,這次測評結果顯示,大模型在數學推理能力上有不小的進步,但仍有較大的提升空間。比如不少模型在解答題上丟分,這反映出大模型在復雜推理、嚴謹論證和多步驟計算方面還需加強。

此外,所有參測的多模態大模型在第 6 題的圖像識別上都出現了問題,這也暴露出當前 AI 在圖文結合理解方面的短板。

最后,緊張的高考已經結束,祝福所有考生都能取得理想的成績,有著燦爛的未來!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗外長:伊朗不尋求發展核武器,以總理稱耶路撒冷永在其主權控制下,以色列比任何時候都更強大,已改變中東格局

伊朗外長:伊朗不尋求發展核武器,以總理稱耶路撒冷永在其主權控制下,以色列比任何時候都更強大,已改變中東格局

每日經濟新聞
2026-05-15 20:27:23
今日最慘板塊,創新低后又跳空大跌,白酒股不知道還要跌多久?

今日最慘板塊,創新低后又跳空大跌,白酒股不知道還要跌多久?

丁丁鯉史紀
2026-05-15 16:48:05
國乒主力集體退賽!王楚欽孫穎莎有新情況,球迷直呼,情況不對勁

國乒主力集體退賽!王楚欽孫穎莎有新情況,球迷直呼,情況不對勁

孤芳自賞的小李
2026-05-16 01:15:48
一年開銷600萬!脫離王室第4年,梅根終于活成了哈里的“老媽子”

一年開銷600萬!脫離王室第4年,梅根終于活成了哈里的“老媽子”

白露文娛志
2026-05-15 16:25:04
綠豆立大功!研究發現:綠豆,顯著降低膽固醇,減少肝臟脂肪

綠豆立大功!研究發現:綠豆,顯著降低膽固醇,減少肝臟脂肪

小胡軍事愛好
2026-05-14 21:51:26
“體壇神仙姐姐”,穿三角服參賽被批“暴露”,到底礙了誰的眼?

“體壇神仙姐姐”,穿三角服參賽被批“暴露”,到底礙了誰的眼?

健身迷
2026-05-15 11:26:20
命中關鍵三分率隊取勝,張鎮麟出場34分鐘&三分5中3取17分

命中關鍵三分率隊取勝,張鎮麟出場34分鐘&三分5中3取17分

懂球帝
2026-05-15 21:44:31
啥都和愛國扯到一起,就是一種病

啥都和愛國扯到一起,就是一種病

老唐有話說
2026-05-14 16:18:17
性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

醫學原創故事會
2026-05-12 15:34:03
擊敗世界第10!中國女網15歲超新星崛起:3大10后小花看齊鄭欽文

擊敗世界第10!中國女網15歲超新星崛起:3大10后小花看齊鄭欽文

李喜林籃球絕殺
2026-05-15 12:06:56
中國球迷可以在家看世界杯了!中央廣播電視總臺已獲2026年美加墨世界杯版權

中國球迷可以在家看世界杯了!中央廣播電視總臺已獲2026年美加墨世界杯版權

揚子晚報
2026-05-15 14:52:38
自我懷疑:這離譜的身材,是怎么長得?

自我懷疑:這離譜的身材,是怎么長得?

飛娛日記
2026-05-01 06:59:49
四川省“臭名遠播”的4所大學,畢業證形同虛設,用人單位不認可

四川省“臭名遠播”的4所大學,畢業證形同虛設,用人單位不認可

拾這一抹殘妝月
2026-05-14 05:20:13
3500億美元"無赤字"預算背后:加州州長紐森一邊囤錢備戰2028,一邊炮轟特朗普"漠視民生"

3500億美元"無赤字"預算背后:加州州長紐森一邊囤錢備戰2028,一邊炮轟特朗普"漠視民生"

灰度測試中
2026-05-16 00:08:35
馬科斯太陰狠!想借槍擊事件借刀殺人、把參議長趕下臺,一箭雙雕

馬科斯太陰狠!想借槍擊事件借刀殺人、把參議長趕下臺,一箭雙雕

軒逸阿II
2026-05-16 01:43:13
形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

慧翔百科
2026-05-14 09:00:11
坐標上海,30歲高薪程序員寧愿花7.2萬租房也不買房,評論區炸鍋

坐標上海,30歲高薪程序員寧愿花7.2萬租房也不買房,評論區炸鍋

慧翔百科
2026-05-15 08:41:18
安東尼-戈登接近與拜仁達成協議,紐卡八人離隊潮開啟

安東尼-戈登接近與拜仁達成協議,紐卡八人離隊潮開啟

懂球帝
2026-05-15 23:30:15
相戀僅7個月 !皇馬25歲巨星與網紅女友分手:姐弟戀告終

相戀僅7個月 !皇馬25歲巨星與網紅女友分手:姐弟戀告終

葉青足球世界
2026-05-15 20:47:37
500米林帶停了百余輛車?公益訴訟檢察官這樣“破局”

500米林帶停了百余輛車?公益訴訟檢察官這樣“破局”

上觀新聞
2026-05-15 21:06:12
2026-05-16 03:36:49
機械豹
機械豹
科技發燒友,科技新鮮事!
761文章數 10414關注度
往期回顧 全部

教育要聞

人格健全,比智商高更重要

頭條要聞

黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

頭條要聞

黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

體育要聞

德約科維奇買的球隊,從第6級聯賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃?

財經要聞

騰訊掉隊,馬化騰戳破真相

科技要聞

直降千元起步!蘋果華為率先開啟618讓利

汽車要聞

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

房產
親子
旅游
藝術
數碼

房產要聞

老黃埔熱銷之下,珠江春,為何去化僅3成?

親子要聞

孕婦補鈣怕刺激怎么選?液體鈣無添加配方實測,藍帽認證更靠譜

旅游要聞

藏在沈陽鬧市的金色秘境!2 萬㎡油菜花全開,地鐵直達還免費

藝術要聞

1008米!沙特“世界第一高樓”項目,為何極有可能建成?

數碼要聞

聯想發布ThinkPad T14 Gen 7 支持LPCAMM2可更換內存

無障礙瀏覽 進入關懷版