亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI像人類一樣做高考數(shù)學題,夸克領(lǐng)跑、豆包緊隨

0
分享至

一年一度的高考落下帷幕。對大模型來說,這已經(jīng)是它第三次參與這場本屬于人類考生的考試。

但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學。

一個有意思的變化在于,這兩天各種各樣的高考數(shù)學測評結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學成績也不錯的理科生。

為驗證這一結(jié)果,我們也選取了四個AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進行測評。

由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國新課標數(shù)學I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測試模型只有一次答題機會。

關(guān)于考核標準,我們覺得如果讓AI參與考試,就應該把它們當作一個真正的考生考核

所以,本次測評拆解了三大維度

  • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
  • 答題速度:考試有時間限制,AI考生也應該注意時間安排。
  • 識別準確率:人類考生需要審題準確,不能出現(xiàn)看錯數(shù)字、符號等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

基于這三個維度,我們通過分別打分再計總分的形式,測試出AI考生們的高考數(shù)學的考試名次。

更細致的"閱卷規(guī)則"參考:

經(jīng)過以上三個維度的綜合測試,最終AI考生們的全面考察結(jié)果如下:

如果單看純粹的卷面分,這幾家AI考生的數(shù)學分數(shù)都在110分以上。想起去年,AI們的高考數(shù)學題還經(jīng)常不及格,真是今非昔比。

而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識別出其中的一道題目,其他AI助手在識別上都拿了滿分。

誰答對了最多題?

直接的考試分數(shù),是考生最關(guān)心的事情。

根據(jù)卷面分數(shù),夸克、豆包和ChatGPT分列前三。

一個小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準確率較高。但考慮到高考現(xiàn)場的考生們不會配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

整體看下來,大家的選擇題和填空題得分差距不是非常大,錯誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。

解答題是讓各家AI考生有點為難的題目。尤其是16題,大家都有錯誤。

首先是元寶,從一開始沒能識別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個沒有被某一模型識別出的題目。

豆包在這道題上犯錯的原因也有點令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。

在選擇和填空上第一名的夸克,第16題中的錯誤很可惜地發(fā)生在最后一步——“利用錯位相減法”得出最終結(jié)果的部分。

向上翻了一下思考過程,發(fā)現(xiàn)它有點“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯誤。

誰答得最快,審題最清晰?

答題速度,屬于AI考生們的舒適區(qū)。

基本上,這四個AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

來到解答題,大家的耗時意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

不過在耗時更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會自己放大題目、左看右看,確認識別沒有問題后再開始解題。

夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

這兩家做最難的解答題,單題最長耗費時間在4分鐘左右。

至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來,其他考生都是滿分。

不同的輸出風格,讓我找到AI老師

測到這里,本次AI考生的高考數(shù)學測評基本可以結(jié)束了。

但在就在核對答案的過程中,我還有一個不同尋常的發(fā)現(xiàn)。

參與測評的AI考生背后,基本都是推理模型。在仔細看大家的輸出時,我發(fā)現(xiàn)不同考生的思維輸出風格存在差異。而這種差異,會給真正想通過AI學習的考生,帶來不同的感覺和效果。

比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導性,比較像老師。元寶的內(nèi)容,更像是數(shù)學學霸,很喜歡計算和公式。

拿頗具難度的第19題舉例。

同樣是啟動深度思考模式,夸克不會把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個思路里面,也會劃一些高中考點。

相比之下,豆包和元寶有點"做題機器"。

在等待豆包給出答案的過程中,可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實只能用來對答案,難以引發(fā)思考。

元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計算步驟都更復雜一些,基本直奔計算而去,不會在表述中強調(diào)考點。

如果從認真學習的角度,相信還是有更多人喜歡夸克老師的引導式畫風。

總之,這一次的測評中,我們真實把這四個AI考生真正當作人類測試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進步已經(jīng)超出想象。隨著AI越來越聰明,或許我會收獲更多的老師。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
法媒感嘆:你封我,我就自己造,整個中國都在以這樣的精神前行

法媒感嘆:你封我,我就自己造,整個中國都在以這樣的精神前行

夏末的晨溪
2026-04-15 04:31:20
英軍上將警告:若臺海開戰(zhàn),英軍將同時打擊中俄,重點對付中!

英軍上將警告:若臺海開戰(zhàn),英軍將同時打擊中俄,重點對付中!

別吵吵
2026-04-15 09:49:16
世錦賽32強中國11席!改寫99年歷史,4大莽夫已淘汰3人,今天抽簽

世錦賽32強中國11席!改寫99年歷史,4大莽夫已淘汰3人,今天抽簽

球場沒跑道
2026-04-16 07:08:57
弟弟要來過端午,妻子當場摔了碗筷:五一刷了我3萬5,還有完沒完

弟弟要來過端午,妻子當場摔了碗筷:五一刷了我3萬5,還有完沒完

墨染塵香
2026-04-16 22:20:34
科爾:在外界聽起來可能有些瘋狂,但我們今晚再次成為了冠軍

科爾:在外界聽起來可能有些瘋狂,但我們今晚再次成為了冠軍

林子說事
2026-04-16 16:43:04
多家寺廟陸續(xù)宣布關(guān)門,并非維修也非裝修,知情人透露真實原因!

多家寺廟陸續(xù)宣布關(guān)門,并非維修也非裝修,知情人透露真實原因!

北緯的咖啡豆
2026-04-14 17:19:29
0-2!中國女足出局,亞洲杯決賽對陣出爐:日本女足對決朝鮮女足

0-2!中國女足出局,亞洲杯決賽對陣出爐:日本女足對決朝鮮女足

足球狗說
2026-04-15 22:54:41
一潤腸,二利尿,三解毒,四強免疫,4月正當季,鮮脆爽口特解饞

一潤腸,二利尿,三解毒,四強免疫,4月正當季,鮮脆爽口特解饞

江江食研社
2026-04-15 22:00:08
“喵喵喵,汪汪汪……”美國兩名飛行員在空管頻率中學貓狗叫,被塔臺制止:請保持專業(yè)

“喵喵喵,汪汪汪……”美國兩名飛行員在空管頻率中學貓狗叫,被塔臺制止:請保持專業(yè)

都市快報橙柿互動
2026-04-16 21:25:59
1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

歲月有情1314
2026-04-07 07:26:46
太敢了!吳克群自掏18萬搬空超市,獲人民日報點名,打臉圈內(nèi)明星

太敢了!吳克群自掏18萬搬空超市,獲人民日報點名,打臉圈內(nèi)明星

一盅情懷
2026-04-14 13:18:22
外交部:日方在毗鄰中國地區(qū)加強導彈部署威脅地區(qū)和平穩(wěn)定

外交部:日方在毗鄰中國地區(qū)加強導彈部署威脅地區(qū)和平穩(wěn)定

新京報
2026-04-15 15:37:09
毛新宇少將最新現(xiàn)身,已經(jīng)晉升16年,何時能擔任中將或上將?

毛新宇少將最新現(xiàn)身,已經(jīng)晉升16年,何時能擔任中將或上將?

李昕言溫度空間
2026-04-14 21:19:17
世界上密度最高的金屬!鋨:比黃金稀有,卻存在于鋼筆中?

世界上密度最高的金屬!鋨:比黃金稀有,卻存在于鋼筆中?

心中的麥田
2026-04-16 20:12:32
正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運

正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運

秋姐居
2026-04-15 22:06:55
快船全隊被勇士打服了!泰倫盧+加蘭+倫納德紛紛贊嘆對手強大!

快船全隊被勇士打服了!泰倫盧+加蘭+倫納德紛紛贊嘆對手強大!

籃球資訊達人
2026-04-16 14:17:05
張倫碩節(jié)目直言要親生孩子,無視鐘麗緹高齡,張泉靈當場翻白眼

張倫碩節(jié)目直言要親生孩子,無視鐘麗緹高齡,張泉靈當場翻白眼

明星爆料客
2026-04-14 20:55:07
深度 | 算力租賃全產(chǎn)業(yè)鏈,10 大核心關(guān)聯(lián)公司

深度 | 算力租賃全產(chǎn)業(yè)鏈,10 大核心關(guān)聯(lián)公司

飛跑的鹿
2026-04-16 20:07:20
歐洲密謀戰(zhàn)后布局,中印受邀卻不請美國,對特朗普的侮辱性很強

歐洲密謀戰(zhàn)后布局,中印受邀卻不請美國,對特朗普的侮辱性很強

文昌每日談
2026-04-16 11:10:02
急診貼“不帶孩子別來”:醫(yī)生的無奈,藏著多少不為人知的生死教訓

急診貼“不帶孩子別來”:醫(yī)生的無奈,藏著多少不為人知的生死教訓

醫(yī)客
2026-04-15 12:09:12
2026-04-16 23:20:49
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
127文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

美國啟動"經(jīng)濟狂怒"行動 對伊朗施加最大化的經(jīng)濟壓力

頭條要聞

美國啟動"經(jīng)濟狂怒"行動 對伊朗施加最大化的經(jīng)濟壓力

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
時尚
公開課

家居要聞

智能舒適 簡約風尚

藝術(shù)要聞

張大千『 花菓薈萃冊』

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版