无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

6款A(yù)I大模型挑戰(zhàn)高考數(shù)學(xué)!一款拿下148分,壓軸題成分水嶺

0
分享至

“6款主流大模型的解題能力整體表現(xiàn)呈現(xiàn)出清晰的梯隊分化。”


6月7日,2026年全國高考數(shù)學(xué)科目考試落下帷幕,隨后,多個數(shù)學(xué)相關(guān)的話題登上熱搜。過去兩年,AI行業(yè)迎來高速發(fā)展,大模型推理能力、數(shù)理分析能力持續(xù)進階,如果讓AI大模型化身“考生”應(yīng)戰(zhàn)高考數(shù)學(xué)試題,它們將有怎樣的表現(xiàn)?

我們就此開展了一場評測,選取了6名以推理見長的大模型“考生”,分別是訊飛星火、DeepSeek、智譜、ChatGPT、Kimi、MiniMax,選取了2026年新高考I卷數(shù)學(xué)卷進行測評。

此次評測,我們還邀請了兩位專業(yè)老師輔助對大模型的考卷進行評分,他們分別是:人大附中北京經(jīng)濟技術(shù)開發(fā)區(qū)學(xué)校高中數(shù)學(xué)教師、教研組長、北京市數(shù)學(xué)骨干教師 韓靜波,北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥。

測試結(jié)果顯示,6款主流大模型的解題能力整體表現(xiàn)呈現(xiàn)出梯隊分化。有專家指出,當(dāng)前大模型的數(shù)學(xué)能力競爭,已經(jīng)從“能算出結(jié)果”轉(zhuǎn)向了“過程嚴(yán)謹(jǐn)、邏輯完整、復(fù)雜問題可拆解”的高階比拼。



6位大模型“考生”總體得分情況。新京報制圖/盧子雄

6位“考生”總分呈現(xiàn)梯度分布

需要說明的是,由于用于測評的題目為根據(jù)網(wǎng)絡(luò)流出的多個版本交叉驗證后的試題(可能存在與真題試卷不完全相符的情況,但不影響測評進行,所有大模型“考生”使用的均為相同題目),共19道題目,總分為150分。

先來看這次“考試”各位大模型“考生”的總體得分(規(guī)范分)情況:訊飛星火以148分總成績領(lǐng)先,其他“考生”總分?jǐn)?shù)由高到低分別為:Kimi145分、DeepSeek144分、智譜143分、MiniMax142分、ChatGPT137分。

在基礎(chǔ)題部分,各模型選擇題與多選題實現(xiàn)全員滿分,僅個別模型在填空題中出現(xiàn)失誤。

解答題和解題過程的規(guī)范性是拉開差距的關(guān)鍵。幾位大模型“考生”中,訊飛星火全程規(guī)范分與結(jié)果分完全一致,推理過程較為清晰,字符也較規(guī)范。丁益祥舉例,其第15題第(2)小題,訊飛星火給出了幾何法和向量法兩種方法求解;而在第18題第(2)小題中的第①小問,它充分利用了平面幾何中三角形面積之間的關(guān)系,第②小問利用了夾角公式,簡化了運算。

同時丁益祥指出,在第18題第(2)小題中的第①小題這一題型上,“MiniMax卷”和“智譜卷”也利用了平面幾何中三角形面積之間的關(guān)系處理問題,都有不錯表現(xiàn)。

在解答題部分,有些模型則在不同程度上存在步驟失分,或者在解答題中因關(guān)鍵推導(dǎo)缺失或邏輯不連貫被扣減步驟分。



“考生”不同題目得分情況。新京報制圖/盧子雄

壓軸題成為區(qū)分模型復(fù)雜推理能力的分水嶺

由于考題較多,在此僅挑選部分題目來呈現(xiàn)作答情況并請專家進行點評。

韓靜波注意到,訊飛星火在解析第二問幾何性質(zhì)時分析得很好,做法簡潔,還有一些題目給出了兩種解法。“訊飛星火在數(shù)形結(jié)合、對圖形幾何性質(zhì)的研究上明顯優(yōu)于其他模型。”

壓軸題(第18、19題)成為區(qū)分模型復(fù)雜推理能力的分水嶺。大部分模型在第18題中表現(xiàn)尚可,但在第19題中出現(xiàn)了明顯的“后繼乏力”,有“考生”僅得12分(滿分17分),反映出部分大模型在處理多步驟、高復(fù)雜度邏輯鏈時仍存在能力瓶頸。

韓靜波發(fā)現(xiàn),最后一題(19題)中,DeepSeek在大眾形式化的代數(shù)推導(dǎo)比較擅長,利用通性通法按部就班做長邏輯的推導(dǎo)比較擅長,但是數(shù)形結(jié)合,對圖形幾何性質(zhì)的分析稍顯欠缺,此外,利用題目的特殊性靈活處理問題能力不足。

大模型解數(shù)學(xué)題仍存在明顯提升空間

“可以說‘某些思路雷同,答卷各有千秋’,但也有些大模型還有改進的空間。”對于這六份由大模型“考生”給出的數(shù)學(xué)高考答卷,北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥點評道。

他以第15題第(1)小題為例,六份答卷一致地利用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數(shù)之間的關(guān)系求橢圓的標(biāo)準(zhǔn)方程;第19題第(1)小題,六份答卷一致地利用直接計算的方法求得結(jié)果。



丁益祥對試卷的批閱記錄。

同時,丁益祥也指出了大模型需要改進的地方,包括知識運用不恰當(dāng)、字符呈現(xiàn)不規(guī)范、部分解法不簡練等問題。比如,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第(2)小題中都利用了向量的叉乘運算。在求解第19題第(2)小題中,“DeepSeek卷”還利用了“上確界”的概念,“這些都是高等數(shù)學(xué)中的知識,高中未學(xué)過,在解答高考數(shù)學(xué)試題中一般不宜使用。”丁益祥說道。

“MiniMax卷、智譜卷中的字符不統(tǒng)一、不規(guī)范,給人的感覺較為凌亂,看不清。還比如ChatGPT卷第15題第(2)小題的幾何法證明較繁瑣,智譜卷中第19題第(3)小題的推導(dǎo)不簡練……”丁益祥認(rèn)為,這意味著在做數(shù)學(xué)題方面,大模型還有改進的空間。

總體而言,頭部大模型在高考數(shù)學(xué)場景中已展現(xiàn)出一定的解題實力,不僅能算出正確結(jié)果,在以規(guī)范、嚴(yán)謹(jǐn)?shù)倪^程呈現(xiàn)推導(dǎo)思路方面呈現(xiàn)出一定優(yōu)勢;也有部分模型雖在基礎(chǔ)題上表現(xiàn)穩(wěn)定,但在步驟規(guī)范性與復(fù)雜壓軸題的推理能力上仍有明顯提升空間。

新京報記者 馮琪 劉洋

編輯 繆晨霞 校對 柳寶慶

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
胡言亂語的嘎子,成了2026互聯(lián)網(wǎng)最大樂子

胡言亂語的嘎子,成了2026互聯(lián)網(wǎng)最大樂子

金錯刀
2026-06-09 17:44:56
重磅!美國對華該產(chǎn)品征收208.49%天價關(guān)稅

重磅!美國對華該產(chǎn)品征收208.49%天價關(guān)稅

阿訊說天下
2026-06-11 12:47:40
1936 營長帶兩連起義投紅軍,五五年授銜,他原以為僅能授大校

1936 營長帶兩連起義投紅軍,五五年授銜,他原以為僅能授大校

嘮叨說歷史
2026-06-10 19:58:56
7死17傷!廣西興安突發(fā)爆炸事故,知情人發(fā)聲官方通報信息量很大

7死17傷!廣西興安突發(fā)爆炸事故,知情人發(fā)聲官方通報信息量很大

Mr王的飯后茶
2026-06-11 09:55:23
內(nèi)塔尼亞胡:以色列已準(zhǔn)備好拋棄美國獨自攻擊伊朗

內(nèi)塔尼亞胡:以色列已準(zhǔn)備好拋棄美國獨自攻擊伊朗

一種觀點
2026-06-10 15:53:34
驚天逆轉(zhuǎn)!馬刺創(chuàng)80年NBA第一恥辱紀(jì)錄,2人成罪人,3人應(yīng)被棄

驚天逆轉(zhuǎn)!馬刺創(chuàng)80年NBA第一恥辱紀(jì)錄,2人成罪人,3人應(yīng)被棄

寒士之言本尊
2026-06-11 15:02:10
“虧損七位數(shù)的大有人在!”白銀價格腰斬,有人浮虧70萬仍堅守,有人割肉離場

“虧損七位數(shù)的大有人在!”白銀價格腰斬,有人浮虧70萬仍堅守,有人割肉離場

中新經(jīng)緯
2026-06-11 15:27:47
考場外“華為全家桶”走紅!網(wǎng)友調(diào)侃:小米全家桶,不比這有面兒

考場外“華為全家桶”走紅!網(wǎng)友調(diào)侃:小米全家桶,不比這有面兒

火山詩話
2026-06-10 08:50:50
養(yǎng)路費大調(diào)整來了!人民日報定調(diào),油車電車收費規(guī)則重新制定

養(yǎng)路費大調(diào)整來了!人民日報定調(diào),油車電車收費規(guī)則重新制定

沙雕小琳琳
2026-06-11 10:34:48
世界首富貓為何破產(chǎn)?老佛爺給它留了150萬刀遺產(chǎn),如今蝸居公寓落差太大!

世界首富貓為何破產(chǎn)?老佛爺給它留了150萬刀遺產(chǎn),如今蝸居公寓落差太大!

新歐洲
2026-06-10 19:23:11
一場106-107,可怕的不是輸球,是文班亞馬這番話,有自己打算

一場106-107,可怕的不是輸球,是文班亞馬這番話,有自己打算

林子說事
2026-06-11 14:25:27
調(diào)查發(fā)現(xiàn):常年堅持鍛煉的人,熬過73歲后,大多逃不過這5種結(jié)局

調(diào)查發(fā)現(xiàn):常年堅持鍛煉的人,熬過73歲后,大多逃不過這5種結(jié)局

周哥一影視
2026-06-11 13:07:20
3-1變1-3!都在罵福克斯,但誰注意到文班亞馬?3場都因為他輸球

3-1變1-3!都在罵福克斯,但誰注意到文班亞馬?3場都因為他輸球

阿纂看事
2026-06-11 15:06:35
鄭麗文罕見提及兩岸統(tǒng)一,民進黨這個動作告訴鄭麗文:看清現(xiàn)實

鄭麗文罕見提及兩岸統(tǒng)一,民進黨這個動作告訴鄭麗文:看清現(xiàn)實

DS北風(fēng)
2026-06-10 16:06:16
手工耿又整新活!將理想i6改裝成末日機甲 100多英寸輪轂引人注目

手工耿又整新活!將理想i6改裝成末日機甲 100多英寸輪轂引人注目

快科技
2026-06-11 08:05:07
第31屆LG杯世界棋王賽八強戰(zhàn)中韓同為2勝2負(fù),半決賽王星昊楊楷文對戰(zhàn)“二申”

第31屆LG杯世界棋王賽八強戰(zhàn)中韓同為2勝2負(fù),半決賽王星昊楊楷文對戰(zhàn)“二申”

野狐圍棋
2026-06-11 16:32:02
歷史罕見信號全部重合!這次不是回調(diào),是全球性大危機要來了

歷史罕見信號全部重合!這次不是回調(diào),是全球性大危機要來了

流蘇晚晴
2026-06-11 14:24:06
印度外長很后悔:要不是印度的大恩大德,中國當(dāng)年哪進得了聯(lián)合國

印度外長很后悔:要不是印度的大恩大德,中國當(dāng)年哪進得了聯(lián)合國

史料布籍
2026-06-11 11:21:17
一個日本兵的親訴:蘇軍進攻關(guān)東軍時,我看見人間地獄的真實模樣

一個日本兵的親訴:蘇軍進攻關(guān)東軍時,我看見人間地獄的真實模樣

史之韻
2026-06-11 08:51:04
朝鮮國宴沒龍蝦?細(xì)節(jié)控到極致,才是真狠活!

朝鮮國宴沒龍蝦?細(xì)節(jié)控到極致,才是真狠活!

馬蹄燙嘴說美食
2026-06-10 14:26:06
2026-06-11 17:23:00
新京報 incentive-icons
新京報
好新聞,無止境
580212文章數(shù) 2508504關(guān)注度
往期回顧 全部

教育要聞

考完語文,985沒了;考完數(shù)學(xué),211沒了;考完物理,本科沒了!

頭條要聞

"鴻茅藥酒事件"當(dāng)事人譚秦東:沒有恨和怨 存錢等換腎

頭條要聞

"鴻茅藥酒事件"當(dāng)事人譚秦東:沒有恨和怨 存錢等換腎

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經(jīng)要聞

干細(xì)胞生意:17萬一針的希望

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

汽車要聞

比亞迪海豹08或7月上市 四驅(qū)旗艦版預(yù)扣款僅25萬

態(tài)度原創(chuàng)

藝術(shù)
健康
游戲
本地
公開課

藝術(shù)要聞

四川美術(shù)學(xué)院,2026屆研究生畢業(yè)作品集(一)

粽子為何難消化?過量吃會怎么樣?

《SWAPMEAT》6月17日正式推出 合作肉鴿射擊

本地新聞

世界杯還沒開始,蘇超已經(jīng)火到爆梗

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版