“6款主流大模型的解題能力整體表現(xiàn)呈現(xiàn)出清晰的梯隊分化。”
6月7日,2026年全國高考數(shù)學(xué)科目考試落下帷幕,隨后,多個數(shù)學(xué)相關(guān)的話題登上熱搜。過去兩年,AI行業(yè)迎來高速發(fā)展,大模型推理能力、數(shù)理分析能力持續(xù)進階,如果讓AI大模型化身“考生”應(yīng)戰(zhàn)高考數(shù)學(xué)試題,它們將有怎樣的表現(xiàn)?
我們就此開展了一場評測,選取了6名以推理見長的大模型“考生”,分別是訊飛星火、DeepSeek、智譜、ChatGPT、Kimi、MiniMax,選取了2026年新高考I卷數(shù)學(xué)卷進行測評。
此次評測,我們還邀請了兩位專業(yè)老師輔助對大模型的考卷進行評分,他們分別是:人大附中北京經(jīng)濟技術(shù)開發(fā)區(qū)學(xué)校高中數(shù)學(xué)教師、教研組長、北京市數(shù)學(xué)骨干教師 韓靜波,北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥。
測試結(jié)果顯示,6款主流大模型的解題能力整體表現(xiàn)呈現(xiàn)出梯隊分化。有專家指出,當(dāng)前大模型的數(shù)學(xué)能力競爭,已經(jīng)從“能算出結(jié)果”轉(zhuǎn)向了“過程嚴(yán)謹(jǐn)、邏輯完整、復(fù)雜問題可拆解”的高階比拼。
![]()
6位大模型“考生”總體得分情況。新京報制圖/盧子雄
6位“考生”總分呈現(xiàn)梯度分布
需要說明的是,由于用于測評的題目為根據(jù)網(wǎng)絡(luò)流出的多個版本交叉驗證后的試題(可能存在與真題試卷不完全相符的情況,但不影響測評進行,所有大模型“考生”使用的均為相同題目),共19道題目,總分為150分。
先來看這次“考試”各位大模型“考生”的總體得分(規(guī)范分)情況:訊飛星火以148分總成績領(lǐng)先,其他“考生”總分?jǐn)?shù)由高到低分別為:Kimi145分、DeepSeek144分、智譜143分、MiniMax142分、ChatGPT137分。
在基礎(chǔ)題部分,各模型選擇題與多選題實現(xiàn)全員滿分,僅個別模型在填空題中出現(xiàn)失誤。
解答題和解題過程的規(guī)范性是拉開差距的關(guān)鍵。幾位大模型“考生”中,訊飛星火全程規(guī)范分與結(jié)果分完全一致,推理過程較為清晰,字符也較規(guī)范。丁益祥舉例,其第15題第(2)小題,訊飛星火給出了幾何法和向量法兩種方法求解;而在第18題第(2)小題中的第①小問,它充分利用了平面幾何中三角形面積之間的關(guān)系,第②小問利用了夾角公式,簡化了運算。
同時丁益祥指出,在第18題第(2)小題中的第①小題這一題型上,“MiniMax卷”和“智譜卷”也利用了平面幾何中三角形面積之間的關(guān)系處理問題,都有不錯表現(xiàn)。
在解答題部分,有些模型則在不同程度上存在步驟失分,或者在解答題中因關(guān)鍵推導(dǎo)缺失或邏輯不連貫被扣減步驟分。
![]()
“考生”不同題目得分情況。新京報制圖/盧子雄
壓軸題成為區(qū)分模型復(fù)雜推理能力的分水嶺
由于考題較多,在此僅挑選部分題目來呈現(xiàn)作答情況并請專家進行點評。
韓靜波注意到,訊飛星火在解析第二問幾何性質(zhì)時分析得很好,做法簡潔,還有一些題目給出了兩種解法。“訊飛星火在數(shù)形結(jié)合、對圖形幾何性質(zhì)的研究上明顯優(yōu)于其他模型。”
壓軸題(第18、19題)成為區(qū)分模型復(fù)雜推理能力的分水嶺。大部分模型在第18題中表現(xiàn)尚可,但在第19題中出現(xiàn)了明顯的“后繼乏力”,有“考生”僅得12分(滿分17分),反映出部分大模型在處理多步驟、高復(fù)雜度邏輯鏈時仍存在能力瓶頸。
韓靜波發(fā)現(xiàn),最后一題(19題)中,DeepSeek在大眾形式化的代數(shù)推導(dǎo)比較擅長,利用通性通法按部就班做長邏輯的推導(dǎo)比較擅長,但是數(shù)形結(jié)合,對圖形幾何性質(zhì)的分析稍顯欠缺,此外,利用題目的特殊性靈活處理問題能力不足。
大模型解數(shù)學(xué)題仍存在明顯提升空間
“可以說‘某些思路雷同,答卷各有千秋’,但也有些大模型還有改進的空間。”對于這六份由大模型“考生”給出的數(shù)學(xué)高考答卷,北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥點評道。
他以第15題第(1)小題為例,六份答卷一致地利用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數(shù)之間的關(guān)系求橢圓的標(biāo)準(zhǔn)方程;第19題第(1)小題,六份答卷一致地利用直接計算的方法求得結(jié)果。
![]()
丁益祥對試卷的批閱記錄。
同時,丁益祥也指出了大模型需要改進的地方,包括知識運用不恰當(dāng)、字符呈現(xiàn)不規(guī)范、部分解法不簡練等問題。比如,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第(2)小題中都利用了向量的叉乘運算。在求解第19題第(2)小題中,“DeepSeek卷”還利用了“上確界”的概念,“這些都是高等數(shù)學(xué)中的知識,高中未學(xué)過,在解答高考數(shù)學(xué)試題中一般不宜使用。”丁益祥說道。
“MiniMax卷、智譜卷中的字符不統(tǒng)一、不規(guī)范,給人的感覺較為凌亂,看不清。還比如ChatGPT卷第15題第(2)小題的幾何法證明較繁瑣,智譜卷中第19題第(3)小題的推導(dǎo)不簡練……”丁益祥認(rèn)為,這意味著在做數(shù)學(xué)題方面,大模型還有改進的空間。
總體而言,頭部大模型在高考數(shù)學(xué)場景中已展現(xiàn)出一定的解題實力,不僅能算出正確結(jié)果,在以規(guī)范、嚴(yán)謹(jǐn)?shù)倪^程呈現(xiàn)推導(dǎo)思路方面呈現(xiàn)出一定優(yōu)勢;也有部分模型雖在基礎(chǔ)題上表現(xiàn)穩(wěn)定,但在步驟規(guī)范性與復(fù)雜壓軸題的推理能力上仍有明顯提升空間。
新京報記者 馮琪 劉洋
編輯 繆晨霞 校對 柳寶慶
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.