6款A(yù)I大模型挑戰(zhàn)高考數(shù)學(xué)！一款拿下148分，壓軸題成分水嶺

2026-06-08 21:23:19　來源: 新京報

北京舉報

分享至

“6款主流大模型的解題能力整體表現(xiàn)呈現(xiàn)出清晰的梯隊分化。”

6月7日，2026年全國高考數(shù)學(xué)科目考試落下帷幕，隨后，多個數(shù)學(xué)相關(guān)的話題登上熱搜。過去兩年，AI行業(yè)迎來高速發(fā)展，大模型推理能力、數(shù)理分析能力持續(xù)進階，如果讓AI大模型化身“考生”應(yīng)戰(zhàn)高考數(shù)學(xué)試題，它們將有怎樣的表現(xiàn)？

我們就此開展了一場評測，選取了6名以推理見長的大模型“考生”，分別是訊飛星火、DeepSeek、智譜、ChatGPT、Kimi、MiniMax，選取了2026年新高考I卷數(shù)學(xué)卷進行測評。

此次評測，我們還邀請了兩位專業(yè)老師輔助對大模型的考卷進行評分，他們分別是：人大附中北京經(jīng)濟技術(shù)開發(fā)區(qū)學(xué)校高中數(shù)學(xué)教師、教研組長、北京市數(shù)學(xué)骨干教師韓靜波，北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥。

測試結(jié)果顯示，6款主流大模型的解題能力整體表現(xiàn)呈現(xiàn)出梯隊分化。有專家指出，當(dāng)前大模型的數(shù)學(xué)能力競爭，已經(jīng)從“能算出結(jié)果”轉(zhuǎn)向了“過程嚴(yán)謹(jǐn)、邏輯完整、復(fù)雜問題可拆解”的高階比拼。

6位大模型“考生”總體得分情況。新京報制圖/盧子雄

6位“考生”總分呈現(xiàn)梯度分布

需要說明的是，由于用于測評的題目為根據(jù)網(wǎng)絡(luò)流出的多個版本交叉驗證后的試題（可能存在與真題試卷不完全相符的情況，但不影響測評進行，所有大模型“考生”使用的均為相同題目），共19道題目，總分為150分。

先來看這次“考試”各位大模型“考生”的總體得分（規(guī)范分）情況：訊飛星火以148分總成績領(lǐng)先，其他“考生”總分?jǐn)?shù)由高到低分別為：Kimi145分、DeepSeek144分、智譜143分、MiniMax142分、ChatGPT137分。

在基礎(chǔ)題部分，各模型選擇題與多選題實現(xiàn)全員滿分，僅個別模型在填空題中出現(xiàn)失誤。

解答題和解題過程的規(guī)范性是拉開差距的關(guān)鍵。幾位大模型“考生”中，訊飛星火全程規(guī)范分與結(jié)果分完全一致，推理過程較為清晰，字符也較規(guī)范。丁益祥舉例，其第15題第（2）小題，訊飛星火給出了幾何法和向量法兩種方法求解；而在第18題第（2）小題中的第①小問，它充分利用了平面幾何中三角形面積之間的關(guān)系，第②小問利用了夾角公式，簡化了運算。

同時丁益祥指出，在第18題第（2）小題中的第①小題這一題型上，“MiniMax卷”和“智譜卷”也利用了平面幾何中三角形面積之間的關(guān)系處理問題，都有不錯表現(xiàn)。

在解答題部分，有些模型則在不同程度上存在步驟失分，或者在解答題中因關(guān)鍵推導(dǎo)缺失或邏輯不連貫被扣減步驟分。

“考生”不同題目得分情況。新京報制圖/盧子雄

壓軸題成為區(qū)分模型復(fù)雜推理能力的分水嶺

由于考題較多，在此僅挑選部分題目來呈現(xiàn)作答情況并請專家進行點評。

韓靜波注意到，訊飛星火在解析第二問幾何性質(zhì)時分析得很好，做法簡潔，還有一些題目給出了兩種解法。“訊飛星火在數(shù)形結(jié)合、對圖形幾何性質(zhì)的研究上明顯優(yōu)于其他模型。”

壓軸題（第18、19題）成為區(qū)分模型復(fù)雜推理能力的分水嶺。大部分模型在第18題中表現(xiàn)尚可，但在第19題中出現(xiàn)了明顯的“后繼乏力”，有“考生”僅得12分（滿分17分），反映出部分大模型在處理多步驟、高復(fù)雜度邏輯鏈時仍存在能力瓶頸。

韓靜波發(fā)現(xiàn)，最后一題（19題）中，DeepSeek在大眾形式化的代數(shù)推導(dǎo)比較擅長，利用通性通法按部就班做長邏輯的推導(dǎo)比較擅長，但是數(shù)形結(jié)合，對圖形幾何性質(zhì)的分析稍顯欠缺，此外，利用題目的特殊性靈活處理問題能力不足。

大模型解數(shù)學(xué)題仍存在明顯提升空間

“可以說‘某些思路雷同，答卷各有千秋’，但也有些大模型還有改進的空間。”對于這六份由大模型“考生”給出的數(shù)學(xué)高考答卷，北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥點評道。

他以第15題第（1）小題為例，六份答卷一致地利用幾何法證明；第18題第（1）小題，六份答卷一致地利用參數(shù)之間的關(guān)系求橢圓的標(biāo)準(zhǔn)方程；第19題第（1）小題，六份答卷一致地利用直接計算的方法求得結(jié)果。

丁益祥對試卷的批閱記錄。

同時，丁益祥也指出了大模型需要改進的地方，包括知識運用不恰當(dāng)、字符呈現(xiàn)不規(guī)范、部分解法不簡練等問題。比如，“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第（2）小題中都利用了向量的叉乘運算。在求解第19題第（2）小題中，“DeepSeek卷”還利用了“上確界”的概念，“這些都是高等數(shù)學(xué)中的知識，高中未學(xué)過，在解答高考數(shù)學(xué)試題中一般不宜使用。”丁益祥說道。

“MiniMax卷、智譜卷中的字符不統(tǒng)一、不規(guī)范，給人的感覺較為凌亂，看不清。還比如ChatGPT卷第15題第（2）小題的幾何法證明較繁瑣，智譜卷中第19題第（3）小題的推導(dǎo)不簡練……”丁益祥認(rèn)為，這意味著在做數(shù)學(xué)題方面，大模型還有改進的空間。

總體而言，頭部大模型在高考數(shù)學(xué)場景中已展現(xiàn)出一定的解題實力，不僅能算出正確結(jié)果，在以規(guī)范、嚴(yán)謹(jǐn)?shù)倪^程呈現(xiàn)推導(dǎo)思路方面呈現(xiàn)出一定優(yōu)勢；也有部分模型雖在基礎(chǔ)題上表現(xiàn)穩(wěn)定，但在步驟規(guī)范性與復(fù)雜壓軸題的推理能力上仍有明顯提升空間。

新京報記者馮琪劉洋

編輯繆晨霞校對柳寶慶

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.