无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

5個140分!2026高考數(shù)學(xué)AI評測出爐

0
分享至


15日,山東省教育招生考試院舉辦2026年夏季高考評卷工作開放日活動。

2026年山東省參加夏季高考統(tǒng)一考試的考生共計72萬人,9個科目試卷總數(shù)達(dá)到432萬余份。 評卷工作委托山東大學(xué)和山東師范大學(xué)進(jìn)行,共選聘評卷員3700余人。

山東大學(xué)負(fù)責(zé)評閱語文、數(shù)學(xué)、物理、化學(xué)、生物5個科目。山東師范大學(xué)負(fù)責(zé)評閱外語、思想政治、歷史、地理4個科目。評卷工作于6月11日正式啟動,選擇題部分實行機器評閱,目前已全部完成。非選擇題部分由人工網(wǎng)上評閱,目前正在進(jìn)行中。

據(jù)悉,本輪評卷工作結(jié)束后,我省將陸續(xù)開展成績匯總、 錄取控制分?jǐn)?shù)線 劃定等工作,6月25日下午3點后正式公布高考成績。

近日,新京報展開一場評測,選取訊飛星火、DeepSeek、智譜、ChatGPT、Kimi和MiniMax六款以推理見長的大模型,以2026年新高考I卷數(shù)學(xué)卷為統(tǒng)一試題進(jìn)行測試。評測邀請了兩位專業(yè)教師參與閱卷評分:人大附中北京經(jīng)濟技術(shù)開發(fā)區(qū)學(xué)校高中數(shù)學(xué)教師、教研組長、北京市數(shù)學(xué)骨干教師韓靜波,以及北京市中學(xué)數(shù)學(xué)特級教師、全國高中數(shù)理化名師俱樂部副理事長、中國數(shù)學(xué)奧林匹克高級教練丁益祥。

六個“考生”,五個上了140分

測試共19道題目,滿分150分。試卷題目依據(jù)網(wǎng)絡(luò)流出的多個版本交叉驗證而成,可能與真題存在不完全相符的情況,但所有模型使用的是同一套題目,不影響橫向比較的公平性。

從總分來看,六款大模型呈現(xiàn)了明顯的梯度:訊飛星火以148分位居第一,Kimi以145分緊隨其后,DeepSeek144分、智譜143分、MiniMax142分依次排列,ChatGPT以137分排在末尾。六個“考生”中,有五個上了140分。


▲6名大模型“考生”總體得分情況。新京報制圖/盧子雄

基礎(chǔ)題全員滿分,解題規(guī)范拉開差距

在選擇題和多選題上,六款模型實現(xiàn)了全員滿分,僅有個別模型在填空題上出現(xiàn)了失誤。真正拉開差距的,是解答題的得分和解題過程的規(guī)范性。

訊飛星火的規(guī)范分與結(jié)果分完全一致,推理過程較為清晰,字符也較規(guī)范。丁益祥舉例說,在第15題第(2)小題中,訊飛星火給出了幾何法和向量法兩種解法;第18題第(2)小題的兩問中,它充分利用了平面幾何中三角形面積之間的關(guān)系,并借助夾角公式簡化了運算。丁益祥還注意到,“MiniMax卷”和“智譜卷”在第18題第(2)小題的第①問上,同樣利用了幾何中三角形面積關(guān)系來處理問題,“都有不錯表現(xiàn)”。

韓靜波則發(fā)現(xiàn),訊飛星火在數(shù)形結(jié)合、對圖形幾何性質(zhì)的分析上明顯優(yōu)于其他模型,“它在解析第二問幾何性質(zhì)時分析得很好,做法簡潔,還有一些題目給出了兩種解法。”

其他模型則在解答題中不同程度地出現(xiàn)了步驟失分,原因多為關(guān)鍵推導(dǎo)缺失或邏輯不連貫。


▲各大模型“考生”不同題目分?jǐn)?shù)統(tǒng)計情況。新京報制圖/盧子雄

壓軸題分出高下,部分模型用了"超綱"知識

壓軸題(第18、19題)成為區(qū)分模型復(fù)雜推理能力的分水嶺。大部分模型在第18題中表現(xiàn)尚可,但在第19題上出現(xiàn)了明顯的“后繼乏力”——有模型僅得到12分(滿分17分),暴露出部分大模型在處理多步驟、高復(fù)雜度邏輯鏈時仍存在能力短板。

韓靜波觀察發(fā)現(xiàn),DeepSeek在形式化的代數(shù)推導(dǎo)方面比較擅長,能按部就班地完成長邏輯推導(dǎo),但在數(shù)形結(jié)合、對圖形幾何性質(zhì)的分析上稍顯欠缺,利用題目特殊性靈活處理問題的能力也顯不足。

值得注意的是,部分模型在解題中動用了超出高中知識范圍的方法。丁益祥指出,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第(2)小題時都使用了向量的叉乘運算,而“DeepSeek卷”在第19題第(2)小題中還動用了“上確界”的概念。丁益祥表示,這些都屬于高等數(shù)學(xué)知識,在解答高考數(shù)學(xué)試題中一般不宜使用。


▲丁益祥對試卷的批閱記錄。

"答卷各有千秋",仍有改進(jìn)余地

除了知識運用的問題,丁益祥還指出了大模型在答題呈現(xiàn)上的一些不足?!癕iniMax卷”和“智譜卷”中存在字符不統(tǒng)一、不規(guī)范的情況,給人的感覺較為凌亂。他還提到,ChatGPT卷第15題第(2)小題的幾何法證明較為繁瑣,智譜卷第19題第(3)小題的推導(dǎo)也不夠簡練。

不過,在答題思路的一致性上,六款模型表現(xiàn)出了一定程度的趨同。以第15題第(1)小題為例,六份答卷一致地采用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數(shù)之間的關(guān)系求橢圓的標(biāo)準(zhǔn)方程;第19題第(1)小題,六份答卷也一致地使用直接計算的方法得出結(jié)果。丁益祥用“某些思路雷同,答卷各有千秋”來概括六份答卷。

總體而言,測評結(jié)果表明,頭部大模型在高考數(shù)學(xué)場景中已展現(xiàn)出一定的解題實力,不僅能算出正確結(jié)果,也能以較為規(guī)范、嚴(yán)謹(jǐn)?shù)倪^程呈現(xiàn)推導(dǎo)思路。但部分模型在步驟規(guī)范性、復(fù)雜壓軸題的推理能力以及答題格式的規(guī)范呈現(xiàn)上,仍然存在明顯的提升空間。正如有專家指出,當(dāng)前大模型的數(shù)學(xué)能力競爭,已從“能算出結(jié)果”轉(zhuǎn)向了“過程嚴(yán)謹(jǐn)、邏輯完整、復(fù)雜問題可拆解”的更高階段。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
寫歌30年窮困潦倒,前妻失望選擇離婚,誰料51歲靠一首歌一夜成名

寫歌30年窮困潦倒,前妻失望選擇離婚,誰料51歲靠一首歌一夜成名

哄動一時啊
2026-06-22 22:08:59
未來三年,普通家庭升值最快的5項資產(chǎn),越早布局越好

未來三年,普通家庭升值最快的5項資產(chǎn),越早布局越好

細(xì)說職場
2026-06-22 15:45:09
陌生號碼一律不接!中國社會正在支付一筆隱形信任稅

陌生號碼一律不接!中國社會正在支付一筆隱形信任稅

時光在作祟
2026-06-22 00:32:39
世界杯亞洲球隊啟示錄:中國青訓(xùn)該順應(yīng)潮流,從三個方向改變

世界杯亞洲球隊啟示錄:中國青訓(xùn)該順應(yīng)潮流,從三個方向改變

足球報
2026-06-22 13:06:12
知名演員卸任!家族套現(xiàn)28億,公司被查!

知名演員卸任!家族套現(xiàn)28億,公司被查!

蓬勃新聞
2026-06-22 18:57:26
實事求是,姆巴佩點評梅西!

實事求是,姆巴佩點評梅西!

體育哲人
2026-06-22 16:52:28
女老師穿“日系連衣裙”,家長們坐不住了:天氣再熱也不能這么穿

女老師穿“日系連衣裙”,家長們坐不住了:天氣再熱也不能這么穿

蝴蝶花雨話教育
2026-06-06 00:05:36
每吃一次,腎壞死就快一步?提醒:4種食物是腎壞死的“加速器”

每吃一次,腎壞死就快一步?提醒:4種食物是腎壞死的“加速器”

39健康網(wǎng)
2026-06-22 20:15:49
綠聯(lián)推出65W“小冰片”輕薄充電頭:2C+1A,14.5mm,129元

綠聯(lián)推出65W“小冰片”輕薄充電頭:2C+1A,14.5mm,129元

IT之家
2026-06-20 10:43:18
真慘還是活該?被導(dǎo)演打到腦震蕩、毀容、捂嘴窒息,結(jié)果反被封殺

真慘還是活該?被導(dǎo)演打到腦震蕩、毀容、捂嘴窒息,結(jié)果反被封殺

嘴角上翹的弧度
2026-06-21 03:38:56
燃料供應(yīng)中斷,封鎖接近完成,克里米亞大橋會如何?

燃料供應(yīng)中斷,封鎖接近完成,克里米亞大橋會如何?

山河路口
2026-06-21 20:14:02
“足球小將”父親公開發(fā)聲,揭露董路私下一面,比所有通稿都真實

“足球小將”父親公開發(fā)聲,揭露董路私下一面,比所有通稿都真實

星娛叨叨社
2026-06-22 18:39:36
我,36歲,遇到了比婚內(nèi)出軌更毀人的渣操作!

我,36歲,遇到了比婚內(nèi)出軌更毀人的渣操作!

脆皮先生
2026-06-22 22:12:12
銀河證券:A股下半年建議關(guān)注三大主線

銀河證券:A股下半年建議關(guān)注三大主線

界面新聞
2026-06-22 08:41:50
財政部:1-5月全國一般公共預(yù)算收入100465億元,同比增長4%

財政部:1-5月全國一般公共預(yù)算收入100465億元,同比增長4%

界面新聞
2026-06-22 16:31:53
郭臺銘預(yù)判翻車了:蘋果把產(chǎn)業(yè)轉(zhuǎn)移印度,中國會有大量企業(yè)倒閉!

郭臺銘預(yù)判翻車了:蘋果把產(chǎn)業(yè)轉(zhuǎn)移印度,中國會有大量企業(yè)倒閉!

講者普拉斯
2026-06-22 22:04:21
我問了十個“油轉(zhuǎn)電”車主,發(fā)現(xiàn)油車的最大問題,是結(jié)構(gòu)性缺失!

我問了十個“油轉(zhuǎn)電”車主,發(fā)現(xiàn)油車的最大問題,是結(jié)構(gòu)性缺失!

少數(shù)派報告Report
2026-06-22 10:39:47
引狼入室!未離婚帶娃同居,男子霸占12歲繼女,繼父與生母皆獲刑

引狼入室!未離婚帶娃同居,男子霸占12歲繼女,繼父與生母皆獲刑

川渝視覺
2026-06-22 22:02:43
巴薩挖角計劃落空!曼聯(lián)強硬表態(tài):7300萬新鋒線堅決不賣

巴薩挖角計劃落空!曼聯(lián)強硬表態(tài):7300萬新鋒線堅決不賣

夜白侃球
2026-06-22 22:10:00
A股,尾盤傳來一個“重大利好”信號,明天,或?qū)⒂瓉泶蠓磸棧?>
    </a>
        <h3>
      <a href=另子維愛讀史
2026-06-22 20:39:51
2026-06-22 23:03:00
山東教育 incentive-icons
山東教育
發(fā)布山東教育界資訊
6895文章數(shù) 13231關(guān)注度
往期回顧 全部

教育要聞

每位教師 30 小時培訓(xùn)、每校 50 萬港元支持,香港把 AI 教育納入學(xué)校必修課

頭條要聞

英國首相斯塔默宣布辭職

頭條要聞

英國首相斯塔默宣布辭職

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

陪睡陪玩是皮毛,向佐揭內(nèi)娛暗規(guī)則

財經(jīng)要聞

前美聯(lián)儲主席格林斯潘去世 享年100歲

科技要聞

智譜盤中狂飆超40%,市值破萬億港元

汽車要聞

華為智駕ADS限時優(yōu)惠月底結(jié)束 7月1日前下訂立省3000元

態(tài)度原創(chuàng)

時尚
本地
數(shù)碼
親子
公開課

Ins 氛圍感辣媽出圈!比例絕佳身材,極簡穿搭高級又耐看

本地新聞

吃一次廣東龍舟飯,才懂什么是豪華盛宴

數(shù)碼要聞

傳 Apple Watch Ultra 4 將于今年晚些時候登場

親子要聞

十月懷胎,內(nèi)臟究竟都經(jīng)歷了哪些可怕的變化?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版