无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

廣東高考放榜

0
分享至

來源:21世紀經濟報道

6月24日,廣東高考成績放榜,社交媒體被“查分名場面”“考生喜報”刷屏,而一場專屬于AI大模型的“高考成績”也悄然出爐。

日前,羊城晚報教育發展研究院采用2026高考試題,對千問-3.7-Max、訊飛星火-X2、豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等8款國內外主流大模型進行了橫向測試,邀請2名資深教師獨立盲評。

結果顯示,Claude-Opus-4.8和訊飛星火-X2的物理類總分708分,并列第一,進入廣東屏蔽生行列;歷史類總分上700分只有訊飛星火-X2,也進入廣東屏蔽生行列。豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等模型也在部分科目中表現突出,呈現出不同的能力側重。


8款大模型挑戰2026年高考全科成績大PK

本次測評語文、數學、英語三科統一使用新課標I卷;選考科目均采用廣東省自主命題試卷,僅地理科目除外——因測評開展階段暫未獲取完整廣東地理真題,故選用命題難度、出題邏輯與廣東卷高度貼近的山東地理卷作為替代素材。

測評時,各模型均選用網頁端最優版本,并將深度思考模式調至最高。所有模型使用相同提示詞,回答內容均為一次性生成,不追加提問,也不進行人工修改。

在總分計算上,按照歷史類和物理類分科方式統計,采用大部分考生選擇的組合進行計算(歷史類:語數英三科+歷史+政治地理;物理類:語數英三科+物理+化學生物)的“3+1+2”形式。閱卷評分嚴格對標高考官方評分細則,客觀題按標準統一判分,作文、解答等主觀大題由兩名資深教師獨立盲評打分。

需要說明的是,用于測評的題目為根據網絡流出的多個版本交叉驗證后的試題(可能存在與真題試卷不完全相符的情況,但不影響測評進行,所有大模型“考生”使用的均為相同題目)。

從最終成績看,頭部大模型之間的競爭已經不再局限于單點知識問答,而是進入到多學科綜合能力的比拼:既考查知識覆蓋,也考察復雜推理、長文本理解、規范表達和跨學科遷移能力。

總分表現:頭部模型差距收窄

均衡能力成為拉分關鍵

從總分維度來看,主流頭部大模型整體得分差距不大,最終排名高低更多由全科穩定性決定。物理類總分榜單中,Claude-Opus-4.8和訊飛星火-X2并列第一,其后依次為Gemini-3.5-flash、豆包-2.1-Turbo、ChatGPT-5.5-Pro、DeepSeek-V4-Pro、千問-3.7-Max、GLM-5.2,各模型分檔得分各有區分。

歷史類前五名依次為訊飛星火-X2、Gemini-3.5-flash、ChatGPT-5.5-Pro、豆包-2.1-Turbo、Claude-Opus-4.8。

整體來看,海外大模型 ChatGPT-5.5-Pro、Claude-Opus-4.8在長文本輸出、議論文論述表達上基礎實力突出,無明顯短板學科。GLM-5.2歷史類和物理類全科得分存在明顯偏科現象,頂尖難題突破能力略有不足。放到全科測評中,能否在語文、數學、英語、物理(或歷史)及選考科目之間保持均衡,成為影響總分排名的重要因素。訊飛星火-X2此次在歷史和物理兩類總分中均取得領先,主要得益于其在語言理解、數理推理和綜合分析等不同任務中的相對均衡表現,而非單一科目的明顯拉動。


8款大模型挑戰2026年高考總分排名

單科表現:各模型能力側重不同

語文作文和數學壓軸題區分度較高

從單科成績來看,各模型在不同科目上表現出明顯的路線差異。語文、英語等語言類科目中,頭部模型總分差距相對較小,分差主要來自作文立意、結構組織和表達穩定性;數學、物理等科目則區分度更高,尤其是壓軸題和多步驟推導題,更考驗模型的復雜推理與過程規范能力。

語文科目中,議論文寫作和現代文閱讀是主要分水嶺。ChatGPT-5.5-Pro與Claude-Opus-4.8長于框架搭建和邏輯推進,文章結構成熟完整。千問-3.7-Max、豆包-2.1-Turbo在材料歸納和中文語境理解上表現較為穩定。GLM-5.2在結構化作答方面能夠較好回應設問要求,但選題偏常規化,新穎度不足。訊飛星火-X2各模塊得分相對均衡,作文時代立意高遠、邏輯完整、論據新穎,有細節,文風沉穩思辨。


千問-3.7-Max獲得了此次作文測評最高分57分。扣分原因:字數1228,扣1分;結尾升華不足,立意一般,扣2分。


GLM-5.2獲得了此次作文測評最低分53分。扣分原因:素材抗疫、救災等偏常規化,新穎度不足,扣1分;素材多為概括羅列,缺少具體的個體案例做細節支撐,扣2分;議論深度不足,扣2分,立意“英雄是挺身而出的凡人” 普通不出彩,扣2分。

數學方面,基礎題與中檔題多數模型準確率接近,差距主要體現在壓軸題。部分模型在長鏈條推理中容易出現步驟跳躍或邏輯斷裂,有的會引入超綱解法,雖能得出正確答案,但面臨過程分扣除的風險。訊飛星火-X2在這類題目中解題步驟更規范、關鍵推導更完整,過程分、結果分和推理清晰度三個維度保持較好一致性。DeepSeek-V4-Pro在部分數理題中也展現了較強的推導能力。GLM-5.2在中檔題和部分推理題中的表現較穩定,但在高難度長鏈條題目上仍有提升空間。

英語科目各模型在客觀題和閱讀理解上差距不大,分差主要來自寫作。ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash在表達流暢度和句式豐富度上具備優勢;千問-3.7-Max、豆包-2.1-Turbo則更偏保守,但內容要點覆蓋完整,能滿足基本任務要求。

物理、化學和生物這幾科中,物理側重建模與多步推導,化學側重實驗推理和概念辨析,生物強調材料理解與知識整合。不同模型在三科中的表現不盡一致,得分差異主要取決于模型能否將讀題、推理和規范作答完整串聯起來。訊飛星火-X2在物理、化學、生物三科中的得分較為均衡,解題過程中讀題、建模、推導和作答各環節銜接順暢,失分點較少。

政治、歷史、地理均要求較強的材料解讀和結構化表達能力。ChatGPT-5.5-Pro和Claude-Opus-4.8在長文本組織中表現突出;千問-3.7-Max、豆包-2.1-Turbo在知識調用和表達規范性上相對穩定。

專家:技術倒逼數學教育深層變革

針對此次AI大模型做高考題的結果,專家是如何看待的呢?數學教育家、廣東省高考研究會首任理事長、廣東省初等數學學會首任會長吳康在接受記者采訪時表示,AI的解題能力正高速進化,“我們要客觀看待這一結果,更值得思考的是我們教育如何進行深層次的變革。”

作為數學教育家,吳康長期跟蹤測試AI的數學解題能力。他介紹,2025年初的大模型尚難以應對高難度題型,僅過去1年多,其解題覆蓋范圍與難度就已大幅提升,不同知識分支的進步雖有差異,但整體進化速度驚人。他預測,約一年后,AI即可在普通高考數學卷中取得滿分。在他看來,AI將逐步替代低層次計算勞動,讓人類得以將精力投向更高階的數學思考與研究,本質是幫助人類站在技術肩膀上持續進階。

針對“AI會做題,學數學還有什么用”的疑問,吳康表示,數學學習的核心價值在于鍛煉思維、推理、分析、辨別與計算能力,而非單純掌握計算技巧。正如當年珠算被計算器取代一樣,未來基礎運算、公式記憶等機械性內容可交由AI完成,人類學習的重心將向更深層的數學原理與思維方法遷移。他預判,未來10年,中小學數學課本將迎來顯著調整,更高階的大學數學內容會逐步下放,基礎教育的知識深度將整體提升。

針對當前高考數學日趨靈活、反套路的趨勢,吳康直言,傳統題海戰術已失效,而不少地方的教研仍陷入“空對空”的形式主義,重論文職稱、輕解題實戰。他提出,AI解題能力的大幅提升,將推動學校教育和教研體系的深層轉型。“必須打造專業的教研團隊深耕難題與創新題型,厘清題目來龍去脈與考場應對路徑,同時還要改革教師評價導向,讓榮譽與職稱評定向解題能力、教學實效傾斜。”

談及數學思維與刷題熟練度的關系,吳康認為,二者是辯證統一的關系:熟練度是基礎,但不能陷入低層次機械重復。他主張螺旋上升式訓練,以思維提升帶動熟練度增長,讓學生在每道題中都能吸收營養、迭代能力,做到熟能生巧、巧中帶熟,在攻克難題的過程中實現真正的能力成長。

記者手記

教育的復雜性

從來不是一道可以一鍵求解的方程

近年來,通用大模型在高考中拿高分已從技術奇觀變為常態,輿論熱度雖有減退,但核心追問仍在:AI的高考高分,到底意味著什么?是機器智力超越人類的佐證,還是教育體系將要顛覆的信號?

要回答這個問題,需先厘清一個關鍵區別:同等分數下,人與AI屬于完全不同的維度。一名考生考出700分,是十二年寒窗、情緒抗壓、知識內化、臨場應變疊加后的成長結果,分數背后是少年的試錯、疲憊、熱愛與取舍,是完整人格支撐下的綜合答卷,它承載著個人命運、家庭期許與人生選擇。而AI拿下同樣的分數,只是算法基于海量題庫、語料數據和答題范式完成的一場概率最優推理——它不知備考之苦、不曉落榜之痛,不懂文字共情,更無升學渴望。這份高分沒有人生重量,只是算力與數據擬合的投影。

因此,一個普遍焦慮應當消解:AI考高分,從不意味著取代學生或淘汰教師。高考試卷中客觀標準化題型,恰好只是大模型更容易發揮優勢的板塊。但高考分數只覆蓋教育的窄切面。真正的教育,要培養的是思辨、共情、創造與價值判斷的完整人格,這些遠非AI所能觸及。

拋開考場上的噱頭,AI高考高分真正的社會價值,指向的是普惠教育的補位,而非人機競技。長期以來,國內教育的一大痛點是資源不均衡:城鄉師資斷層、區域教研差距、個體培優成本極高。經過應試打磨的大模型,其核心價值便是填補這一空白——全天候陪伴耐心答疑、一對一錯題復盤、個性化輔導方案、精準學情研判,讓優質教育資源觸達更多覆蓋不到的地方。

但與此同時,必須警惕一種風險:不要讓教育因AI擅長應試而向機器靠攏,不可讓教學淪為純粹的標準化訓練。教育的復雜性,從來不是一道可以一鍵求解的方程——知識遞進有其內在階梯,課堂組織需要靈活應變,學生差異要求因材施教,師生之間的信任與成長更是一天天累積的結果。AI不是來簡化這種復雜性的,而是幫助每一位教師、每一個學生,在這種復雜中找到屬于自己的節奏和路徑。

大模型的高考成績單,不是為了證明機器比人更聰明,而是提醒我們:教育真正的火種,永遠在人的手里——在教師的每一次點撥里,在學生的每一次頓悟中,在技術服務于人的每一個溫暖瞬間。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本海上保安廳也來,臺東這場兩岸對峙,徹底撕開誰在攪局的底牌

日本海上保安廳也來,臺東這場兩岸對峙,徹底撕開誰在攪局的底牌

燈光玄幻天天看
2026-06-25 12:20:15
安徽“泥水父親”報喜:女兒考了500多分,超過本科線,很滿意

安徽“泥水父親”報喜:女兒考了500多分,超過本科線,很滿意

極目新聞
2026-06-25 12:20:08
山西沁源縣委原書記李丁夫主動投案,此前煤礦爆炸事故致82死

山西沁源縣委原書記李丁夫主動投案,此前煤礦爆炸事故致82死

上觀新聞
2026-06-24 20:56:11
日本突發6.9級地震!

日本突發6.9級地震!

最江陰
2026-06-25 08:56:41
18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

不似少年游
2026-05-21 14:26:19
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
港股內銀股午后跌幅擴大

港股內銀股午后跌幅擴大

每日經濟新聞
2026-06-25 14:16:07
2026年最強反腐來了!中紀委:害群之馬將清除到底!

2026年最強反腐來了!中紀委:害群之馬將清除到底!

職場資深秘書
2026-06-24 15:35:08
A股:今天,周四,股市情況不太對勁,行情或開始加速了!

A股:今天,周四,股市情況不太對勁,行情或開始加速了!

明心
2026-06-25 11:46:12
韓紅求觀眾“走個面兒”,明星們公開喊話“我很空”;你還會走進電影院嗎?

韓紅求觀眾“走個面兒”,明星們公開喊話“我很空”;你還會走進電影院嗎?

搜狐科技
2026-06-24 23:23:59
對俄總攻開始?32國接到通知,德國已介入,澤連斯基當眾下死命令

對俄總攻開始?32國接到通知,德國已介入,澤連斯基當眾下死命令

快看張同學
2026-06-23 11:33:13
演員張雨綺直播中自曝“遭男友劉子琪無理由斷崖式分手”,至今不知原因

演員張雨綺直播中自曝“遭男友劉子琪無理由斷崖式分手”,至今不知原因

大風新聞
2026-06-23 12:01:05
強渡烏江英雄因職務不滿離開,毛主席求情:請給他留條生路

強渡烏江英雄因職務不滿離開,毛主席求情:請給他留條生路

123斯蒂芬
2026-06-25 10:55:25
半導體漲停潮,中報業績炸裂?中信預測刷屏!洪灝:大級別調整將至

半導體漲停潮,中報業績炸裂?中信預測刷屏!洪灝:大級別調整將至

金石隨筆
2026-06-25 03:07:47
一場4-2逆轉,摩洛哥仍無緣頭名!淘汰賽對手浮現,日本做好準備

一場4-2逆轉,摩洛哥仍無緣頭名!淘汰賽對手浮現,日本做好準備

侃球熊弟
2026-06-25 08:02:08
我資助3年的男孩考280分,哭著求88萬留學澳洲,我沉默掛斷

我資助3年的男孩考280分,哭著求88萬留學澳洲,我沉默掛斷

曉艾故事匯
2026-06-22 08:32:57
阿爾瓦雷斯祝福梅西:生日快樂,隊長,我們愛你

阿爾瓦雷斯祝福梅西:生日快樂,隊長,我們愛你

懂球帝
2026-06-25 03:33:07
黃子韜剛收到處罰通知,徐藝洋就被曝美國產子,難堪的一幕出現

黃子韜剛收到處罰通知,徐藝洋就被曝美國產子,難堪的一幕出現

老娛記啊
2026-06-25 15:08:50
演員張衛健:被父親打到窒息,兩度喪子后,他做出了最正確的決定

演員張衛健:被父親打到窒息,兩度喪子后,他做出了最正確的決定

飄飄然的娛樂匯
2026-06-24 09:05:09
曝Lisa承認與LV三公子分手!分手原因疑曝光,與美國DJ蹦迪被灌酒

曝Lisa承認與LV三公子分手!分手原因疑曝光,與美國DJ蹦迪被灌酒

林輕吟
2026-06-24 19:37:00
2026-06-25 16:11:00
新浪財經 incentive-icons
新浪財經
新浪財經是一家創建于1999年8月的財經平臺
3779636文章數 8357關注度
往期回顧 全部

教育要聞

很多地方中招都在擴招,以確保大多數孩子都能考上高中!

頭條要聞

0球0助攻 曾經的"亞洲一哥"孫興慜經歷最差一屆世界杯

頭條要聞

0球0助攻 曾經的"亞洲一哥"孫興慜經歷最差一屆世界杯

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

白玉蘭頒獎預測,楊冪勝算大嗎?

財經要聞

財報炸裂!美光讓空頭閉嘴

科技要聞

宇樹機器人大降價

汽車要聞

2027款星途ES 天馬1:11:36背后的實力

態度原創

本地
教育
藝術
數碼
公開課

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

教育要聞

22萬人圍觀AI志愿填報,這背后透露了什么信號?

藝術要聞

2026年第三屆全國大學生美術作品展 油畫選(一)

數碼要聞

AMD發布FSR SDK 2.3:超分辨率、幀生成、光線再生均獲升級

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版