无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

今年高考,我讓12個頂級AI一起考了語文和數(shù)學,結(jié)果有點意外。

0
分享至

  一年一度的高考季又到了。

  從上上周開始,就有很多朋友來問我,今年高考還測不測大模型考試了。

  測,肯定測。

   但是肯定要跟去年要有一些區(qū)別對吧,去年我只測了部分的數(shù)學題,今年要是還這么玩,那就太無聊了。

   所以,我想了想,今年不如整個大一點的活,讓所有的頂級AI一起,來全面的考一下語文和數(shù)學,這兩個,全都考。

   在所有AI都在發(fā)力代碼和Agent能力的情況下,究竟誰的語文能力最高,我還是非常好奇的。

   這次的參賽模型呢,基本市面上主流的大模型我也都拉來了,基本都是大家的旗艦模型。

  國外基本就是大家熟悉的御三家,Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。

  國內(nèi)這邊,我也盡量選了各家現(xiàn)在最能打的。

  千問3.7 max、文心Ernie 5.1、星火Spark X2、智譜GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3這些都有。

   讓這些大模型,一起做了這兩套卷子。

   而我肯定沒有對語文和數(shù)學高考題目閱卷的能力,所以這次,我想了想,找身邊的朋友們化了下緣,終于,也邀請到了4位有過類似閱卷經(jīng)歷的高中老師們,來跟我們一起整這個活。

   因為語文會稍微主觀一點點,并且我們也不像真的高考一樣有一些打分細則,所以我們邀請了3位語文老師來共同閱卷,讓他們充分發(fā)揮,最后取平均分,這樣會公平一點,所以最終是3位語文老師和1位數(shù)學老師。

  

   但是真的非常非常感謝幾位老師,陪我們一直干到了凌晨,每個人幾乎都認真批改了十二份的卷子。。。真的,無以為報。。。

   而卷子的挑選上,雖然也都是選用的全國一卷,這次會稍微有點特殊。

   因為語文這次比較可惜,等到晚上8點也沒有等到完整版的卷子,所以只能最終使用中國考試官方發(fā)布的部分試題和參考答案上進行測試,滿分大概是100分,最終分數(shù)會基于比例,再換算至150分。

  

  數(shù)學則是完整的真題試卷,就比較簡單了。

  

   然后呢,為了保證這次AI高考的公平性,我們還是下了不少功夫做平衡的,限制了不少規(guī)則:

   1. 使用API調(diào)用各個模型,都開thinking,不限制最長的token數(shù),所有的工具調(diào)用都強行禁止,像什么代碼推理、網(wǎng)頁搜索什么的都關(guān)掉了。

   2. 除了訊飛星火、百度,其他10家統(tǒng)一走OpenRouter調(diào)用,這樣可以保證最公平公正。

   3. 模型的輸入,語文和數(shù)學都采取了通過LaTeX格式純文本輸入的方式。

  數(shù)學本來我們打算是分成多模態(tài)和純文本賽道的,但是真題一出來之后,發(fā)現(xiàn)只有一道題,也就是立體幾何那道題帶圖形。但題干其實就完全包含了這個圖形的所有信息,沒有必要,所以就改成了全部都通過LaTeX格式輸入。

  

  雖然PDF轉(zhuǎn)LaTeX格式這一步是AI做的,但是讓它轉(zhuǎn)了之后,我也同樣寫了一個LaTeX編譯器的腳本,它會在左邊放上原本的題目,右邊是LaTeX數(shù)據(jù)編譯后的最終題目,方便我和老師們進行核對,在準確性上,我們還是花了一些力氣的。

  

  然后我們也開發(fā)了一個自己的考試腳本,我們只需要把題目丟進去,腳本就會自動調(diào) API,自動讓模型作答,自動把客觀題判掉,主觀題再送到我搭的在線閱卷平臺里,讓真人老師盲評。

  考試的Prompt按照下面的設(shè)置給模型。

  

  客觀題只是單純限制它的格式輸出,方便我的腳本對客觀題進行打分,不做任何的引導。

  主觀題就直接把裸題給模型丟過去讓他作答。

  以及在數(shù)學的填空題上面,也是讓它根據(jù)數(shù)值打分,不是根據(jù)格式打分。因為填空題容易出現(xiàn),在分數(shù)或者說有根號的情況下,會有不同的寫法,同一個數(shù)值會有不同的寫法。所以這次在腳本中也是有格外注意這一點。

  反正作答上我們盡量確保要公平、公平再公平,客觀、客觀再客觀。

   最后,模型輸出的所有的結(jié)果,我們又開發(fā)了一個閱卷網(wǎng)站,供我們的4位老師們進行閱卷和評分。

  

  老師使用自己的名字,登進去之后,看到的每份卷子上面只有一個代號。卷ABCD巴拉巴拉。

  這樣的話,老師并不知道這道卷子是哪一個模型做的答,也會避免一些前置的刻板印象帶來一些閱卷上的影響。

  老師可以隨意選擇一套卷子開始閱卷,然后里面的打分界面是這樣的。

  直接在里面逐題批改。

  

   還可以寫上自己的評語。

  

   真的,老師們特別辛苦,因為語文的卷子遲遲不出最終版,所以我們最后只能用部分版來考試,幾位老師都生生的閱卷到晚上11點以后了。

  

   向老師們致敬。

   最后,在經(jīng)歷了將近12個小時的奮戰(zhàn)之后,我們的12位大模型的考試分數(shù),終于出爐了。

   他們,是這樣的。

   這里我提前疊個甲,這個分數(shù)和排名,只是我們基于自己的體系做題出來并且由老師們主觀評選出來的,而且只跟語文和數(shù)學做題有關(guān),跟大家現(xiàn)在討論的代碼和Agnet能力無關(guān),且可能會展示部分的人類偏好,排名與分數(shù)僅供娛樂參考,不代表任何指向。

  

  這里面有幾個讓我挺意外的地方。

  先看總分,第一名MiMo v2.5 Pro,256.3分。第二名Kimi k2.6,256.29分。

  差了0.01分。

  MiMo比Kimi語文少了1分,Kimi數(shù)學比MiMo多了1分。。。

  要知道我們測評的語文卷子只有一道客觀選擇題,其他全是主觀題,再加上有作文的存在,換算到實際評分上,可能就是某位語文老師在某道主觀題上多給了1分的區(qū)別。

  往下看從第三名到第九名,Claude Opus 4.8,一直到GLM 5.1和Gemini 3.1 Pro并列的252.78,7個模型之間的差距僅僅在2分。

  可以說,至少在這兩套高考卷子上的表現(xiàn),前面這9個頂級的AI大模型模型幾乎真的都拉不開差距了,分差極小。

  看完了總分,再來看看單科的成績。

  你會發(fā)現(xiàn),我們的語文狀元在3位老師盲測中,由GLM5.1和Gemini 3.1 Pro共同摘奪桂冠,但是在數(shù)學上又有點偏科,而且?guī)缀醵际切值芗绮⒓纾业哪X子里已經(jīng)出現(xiàn)了中學班上某一個同學的樣子了。。。

  反過來的例子也有,DeepSeek V4 Pro,和MiMo、ERNIE 5.1三家并列數(shù)學最高分,但語文又奇低。。。

  坦率的講,這其實不太符合我對DeepSeek強世界知識的印象。

  我把語文的評分單獨拎出來看了下,這里注意一下,因為語文真題目前全部的還沒出來,所以現(xiàn)在用的是部分的題集合成的101分版本,最后折算成150分制的,所以下面你看到的總分其實都是101分制的。

  

   發(fā)現(xiàn)DeepSeek的作文,屬于拉完了。

  

   最后一位老師手比較松,雖然打出的分數(shù)是49分,但是在他過去的打分中,其實也不算高了。

  他們的評語其實也都非常的有意思。

  所以他們一改完卷,我也去認真看了看他們所有的評語。

  其實三位老師從給分上看,是能看出來他們有各自的偏好,但是在他們的評語有一個共同點。

  他們很在意高考作文的可評分結(jié)構(gòu)。

  評語里會高頻出現(xiàn)文體不清,文章結(jié)構(gòu)不夠清晰,觀點不夠清晰明確,論證不充分,時代關(guān)聯(lián)不足等等評語。

  比如這一篇所有模型中得分最高的,由GLM 5.1寫的作文,就有兩位老師都提出了文章結(jié)構(gòu)不夠清晰的毛病。

  

  作文原文我也放在這里了,大家可以在評論區(qū)評一評。

  

   語文大概就是這樣,我們再看看數(shù)學的得分明細。

  

  你會發(fā)現(xiàn)幾乎所有的模型,其實沒啥大的分差。

  我也從數(shù)學老師那里得到了非常積極的反饋,剛改完前面幾個大題,他就在很興奮的跟我說,發(fā)現(xiàn)正確率挺高的,基本都是滿分。

  

  不過唯一一道讓大家全軍覆沒的,就是填空題的最后一題。

  

  懂的人可以來說一說這是個什么難度,反正我不太懂= =

  還有一個有意思的就是,我在讓Opus 4.8跑數(shù)學最后一道大題的時候,他莫名其妙的卡死了很多很多輪。。。

  不太有意思的就是,我忘記它一直在重試,導致我OpenRouter上為數(shù)不多的余額全給耗光了。。。

  

   不過最后好歹還是搞出來了。

   以上,大概就是這次AI高考的結(jié)果,跟我最開始預期的,還真的是有點區(qū)別。

   我又做了一下各家的位置圖,大家可以看看。

  

   真的是情理之中,又是預料之外。

   還挺好玩的。

  忽然又想起,2023年,我第一次拿高考題去測AI。

  當時是讓ChatGPT去寫高考作文。

  

  那會兒GPT-4還是最能打的,國產(chǎn)模型甚至都還沒有幾個。

  2024年,國產(chǎn)也開始卷起來了,但還是有很多哭笑不得的翻車。去年2025那次測完,有幾個模型的數(shù)學水平已經(jīng)夠上一本線了。

  今年是2026。

  四年了。

  也算是見證了那好多好多個模型的浮沉。

  我們自己也在變,23年的時候,只會寫個作文,去年測試,還是人工復制粘貼到十幾個大模型的官網(wǎng)里面去測試,不斷的roll。

  今年,寫批量腳本,寫LaTeX轉(zhuǎn)譯,請高考閱卷老師們助陣,又為他們徒手開發(fā)了閱卷網(wǎng)站。

  我當然也可以隨手測一下整個活,但是想了想,這幾年,在這個選題上,我覺得還是要盡可能的保證客觀和公平。

  因為,這是高考。

  這兩個字,在中國,承載的東西太多也太厚重了。

  做閱卷網(wǎng)站的時候,我一直在糾結(jié)用什么主意象,最后選了鳳凰花。

  六月的鳳凰花開得正盛,每年都準時趕在這個節(jié)點上,送走一屆又一屆的人。

  最后。

  我想用最近一段對我非常有感觸的話來結(jié)尾,它來自《燕云十六聲》最近更新的青州地圖的最后的任務(wù),當一眾學子即將畢業(yè)之時,文津館文元林險生對大家說:

  “你們,自天南地北負笈而來,今日散去,又是去往天南地北,此后山長水遠,很多人將不復相見了。

  此去,必有風霜凜冽之時,愿諸君,乾坤既大,草木尤青,本心擇路,篤志前行。

  各位,一路順風。”

  >/ 作者:卡茲克、tashi

  >/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
向太再曝劉亦菲猛料,難堪一幕重現(xiàn),與陳金飛真實關(guān)系早水落石出

向太再曝劉亦菲猛料,難堪一幕重現(xiàn),與陳金飛真實關(guān)系早水落石出

夢醉為紅顏一笑
2026-06-14 08:58:03
世界杯最猛亞洲隊來了!日本首發(fā)11人全五大聯(lián)賽,實力超越法國

世界杯最猛亞洲隊來了!日本首發(fā)11人全五大聯(lián)賽,實力超越法國

十點體壇
2026-06-13 23:00:16
世界杯官方社媒:蘇格蘭1998年以來首次進球

世界杯官方社媒:蘇格蘭1998年以來首次進球

懂球帝
2026-06-14 10:31:36
餐飲店方親屬勸阻顧客吸煙后不幸死亡,權(quán)威渠道回應:54歲男子在顧客離開飯店后倒地,系心源性猝死,曾做心臟搭橋手術(shù)

餐飲店方親屬勸阻顧客吸煙后不幸死亡,權(quán)威渠道回應:54歲男子在顧客離開飯店后倒地,系心源性猝死,曾做心臟搭橋手術(shù)

極目新聞
2026-06-14 12:59:31
鄢姣,金融監(jiān)管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監(jiān)管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
馬化騰認了!2.2萬億蒸發(fā),股價跌回九年前,騰訊到底做錯了什么

馬化騰認了!2.2萬億蒸發(fā),股價跌回九年前,騰訊到底做錯了什么

金錯刀
2026-06-14 07:33:15
大變天!亞洲球隊閃耀世界杯:3戰(zhàn)歐洲隊同時不敗,壓力給到日本

大變天!亞洲球隊閃耀世界杯:3戰(zhàn)歐洲隊同時不敗,壓力給到日本

侃球熊弟
2026-06-14 13:57:23
世界杯首場強強對話:1-1!真不像傳統(tǒng)的巴西,安切洛蒂奪冠難了

世界杯首場強強對話:1-1!真不像傳統(tǒng)的巴西,安切洛蒂奪冠難了

侃球熊弟
2026-06-14 07:35:00
貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

ChicMyGeek
2026-06-14 11:03:06
好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

林林先生
2026-06-13 10:25:06
搶在王毅專機起飛前,烏蘭巴托那邊的小動作已經(jīng)擺上桌

搶在王毅專機起飛前,烏蘭巴托那邊的小動作已經(jīng)擺上桌

混沌錄
2026-06-14 00:30:26
國產(chǎn)AI不把用戶當人看!用戶質(zhì)疑智譜:充錢后根本用不了,運營裝死客服群被罵穿

國產(chǎn)AI不把用戶當人看!用戶質(zhì)疑智譜:充錢后根本用不了,運營裝死客服群被罵穿

風向觀察
2026-06-14 12:29:38
大爭議!文班墊腳布倫森未被吹罰逃過禁賽 布倫森布朗教練不滿

大爭議!文班墊腳布倫森未被吹罰逃過禁賽 布倫森布朗教練不滿

醉臥浮生
2026-06-14 10:32:06
1571天,俄烏沖突悄然變局

1571天,俄烏沖突悄然變局

上觀新聞
2026-06-14 06:16:29
墨西哥高管球迷歧視亞裔,不料對方是900萬網(wǎng)紅,為平怒火被開除

墨西哥高管球迷歧視亞裔,不料對方是900萬網(wǎng)紅,為平怒火被開除

譯言
2026-06-14 10:14:58
貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責

細說職場
2026-06-13 12:04:14
偷雞不成蝕把米!以為能“毀掉”董路,沒成想自己先被扒個底朝天

偷雞不成蝕把米!以為能“毀掉”董路,沒成想自己先被扒個底朝天

社會日日鮮
2026-06-13 09:38:13
張雪回應曇花六現(xiàn):我的小心臟受不了!德比斯穩(wěn)如老牛 很有智慧

張雪回應曇花六現(xiàn):我的小心臟受不了!德比斯穩(wěn)如老牛 很有智慧

念洲
2026-06-13 22:36:59
1-0,蘇格蘭守住3分,世界杯C組出線形勢亂了 巴西第三失去主動權(quán)

1-0,蘇格蘭守住3分,世界杯C組出線形勢亂了 巴西第三失去主動權(quán)

替補席看球
2026-06-14 11:07:11
總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

體壇周報
2026-06-14 13:58:15
2026-06-14 14:19:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
536文章數(shù) 668關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發(fā)現(xiàn)問題

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發(fā)現(xiàn)問題

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態(tài)度原創(chuàng)

教育
時尚
房產(chǎn)
本地
數(shù)碼

教育要聞

2026年高考本科分數(shù)線預測!特控線有望下降,今年的考生很幸運

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

本地新聞

AK劉彰邂逅河北南大港濕地

數(shù)碼要聞

金邦推出搖光鉆石RGB內(nèi)存條:DDR5-6000 32G售2399元

無障礙瀏覽 進入關(guān)懷版