一年一度的高考季又到了。
從上上周開始,就有很多朋友來問我,今年高考還測不測大模型考試了。
測,肯定測。
但是肯定要跟去年要有一些區(qū)別對吧,去年我只測了部分的數(shù)學題,今年要是還這么玩,那就太無聊了。
所以,我想了想,今年不如整個大一點的活,讓所有的頂級AI一起,來全面的考一下語文和數(shù)學,這兩個,全都考。
在所有AI都在發(fā)力代碼和Agent能力的情況下,究竟誰的語文能力最高,我還是非常好奇的。
這次的參賽模型呢,基本市面上主流的大模型我也都拉來了,基本都是大家的旗艦模型。
國外基本就是大家熟悉的御三家,Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。
國內(nèi)這邊,我也盡量選了各家現(xiàn)在最能打的。
千問3.7 max、文心Ernie 5.1、星火Spark X2、智譜GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3這些都有。
讓這些大模型,一起做了這兩套卷子。
而我肯定沒有對語文和數(shù)學高考題目閱卷的能力,所以這次,我想了想,找身邊的朋友們化了下緣,終于,也邀請到了4位有過類似閱卷經(jīng)歷的高中老師們,來跟我們一起整這個活。
因為語文會稍微主觀一點點,并且我們也不像真的高考一樣有一些打分細則,所以我們邀請了3位語文老師來共同閱卷,讓他們充分發(fā)揮,最后取平均分,這樣會公平一點,所以最終是3位語文老師和1位數(shù)學老師。
![]()
但是真的非常非常感謝幾位老師,陪我們一直干到了凌晨,每個人幾乎都認真批改了十二份的卷子。。。真的,無以為報。。。
而卷子的挑選上,雖然也都是選用的全國一卷,這次會稍微有點特殊。
因為語文這次比較可惜,等到晚上8點也沒有等到完整版的卷子,所以只能最終使用中國考試官方發(fā)布的部分試題和參考答案上進行測試,滿分大概是100分,最終分數(shù)會基于比例,再換算至150分。
![]()
數(shù)學則是完整的真題試卷,就比較簡單了。
![]()
然后呢,為了保證這次AI高考的公平性,我們還是下了不少功夫做平衡的,限制了不少規(guī)則:
1. 使用API調(diào)用各個模型,都開thinking,不限制最長的token數(shù),所有的工具調(diào)用都強行禁止,像什么代碼推理、網(wǎng)頁搜索什么的都關(guān)掉了。
2. 除了訊飛星火、百度,其他10家統(tǒng)一走OpenRouter調(diào)用,這樣可以保證最公平公正。
3. 模型的輸入,語文和數(shù)學都采取了通過LaTeX格式純文本輸入的方式。
數(shù)學本來我們打算是分成多模態(tài)和純文本賽道的,但是真題一出來之后,發(fā)現(xiàn)只有一道題,也就是立體幾何那道題帶圖形。但題干其實就完全包含了這個圖形的所有信息,沒有必要,所以就改成了全部都通過LaTeX格式輸入。
![]()
雖然PDF轉(zhuǎn)LaTeX格式這一步是AI做的,但是讓它轉(zhuǎn)了之后,我也同樣寫了一個LaTeX編譯器的腳本,它會在左邊放上原本的題目,右邊是LaTeX數(shù)據(jù)編譯后的最終題目,方便我和老師們進行核對,在準確性上,我們還是花了一些力氣的。
![]()
然后我們也開發(fā)了一個自己的考試腳本,我們只需要把題目丟進去,腳本就會自動調(diào) API,自動讓模型作答,自動把客觀題判掉,主觀題再送到我搭的在線閱卷平臺里,讓真人老師盲評。
考試的Prompt按照下面的設(shè)置給模型。
![]()
客觀題只是單純限制它的格式輸出,方便我的腳本對客觀題進行打分,不做任何的引導。
主觀題就直接把裸題給模型丟過去讓他作答。
以及在數(shù)學的填空題上面,也是讓它根據(jù)數(shù)值打分,不是根據(jù)格式打分。因為填空題容易出現(xiàn),在分數(shù)或者說有根號的情況下,會有不同的寫法,同一個數(shù)值會有不同的寫法。所以這次在腳本中也是有格外注意這一點。
反正作答上我們盡量確保要公平、公平再公平,客觀、客觀再客觀。
最后,模型輸出的所有的結(jié)果,我們又開發(fā)了一個閱卷網(wǎng)站,供我們的4位老師們進行閱卷和評分。
![]()
老師使用自己的名字,登進去之后,看到的每份卷子上面只有一個代號。卷ABCD巴拉巴拉。
這樣的話,老師并不知道這道卷子是哪一個模型做的答,也會避免一些前置的刻板印象帶來一些閱卷上的影響。
老師可以隨意選擇一套卷子開始閱卷,然后里面的打分界面是這樣的。
直接在里面逐題批改。
![]()
還可以寫上自己的評語。
![]()
真的,老師們特別辛苦,因為語文的卷子遲遲不出最終版,所以我們最后只能用部分版來考試,幾位老師都生生的閱卷到晚上11點以后了。
![]()
向老師們致敬。
最后,在經(jīng)歷了將近12個小時的奮戰(zhàn)之后,我們的12位大模型的考試分數(shù),終于出爐了。
他們,是這樣的。
這里我提前疊個甲,這個分數(shù)和排名,只是我們基于自己的體系做題出來并且由老師們主觀評選出來的,而且只跟語文和數(shù)學做題有關(guān),跟大家現(xiàn)在討論的代碼和Agnet能力無關(guān),且可能會展示部分的人類偏好,排名與分數(shù)僅供娛樂參考,不代表任何指向。
![]()
這里面有幾個讓我挺意外的地方。
先看總分,第一名MiMo v2.5 Pro,256.3分。第二名Kimi k2.6,256.29分。
差了0.01分。
MiMo比Kimi語文少了1分,Kimi數(shù)學比MiMo多了1分。。。
要知道我們測評的語文卷子只有一道客觀選擇題,其他全是主觀題,再加上有作文的存在,換算到實際評分上,可能就是某位語文老師在某道主觀題上多給了1分的區(qū)別。
往下看從第三名到第九名,Claude Opus 4.8,一直到GLM 5.1和Gemini 3.1 Pro并列的252.78,7個模型之間的差距僅僅在2分。
可以說,至少在這兩套高考卷子上的表現(xiàn),前面這9個頂級的AI大模型模型幾乎真的都拉不開差距了,分差極小。
看完了總分,再來看看單科的成績。
你會發(fā)現(xiàn),我們的語文狀元在3位老師盲測中,由GLM5.1和Gemini 3.1 Pro共同摘奪桂冠,但是在數(shù)學上又有點偏科,而且?guī)缀醵际切值芗绮⒓纾业哪X子里已經(jīng)出現(xiàn)了中學班上某一個同學的樣子了。。。
反過來的例子也有,DeepSeek V4 Pro,和MiMo、ERNIE 5.1三家并列數(shù)學最高分,但語文又奇低。。。
坦率的講,這其實不太符合我對DeepSeek強世界知識的印象。
我把語文的評分單獨拎出來看了下,這里注意一下,因為語文真題目前全部的還沒出來,所以現(xiàn)在用的是部分的題集合成的101分版本,最后折算成150分制的,所以下面你看到的總分其實都是101分制的。
![]()
發(fā)現(xiàn)DeepSeek的作文,屬于拉完了。
![]()
最后一位老師手比較松,雖然打出的分數(shù)是49分,但是在他過去的打分中,其實也不算高了。
他們的評語其實也都非常的有意思。
所以他們一改完卷,我也去認真看了看他們所有的評語。
其實三位老師從給分上看,是能看出來他們有各自的偏好,但是在他們的評語有一個共同點。
他們很在意高考作文的可評分結(jié)構(gòu)。
評語里會高頻出現(xiàn)文體不清,文章結(jié)構(gòu)不夠清晰,觀點不夠清晰明確,論證不充分,時代關(guān)聯(lián)不足等等評語。
比如這一篇所有模型中得分最高的,由GLM 5.1寫的作文,就有兩位老師都提出了文章結(jié)構(gòu)不夠清晰的毛病。
![]()
作文原文我也放在這里了,大家可以在評論區(qū)評一評。
![]()
語文大概就是這樣,我們再看看數(shù)學的得分明細。
![]()
你會發(fā)現(xiàn)幾乎所有的模型,其實沒啥大的分差。
我也從數(shù)學老師那里得到了非常積極的反饋,剛改完前面幾個大題,他就在很興奮的跟我說,發(fā)現(xiàn)正確率挺高的,基本都是滿分。
![]()
不過唯一一道讓大家全軍覆沒的,就是填空題的最后一題。
![]()
懂的人可以來說一說這是個什么難度,反正我不太懂= =
還有一個有意思的就是,我在讓Opus 4.8跑數(shù)學最后一道大題的時候,他莫名其妙的卡死了很多很多輪。。。
不太有意思的就是,我忘記它一直在重試,導致我OpenRouter上為數(shù)不多的余額全給耗光了。。。
![]()
不過最后好歹還是搞出來了。
以上,大概就是這次AI高考的結(jié)果,跟我最開始預期的,還真的是有點區(qū)別。
我又做了一下各家的位置圖,大家可以看看。
![]()
真的是情理之中,又是預料之外。
還挺好玩的。
忽然又想起,2023年,我第一次拿高考題去測AI。
當時是讓ChatGPT去寫高考作文。
![]()
那會兒GPT-4還是最能打的,國產(chǎn)模型甚至都還沒有幾個。
2024年,國產(chǎn)也開始卷起來了,但還是有很多哭笑不得的翻車。去年2025那次測完,有幾個模型的數(shù)學水平已經(jīng)夠上一本線了。
今年是2026。
四年了。
也算是見證了那好多好多個模型的浮沉。
我們自己也在變,23年的時候,只會寫個作文,去年測試,還是人工復制粘貼到十幾個大模型的官網(wǎng)里面去測試,不斷的roll。
今年,寫批量腳本,寫LaTeX轉(zhuǎn)譯,請高考閱卷老師們助陣,又為他們徒手開發(fā)了閱卷網(wǎng)站。
我當然也可以隨手測一下整個活,但是想了想,這幾年,在這個選題上,我覺得還是要盡可能的保證客觀和公平。
因為,這是高考。
這兩個字,在中國,承載的東西太多也太厚重了。
做閱卷網(wǎng)站的時候,我一直在糾結(jié)用什么主意象,最后選了鳳凰花。
六月的鳳凰花開得正盛,每年都準時趕在這個節(jié)點上,送走一屆又一屆的人。
最后。
我想用最近一段對我非常有感觸的話來結(jié)尾,它來自《燕云十六聲》最近更新的青州地圖的最后的任務(wù),當一眾學子即將畢業(yè)之時,文津館文元林險生對大家說:
“你們,自天南地北負笈而來,今日散去,又是去往天南地北,此后山長水遠,很多人將不復相見了。
此去,必有風霜凜冽之時,愿諸君,乾坤既大,草木尤青,本心擇路,篤志前行。
各位,一路順風。”
>/ 作者:卡茲克、tashi
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.