无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

學(xué)術(shù)評判中,“AI考官”能被委以重任嗎

0
分享至


圖片來源:AI生成

記者 張夢然

  “AI考官”能評判學(xué)術(shù)背后的思想重量嗎?一項(xiàng)大規(guī)模研究,將當(dāng)前最先進(jìn)的生成式AI推上了學(xué)術(shù)評判的席位。

  英國劍橋大學(xué)領(lǐng)銜的研究團(tuán)隊(duì)讓Claude、ChatGPT等前沿模型,為來自英國三所大學(xué)考試和考核中的761篇本科論文逐一打分。結(jié)果顯示,AI給出的評分與專家評審授予的學(xué)位等級僅僅有約半數(shù)相符。更為嚴(yán)峻的是,這些系統(tǒng)在識別優(yōu)秀的學(xué)術(shù)成果和薄弱的作業(yè)時(shí)屢屢失準(zhǔn),暴露出其對語言形式過度敏感、對學(xué)術(shù)實(shí)質(zhì)把握不足的缺陷。

  這份新近發(fā)布的報(bào)告警示,盡管AI可以在一些閱卷流程中充當(dāng)輔助工具,但若將其推向前臺獨(dú)立裁斷,不僅可能抹殺學(xué)生的個(gè)性才華,更將動搖高等教育賴以維系的信任根基。

  評分模式“掐頭去尾”

  這項(xiàng)名為OpRaise的研究由劍橋大學(xué)心理學(xué)家德博拉·塔爾米博士主持,聯(lián)合曼徹斯特城市大學(xué)、諾丁漢大學(xué)共同完成。研究團(tuán)隊(duì)選取了2022年至2025年間提交的761篇真實(shí)本科論文,涵蓋50個(gè)模塊、87項(xiàng)不同作業(yè),考核形式包括課程作業(yè)、開卷居家考試與監(jiān)考考試。

  接受測試的三種前沿大語言模型分別為Anthropic的Claude Opus4.6、OpenAI的GPT-5.4以及谷歌的Gemini 3 Flash。研究團(tuán)隊(duì)系統(tǒng)性地從評分標(biāo)準(zhǔn)具體性、校準(zhǔn)干預(yù)和評分策略三個(gè)維度調(diào)整指令,甚至為模型提供了完整的評分標(biāo)準(zhǔn)與預(yù)期分?jǐn)?shù)分布,并要求其在給分前逐項(xiàng)解釋評判依據(jù)。即便如此,AI的評分準(zhǔn)確率仍徘徊在35%至65%之間。

  在三所不同的大學(xué)里,AI都表現(xiàn)出明顯的“中心傾向偏差”。它們傾向于給所有作業(yè)打上安全的中等分?jǐn)?shù),在50至60分的區(qū)間,與人類評分最為接近。一篇被人類專家評為75分(一等學(xué)位水平)的優(yōu)秀論文,AI平均會壓低幾分;而一篇被評定為50分的薄弱作品,AI反而會慷慨地拔高幾分,呈現(xiàn)“掐頭去尾”的評分模式。

  更注重形式而非“內(nèi)涵”

  人類閱卷,要基于學(xué)術(shù)推理和學(xué)科洞察再作出判斷,但AI的評分本質(zhì)上依賴統(tǒng)計(jì)預(yù)測。此次所有被測模型,無一例外地對語言特征表現(xiàn)出過度敏感:文章篇幅更長、詞匯范圍更廣、句子結(jié)構(gòu)更復(fù)雜,往往就能獲得更高分?jǐn)?shù)。至于論證是否嚴(yán)謹(jǐn)、證據(jù)是否充分、批判性思維是否到位,則并非其關(guān)注核心。換言之,AI更容易被“漂亮的外表”迷惑,很難穿透文字去掂量學(xué)術(shù)思想的重量。

  這種形式重于內(nèi)容的傾向,帶來了同質(zhì)化風(fēng)險(xiǎn)。研究團(tuán)隊(duì)在不同時(shí)間用同一篇論文反復(fù)測試,AI每次給出的分?jǐn)?shù)幾乎紋絲不動。表面上看,這似乎是“一致性高”的優(yōu)點(diǎn),實(shí)則暴露了這些AI在共享同一種機(jī)械邏輯:它們并非在“理解”論文,而是在匹配語言模式。

  而當(dāng)所有模型都呈現(xiàn)相同的評分模式時(shí),學(xué)生的個(gè)性表達(dá)、獨(dú)特的論證路徑、非常規(guī)但富有創(chuàng)見的思考,反而可能被忽略。這種偏見的后果,就導(dǎo)致上文所說的,AI在最重要的評估決策之處,準(zhǔn)確率最低。

  在評語反饋環(huán)節(jié),同樣存在局限。AI生成的評語篇幅通常是人類的3至8倍,團(tuán)隊(duì)于是將AI評語壓縮到與人類評語同等長度后,再交由教職工和學(xué)生辨別作者身份,結(jié)果眾人竟難以區(qū)分。然而一旦揭曉哪段話出自AI之手,參與者對AI評語的認(rèn)可度便明顯下降。這說明,教師與教師之間、教師與學(xué)生之間,那種基于專業(yè)默契和學(xué)科共同體的理解,仍是AI無法取代的。

  人類考官無法被替代

  面對日益繁重的閱卷壓力,不少高校將AI視為緩解教職工負(fù)擔(dān)的潛在方案。塔爾米博士坦言,大學(xué)正承受著削減工作量、提高效率、滿足學(xué)生期望的多重壓力,一些機(jī)構(gòu)已開始考慮讓AI承擔(dān)評估職責(zé)。機(jī)器或許確實(shí)能分擔(dān)部分勞動密集型的閱卷工作,讓教師騰出更多時(shí)間直接指導(dǎo)學(xué)生。但這份題為《AI大學(xué)評估中的應(yīng)用:評估自動評分的機(jī)遇與風(fēng)險(xiǎn)》的報(bào)告強(qiáng)調(diào),最終成績必須始終由人類裁定,AI至多只能充當(dāng)“第二雙眼睛”,用于錯(cuò)誤檢測、一致性檢查,或是標(biāo)記出AI評分與人工評分差異顯著的作業(yè),提請人類重點(diǎn)復(fù)核。

  學(xué)術(shù)評估的意義,遠(yuǎn)不止于技術(shù)層面的打分。塔爾米博士指出,評估是構(gòu)建教育意義的過程,它讓學(xué)生感到被重視,維護(hù)學(xué)術(shù)標(biāo)準(zhǔn),維系師生之間的信任。

  曼徹斯特城市大學(xué)的報(bào)告合著者雅埃爾·本恩博士補(bǔ)充道,許多學(xué)生明確表示,若得知作業(yè)由AI打分,會產(chǎn)生強(qiáng)烈的被欺騙感;教職員工也認(rèn)為,過度依賴機(jī)器可能侵蝕到專業(yè)判斷,并“抽走”了高等教育作為核心的人性化。師生之間圍繞評分與反饋形成的默契與期待,本質(zhì)上是一種“社會契約”,它的存續(xù)有賴于人對人的認(rèn)可與回應(yīng)。

  這份報(bào)告并沒有否定AI在教育領(lǐng)域的價(jià)值,而是為其劃定了清晰的邊界:AI絕不能取代“考官席”上的那雙受過專業(yè)訓(xùn)練的眼睛。在學(xué)術(shù)質(zhì)量的裁斷場,人類的推理、經(jīng)驗(yàn)與責(zé)任感,至今仍是無法被算法替代的最后防線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
扎心啊!女方直言不愿婚后成家中免費(fèi)保姆,被男友怒斥是“巨嬰”

扎心啊!女方直言不愿婚后成家中免費(fèi)保姆,被男友怒斥是“巨嬰”

另子維愛讀史
2026-06-12 19:47:35
重慶一男子帶茅臺乘高鐵被安檢攔下,3分鐘內(nèi)豪飲整瓶,妻子回應(yīng):丈夫酒量尚可,喝完有點(diǎn)微醺,下車后又與朋友繼續(xù)喝酒

重慶一男子帶茅臺乘高鐵被安檢攔下,3分鐘內(nèi)豪飲整瓶,妻子回應(yīng):丈夫酒量尚可,喝完有點(diǎn)微醺,下車后又與朋友繼續(xù)喝酒

瀟湘晨報(bào)
2026-06-12 16:20:20
金價(jià)跌破900元大關(guān),記者實(shí)探:金店生意火爆,有人連續(xù)一個(gè)月抄底失敗

金價(jià)跌破900元大關(guān),記者實(shí)探:金店生意火爆,有人連續(xù)一個(gè)月抄底失敗

上觀新聞
2026-06-12 06:21:45
否決金球先生?皇馬36小時(shí)閃簽B席,一場靜默的戰(zhàn)術(shù)革命!

否決金球先生?皇馬36小時(shí)閃簽B席,一場靜默的戰(zhàn)術(shù)革命!

落夜足球
2026-06-12 13:49:58
最新!6月16日上午蕪湖全市交通管制、軌道交通1號線停運(yùn)45分鐘

最新!6月16日上午蕪湖全市交通管制、軌道交通1號線停運(yùn)45分鐘

最蕪湖
2026-06-12 17:36:18
美銀:預(yù)計(jì)美聯(lián)儲將放棄寬松傾向 并暗示今年不降息

美銀:預(yù)計(jì)美聯(lián)儲將放棄寬松傾向 并暗示今年不降息

財(cái)聯(lián)社
2026-06-12 22:32:12
官方:前葡萄牙國腳安德烈-席爾瓦自由身回歸波爾圖

官方:前葡萄牙國腳安德烈-席爾瓦自由身回歸波爾圖

懂球帝
2026-06-12 20:32:07
A股:股民要系好安全帶,主力已經(jīng)明牌了,周五將要迎來新的變盤

A股:股民要系好安全帶,主力已經(jīng)明牌了,周五將要迎來新的變盤

虎哥閑聊
2026-06-12 00:00:06
男人對一個(gè)女人最大的尊重,是想睡她

男人對一個(gè)女人最大的尊重,是想睡她

加油丁小文
2026-06-12 05:00:04
男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

品讀時(shí)刻
2026-06-11 09:04:59
《異度之刃》NS2升級大小翻倍!性能強(qiáng)大 畫面不妥協(xié)

《異度之刃》NS2升級大小翻倍!性能強(qiáng)大 畫面不妥協(xié)

游民星空
2026-06-12 21:12:47
美國男足2026世界杯新球衣公布

美國男足2026世界杯新球衣公布

體壇周報(bào)
2026-06-12 21:45:14
扎心啊!女方直言不愿婚后成家中免費(fèi)保姆,被男友怒斥是“巨嬰”

扎心啊!女方直言不愿婚后成家中免費(fèi)保姆,被男友怒斥是“巨嬰”

火山詩話
2026-06-12 06:43:48
姆巴佩伊萬卡十指緊扣熱戀?放大照片我笑出了聲

姆巴佩伊萬卡十指緊扣熱戀?放大照片我笑出了聲

綠茵八卦君
2026-06-10 11:40:03
世界杯大戲今晚正式開打,梅西C羅再次登場,或迎來終極絕唱

世界杯大戲今晚正式開打,梅西C羅再次登場,或迎來終極絕唱

長星寄明月
2026-06-12 18:14:42
NBA頂碗大媽演出費(fèi)曝光!每場6765美元 主辦方提供至少四星酒店

NBA頂碗大媽演出費(fèi)曝光!每場6765美元 主辦方提供至少四星酒店

羅說NBA
2026-06-12 05:53:52
網(wǎng)紅董赤赤栽了:1300萬粉絲、54萬債務(wù),她的結(jié)局比想象中慘得多

網(wǎng)紅董赤赤栽了:1300萬粉絲、54萬債務(wù),她的結(jié)局比想象中慘得多

橙星文娛
2026-06-03 11:31:20
“鵝腿阿姨”微信賬號解封

“鵝腿阿姨”微信賬號解封

三言科技
2026-06-12 21:42:11
15年老片突然登頂HBO Max,我盯著播放鍵愣住了

15年老片突然登頂HBO Max,我盯著播放鍵愣住了

渡川5
2026-06-11 23:08:40
2026擴(kuò)招最猛的公辦本科出現(xiàn)了!擴(kuò)招數(shù)量已突破2000人!適合撿漏

2026擴(kuò)招最猛的公辦本科出現(xiàn)了!擴(kuò)招數(shù)量已突破2000人!適合撿漏

高三倒計(jì)時(shí)
2026-06-12 17:22:18
2026-06-13 00:47:00
中國高新
中國高新
中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)官方賬號
630文章數(shù) 7關(guān)注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現(xiàn)空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現(xiàn)空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個(gè)瓜,肖戰(zhàn)熱巴最意外

財(cái)經(jīng)要聞

萬億美元順差背后,透露這些信號

汽車要聞

標(biāo)配激光雷達(dá)/雙動力可選 昊鉑S600限時(shí)售17.99萬起

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
教育
時(shí)尚

家居要聞

空間微調(diào) 移形換境

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

教育要聞

家長成了“瘋女人”,被女兒作業(yè)搞崩潰,網(wǎng)友:太真實(shí)

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎(chǔ)色,高級亮眼

無障礙瀏覽 進(jìn)入關(guān)懷版