2.6萬名中國學(xué)生用AI寫作業(yè)30個月后，成績單驚現(xiàn)恐怖倒掛：考試分?jǐn)?shù)暴跌24%

2026-06-24 14:45:29　來源: 紫京講談

北京舉報

分享至

導(dǎo)讀
一項追蹤26,811名中國中學(xué)生長達(dá)30個月的實證研究揭開了AI教育最血腥的真相：用聊天機(jī)器人寫作業(yè)后，作業(yè)分?jǐn)?shù)漲了18%、用時少了30%，但禁止AI的閉卷考試中，成績暴跌20%，高利害入學(xué)考試跌幅更達(dá)24%。80%的學(xué)生掉進(jìn)了“認(rèn)知外包”陷阱——作業(yè)高分是假的，真實能力在被系統(tǒng)性掏空。研究作者警告：這可能是整整一代人的認(rèn)知基礎(chǔ)設(shè)施塌方。

▲ 德國社會評論家Marko Kovic用一張圖引爆討論：26,000名中國學(xué)生、30個月面板數(shù)據(jù)、作業(yè)分漲考試分跌的致命倒掛，帖文獲得超1500贊、19萬瀏覽

一張數(shù)據(jù)圖，炸出一場全球教育恐慌

2026年6月15日，德國社會評論家Marko Kovic在X上發(fā)了一條德語帖文。

配圖只有一張數(shù)據(jù)可視化圖表。文字不長，但每一行都在加碼：

“一項大型研究調(diào)查了中國超過26,000名學(xué)生，追蹤他們在30個月內(nèi)開始使用AI聊天機(jī)器人后的成績變化。家庭作業(yè)成績提高了約20%。完成時間減少了約20%。這很棒。”

“但是：在禁止使用AI的考試中，他們的成績下降了約20%。”

"這是巨大的惡化。"

帖文最后一句直接引爆：“如果整整一代人比前幾代人更少學(xué)會獨立思考，會發(fā)生什么？”

48小時內(nèi)，這條帖文拿下1500多贊、近500次轉(zhuǎn)發(fā)、19萬瀏覽。德語圈、英語圈、中文圈同步炸鍋。計算器類比的攻防戰(zhàn)、理性人陷阱的哲學(xué)辯論、dystopian教育未來的末日預(yù)言，在回復(fù)樹里吵成一團(tuán)。

但這次的數(shù)據(jù)，不是實驗室小樣本模擬。它來自中國真實課堂。

▲ CEPR官方論文DP21577摘要頁——經(jīng)濟(jì)學(xué)頂級研究機(jī)構(gòu)的權(quán)威背書，26,811人、30個月、DiD因果識別，每一個數(shù)字都有面板數(shù)據(jù)支撐

18%漲、30%省、20%跌：三組數(shù)字講完一個殘酷故事

這篇引爆全球討論的論文來自斯德哥爾摩大學(xué)David Str?mberg、香港大學(xué)Victor Lei和Yanhui Wu。2026年6月2日由歐洲經(jīng)濟(jì)政策研究中心（CEPR）以DP21577編號正式發(fā)布，標(biāo)題直接點題：《生成式AI的學(xué)習(xí)懲罰：來自中國中學(xué)教育的證據(jù)》。

研究追蹤了26,811名中國7至12年級學(xué)生，橫跨9個科目，數(shù)據(jù)覆蓋整整30個月——整整兩年半的真實學(xué)業(yè)軌跡，遠(yuǎn)非實驗室里幾周小樣本可比。

他們用了雙重差分法（difference-in-differences），利用不同學(xué)生/班級/學(xué)校接觸AI聊天機(jī)器人的時間差作為自然實驗，同時觀測三類結(jié)果：

作業(yè)端（有AI輔助）：分?jǐn)?shù)上升18%，完成時間下降30%。

月考端（無AI，閉卷）：六個月內(nèi)分?jǐn)?shù)下降20%。

入學(xué)考端（高利害，禁AI）：高中/大學(xué)入學(xué)考試分?jǐn)?shù)下跌18%至24%，完整懲罰需要兩年才完全顯現(xiàn)。

作業(yè)越做越快越做越好，但一旦拿走AI，底褲就掉了。

不是“暫時不適應(yīng)”。兩年滯后懲罰說明，這不是臨場緊張或短期遺忘——是知識的“復(fù)利效應(yīng)”被從根部切斷了。

▲ CEPR官方藍(lán)V賬號發(fā)布論文公告，附完整標(biāo)題、作者機(jī)構(gòu)、核心數(shù)據(jù)圖表，學(xué)術(shù)權(quán)威機(jī)構(gòu)的背書讓這場討論無法被輕易打發(fā)為“危言聳聽”

80%的學(xué)生，踩進(jìn)了同一個坑

論文里真正有殺傷力的發(fā)現(xiàn)藏在分布里，不在平均值上。

研究者通過“作業(yè)完成時間異常短 + 作業(yè)分?jǐn)?shù)異常高”的行為模式，區(qū)分了兩類AI用戶：一類把AI當(dāng)導(dǎo)師用，保留獨立思考過程；另一類直接把AI輸出復(fù)制提交——認(rèn)知外包（cognitive offloading）。

結(jié)果觸目驚心：約80%的AI使用者屬于“外包型”。學(xué)習(xí)損失幾乎全部集中在這群人身上。而維持與未使用AI時相似完成時間的少數(shù)學(xué)生，考試損失很小或接近零。

更扎心的是異質(zhì)性分布：

社會科學(xué)科目損失最大，其次STEM、語言科目；
初中階段受影響更嚴(yán)重；
高學(xué)業(yè)成就學(xué)生和男生損失尤其顯著——那些原本最會學(xué)習(xí)的人，反而被AI傷得最深。

一個曾經(jīng)靠刷題把概念焊進(jìn)肌肉記憶的學(xué)霸，現(xiàn)在AI給他更“完美”的答案和范文，作業(yè)分更高，省下時間搞競賽。但月考出現(xiàn)了從沒見過的變式題，需要自己組織語言——不會了。以前的熟練是真的，現(xiàn)在的熟練是假的。

▲ BBC中文2025年底深度報道：MIT腦電實驗、牛津調(diào)查、UCL教授觀點——AI輔助讓“成績更好，但實際學(xué)得更差”的現(xiàn)象不只在中國學(xué)生身上出現(xiàn)

腦電波不會說謊：認(rèn)知加工正在被“跳過”

BBC中文在2025年底做過一篇長報道，標(biāo)題直問：“AI指令是否正在損害你的思考能力？”

MIT一項EEG實驗讓54名大學(xué)生用ChatGPT寫論文，同時佩戴腦電圖帽。結(jié)果揭示了一個扎心事實：使用ChatGPT時，負(fù)責(zé)認(rèn)知處理的腦網(wǎng)絡(luò)活動顯著下降。更尷尬的是事后——這些學(xué)生無法像未用AI的同學(xué)那樣，輕松回憶和引用“自己”論文的內(nèi)容。

卡內(nèi)基梅隆和微軟的聯(lián)合研究（319名白領(lǐng)）補(bǔ)充了成人世界的證據(jù)：對AI工具完成任務(wù)的信心越高，投入的批判性思考努力就越少。信得越多，想得越少。

牛津大學(xué)出版社同期調(diào)查：60%的學(xué)童認(rèn)為AI對學(xué)習(xí)技能產(chǎn)生了負(fù)面影響，但90%承認(rèn)AI至少幫了某方面。約25%覺得“完成作業(yè)太容易了”。

UCL教授Wayne Holmes的評論最刺耳：“他們的成績更好，但實際上學(xué)得更差。”

這次中國26,000人的面板數(shù)據(jù)，像是給所有這些碎片化信號做了一次全身體檢——從作業(yè)到月考到升學(xué)考，從初中到高中到各學(xué)科，用30個月的真實軌跡，把“AI學(xué)習(xí)懲罰”從猜測變成了可量化的因果事實。

▲ 中文X用戶幾乎逐字復(fù)述了研究核心參數(shù)與異質(zhì)性，這組數(shù)據(jù)已出現(xiàn)在中文公開討論中——“中國學(xué)生真實數(shù)據(jù)”直接擺在所有討論者面前

“為什么不？”——一個讓所有說教失效的理性選擇

Marko Kovic在他的Substack長文《KI ruiniert Bildung》（AI正在毀掉教育）里，用一個經(jīng)濟(jì)學(xué)框架解釋了為什么80%的學(xué)生會滑向外包。

人類同時具備兩種理性：認(rèn)識理性（epistemic rationality）——追求真理和真實理解；工具理性（instrumental rationality）——用最短路徑達(dá)成目標(biāo)。

在教育場景中，學(xué)生面對的即時、可量化的目標(biāo)是“完成作業(yè)、拿高分”。AI提供了一個前所未有的低阻力工具。而真正的教育目標(biāo)——構(gòu)建可遷移的獨立思考能力——滯后、抽象、無法在每次作業(yè)上獲得即時獎勵。

當(dāng)同桌在用AI 30秒出答案拿高分，你花2小時自己寫拿同樣的分，“獨立思考”在排名體系里沒有任何加分。

問題根源是激勵結(jié)構(gòu)本身，跟道德覺悟沒什么關(guān)系。個體工具理性的最優(yōu)解，在群體層面通向一個更差的長期均衡。

Bloom經(jīng)典的“2 Sigma問題”曾暢想：一對一輔導(dǎo)平均能帶來約2個標(biāo)準(zhǔn)差的學(xué)業(yè)提升。AI本有可能規(guī)模化解決“個性化導(dǎo)師太貴”的歷史難題。但現(xiàn)實是，它變成了規(guī)模化“解題外包機(jī)器”。

研究里一個被反復(fù)引用的類比是計算器。但反駁也很鋒利：計算器通常是在多年手算建立數(shù)感之后才引入，AI卻是在概念形成的關(guān)鍵期被大量自由使用；計算器只代勞“計算”環(huán)節(jié)，AI能一鍵輸出完整證明、作文和分析框架。

▲ 中國教育和科研計算機(jī)網(wǎng)早在2023年兩會期間就討論過AI對教育的雙刃劍效應(yīng)——賦能與作弊風(fēng)險并存，與本次實證形成跨年呼應(yīng)

北京既是試驗場，也是預(yù)警雷達(dá)

中國是AI+教育全球最激進(jìn)的試驗場之一。國家層面大力推動“人工智能+基礎(chǔ)教育”，云平臺一鍵下發(fā)作業(yè)、練習(xí)次數(shù)與掌握率節(jié)節(jié)攀升。與此同時，兩會代表自2023年起反復(fù)警示：AI能寫作業(yè)、論文、演講稿，同時也為抄襲作弊打開了最方便的大門。

這種雙重性，恰好印證了本次研究的制度背景：選拔壓力大、AI速度快、傳統(tǒng)“閉卷獨立完成”評估范式仍在主導(dǎo)。

中國教育和科研計算機(jī)網(wǎng)（edu.cn）的專題曾記錄：華東師范大學(xué)等機(jī)構(gòu)討論“要不要封ChatGPT”，斯坦福研發(fā)DetectGPT檢測技術(shù)，CNKI上關(guān)于AI學(xué)術(shù)倫理的論文激增。一面是“DeepSeek作業(yè)槍手”的調(diào)侃，一面是“老師用AI抓學(xué)生用AI”的荒誕對弈。

30個月的面板數(shù)據(jù)給出了冰冷答案：在現(xiàn)有激勵結(jié)構(gòu)下，多數(shù)學(xué)生確實選了省力的那條路。而那條路的盡頭，是兩年后發(fā)現(xiàn)曾經(jīng)滾瓜爛熟的知識點已經(jīng)不熟了。

AI本身沒有原罪，默認(rèn)打開方式才是問題

論文作者和評論者并非在喊“禁用AI”。

Bastani等2025年在PNAS發(fā)表的近千名高中生數(shù)學(xué)實驗提供了關(guān)鍵護(hù)欄證據(jù)：當(dāng)AI被設(shè)計為“GPT Base”——可以自由提問、直接要答案時，學(xué)生在練習(xí)環(huán)節(jié)成績大幅領(lǐng)先，但移除AI后的獨立考試成績比從未用過AI的對照組差了約17%。

而當(dāng)同一系統(tǒng)被約束為“GPT Tutor”——只提供教師預(yù)設(shè)提示、不給答案——損害消失，甚至在某些維度接近正面效果。

World Bank在尼日利亞的隨機(jī)對照實驗中，常規(guī)課堂配合6周結(jié)構(gòu)化AI導(dǎo)師，英語成績上升約0.23個標(biāo)準(zhǔn)差。美國Kestin等人的RCT同樣發(fā)現(xiàn)，當(dāng)AI被當(dāng)作“有護(hù)欄的導(dǎo)師”而非“無約束的答案機(jī)”，學(xué)習(xí)增益超過了傳統(tǒng)大班教學(xué)。

AI這個工具本身沒有原罪，有問題的只是默認(rèn)打開方式。消費級聊天機(jī)器人+現(xiàn)有作業(yè)考核=80%外包+系統(tǒng)性學(xué)習(xí)懲罰。護(hù)欄版AI導(dǎo)師+過程可見+評估重構(gòu)=接近正面效果。這兩組公式之間的差距，就是政策該填的坑。

▲ Marko Kovic的Substack長文提供完整分析框架：scaffolding vs offloading、阻力最小路徑、肥尾系統(tǒng)風(fēng)險、Bloom 2 Sigma問題的AI版本

一個“肥尾風(fēng)險”，值得所有成年人認(rèn)真看

Marko在Newsletter里寫了一個讓教育工作者脊背發(fā)涼的數(shù)學(xué)洞察：

個體層面，“一個學(xué)生少學(xué)了一點”聽起來沒什么大不了。但放到人口層面，這種能力稀釋具有乘數(shù)效應(yīng)。決策質(zhì)量、信息判斷、社會創(chuàng)新——這些依賴“世代累積獨立思考能力”的公共品，一旦結(jié)構(gòu)性地衰退，修復(fù)周期以十年計。

教育是代際能力基礎(chǔ)設(shè)施。基礎(chǔ)設(shè)施的維護(hù)不當(dāng)，不會在第一天就塌。但等發(fā)現(xiàn)塌的時候，已經(jīng)塌了很久了。

這輪討論中還有一條尖銳反駁：考試本身不該被改嗎？既然未來工作都用AI，考試禁AI等于測淘汰技能。

研究的回應(yīng)同樣直白：考試的功能不只是“預(yù)測未來工作表現(xiàn)”。它還在向?qū)W生、家長、社會傳遞一個信號——“你已具備獨立掌握某件事的能力”。如果所有中間產(chǎn)品都被外包，這個信號就失真了。最終受損的是學(xué)生進(jìn)入下一階段時的真實準(zhǔn)備度，以及依賴這些信號進(jìn)行選拔和雇傭的整個社會。

評估當(dāng)然需要改革——增加當(dāng)堂完成、口頭答辯、過程檔案、AI使用痕跡可見的項目制考核，降低“可一鍵外包的中間產(chǎn)品”權(quán)重。但“評估改革”和“放任外包”之間，有一條巨大的鴻溝。

沒有一鍵解藥，但有可行動的方向

完全禁止AI不現(xiàn)實，學(xué)生已經(jīng)在用，未來只會更普遍。完全放任等于放棄教育最核心的使命。

可行的方向至少包括這幾條：

評估重構(gòu)：把考核重心從“可外包的課后產(chǎn)品”移到“當(dāng)堂完成、口頭解釋過程、項目制檔案、AI使用痕跡可見”的形式上。

產(chǎn)品設(shè)計分層：教育專用AI必須與消費級聊天機(jī)器人拉開距離——Socratic模式（只追問不直接給答案）、學(xué)習(xí)者儀表盤、教師可追蹤過程。不讓“最省力路徑”成為默認(rèn)設(shè)置。

元認(rèn)知教育：顯性教授“何時該自己掙扎、何時該求助”“AI輸出必須驗證與改寫”。把“使用AI的方式”本身變成可教、可評的內(nèi)容。

正視激勵現(xiàn)實：光靠“要自己思考”的道德呼吁不夠。必須調(diào)整考核權(quán)重和同伴動態(tài)，讓“高質(zhì)量使用”成為理性選擇，而不僅是道德要求。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.