導(dǎo)讀
一項追蹤26,811名中國中學(xué)生長達(dá)30個月的實證研究揭開了AI教育最血腥的真相:用聊天機(jī)器人寫作業(yè)后,作業(yè)分?jǐn)?shù)漲了18%、用時少了30%,但禁止AI的閉卷考試中,成績暴跌20%,高利害入學(xué)考試跌幅更達(dá)24%。80%的學(xué)生掉進(jìn)了“認(rèn)知外包”陷阱——作業(yè)高分是假的,真實能力在被系統(tǒng)性掏空。研究作者警告:這可能是整整一代人的認(rèn)知基礎(chǔ)設(shè)施塌方。
![]()
![]()
![]()
▲ 德國社會評論家Marko Kovic用一張圖引爆討論:26,000名中國學(xué)生、30個月面板數(shù)據(jù)、作業(yè)分漲考試分跌的致命倒掛,帖文獲得超1500贊、19萬瀏覽
一張數(shù)據(jù)圖,炸出一場全球教育恐慌
2026年6月15日,德國社會評論家Marko Kovic在X上發(fā)了一條德語帖文。
配圖只有一張數(shù)據(jù)可視化圖表。文字不長,但每一行都在加碼:
“一項大型研究調(diào)查了中國超過26,000名學(xué)生,追蹤他們在30個月內(nèi)開始使用AI聊天機(jī)器人后的成績變化。家庭作業(yè)成績提高了約20%。完成時間減少了約20%。這很棒。”
“但是:在禁止使用AI的考試中,他們的成績下降了約20%。”
"這是巨大的惡化。"
帖文最后一句直接引爆:“如果整整一代人比前幾代人更少學(xué)會獨立思考,會發(fā)生什么?”
48小時內(nèi),這條帖文拿下1500多贊、近500次轉(zhuǎn)發(fā)、19萬瀏覽。德語圈、英語圈、中文圈同步炸鍋。計算器類比的攻防戰(zhàn)、理性人陷阱的哲學(xué)辯論、dystopian教育未來的末日預(yù)言,在回復(fù)樹里吵成一團(tuán)。
但這次的數(shù)據(jù),不是實驗室小樣本模擬。它來自中國真實課堂。
![]()
▲ CEPR官方論文DP21577摘要頁——經(jīng)濟(jì)學(xué)頂級研究機(jī)構(gòu)的權(quán)威背書,26,811人、30個月、DiD因果識別,每一個數(shù)字都有面板數(shù)據(jù)支撐
18%漲、30%省、20%跌:三組數(shù)字講完一個殘酷故事
這篇引爆全球討論的論文來自斯德哥爾摩大學(xué)David Str?mberg、香港大學(xué)Victor Lei和Yanhui Wu。2026年6月2日由歐洲經(jīng)濟(jì)政策研究中心(CEPR)以DP21577編號正式發(fā)布,標(biāo)題直接點題:《生成式AI的學(xué)習(xí)懲罰:來自中國中學(xué)教育的證據(jù)》。
研究追蹤了26,811名中國7至12年級學(xué)生,橫跨9個科目,數(shù)據(jù)覆蓋整整30個月——整整兩年半的真實學(xué)業(yè)軌跡,遠(yuǎn)非實驗室里幾周小樣本可比。
他們用了雙重差分法(difference-in-differences),利用不同學(xué)生/班級/學(xué)校接觸AI聊天機(jī)器人的時間差作為自然實驗,同時觀測三類結(jié)果:
作業(yè)端(有AI輔助):分?jǐn)?shù)上升18%,完成時間下降30%。
月考端(無AI,閉卷):六個月內(nèi)分?jǐn)?shù)下降20%。
入學(xué)考端(高利害,禁AI):高中/大學(xué)入學(xué)考試分?jǐn)?shù)下跌18%至24%,完整懲罰需要兩年才完全顯現(xiàn)。
作業(yè)越做越快越做越好,但一旦拿走AI,底褲就掉了。
不是“暫時不適應(yīng)”。兩年滯后懲罰說明,這不是臨場緊張或短期遺忘——是知識的“復(fù)利效應(yīng)”被從根部切斷了。
![]()
![]()
▲ CEPR官方藍(lán)V賬號發(fā)布論文公告,附完整標(biāo)題、作者機(jī)構(gòu)、核心數(shù)據(jù)圖表,學(xué)術(shù)權(quán)威機(jī)構(gòu)的背書讓這場討論無法被輕易打發(fā)為“危言聳聽”
80%的學(xué)生,踩進(jìn)了同一個坑
論文里真正有殺傷力的發(fā)現(xiàn)藏在分布里,不在平均值上。
研究者通過“作業(yè)完成時間異常短 + 作業(yè)分?jǐn)?shù)異常高”的行為模式,區(qū)分了兩類AI用戶:一類把AI當(dāng)導(dǎo)師用,保留獨立思考過程;另一類直接把AI輸出復(fù)制提交——認(rèn)知外包(cognitive offloading)。
結(jié)果觸目驚心:約80%的AI使用者屬于“外包型”。學(xué)習(xí)損失幾乎全部集中在這群人身上。而維持與未使用AI時相似完成時間的少數(shù)學(xué)生,考試損失很小或接近零。
更扎心的是異質(zhì)性分布:
- 社會科學(xué)科目損失最大,其次STEM、語言科目;
- 初中階段受影響更嚴(yán)重;
- 高學(xué)業(yè)成就學(xué)生和男生損失尤其顯著——那些原本最會學(xué)習(xí)的人,反而被AI傷得最深。
一個曾經(jīng)靠刷題把概念焊進(jìn)肌肉記憶的學(xué)霸,現(xiàn)在AI給他更“完美”的答案和范文,作業(yè)分更高,省下時間搞競賽。但月考出現(xiàn)了從沒見過的變式題,需要自己組織語言——不會了。以前的熟練是真的,現(xiàn)在的熟練是假的。
![]()
▲ BBC中文2025年底深度報道:MIT腦電實驗、牛津調(diào)查、UCL教授觀點——AI輔助讓“成績更好,但實際學(xué)得更差”的現(xiàn)象不只在中國學(xué)生身上出現(xiàn)
腦電波不會說謊:認(rèn)知加工正在被“跳過”
BBC中文在2025年底做過一篇長報道,標(biāo)題直問:“AI指令是否正在損害你的思考能力?”
MIT一項EEG實驗讓54名大學(xué)生用ChatGPT寫論文,同時佩戴腦電圖帽。結(jié)果揭示了一個扎心事實:使用ChatGPT時,負(fù)責(zé)認(rèn)知處理的腦網(wǎng)絡(luò)活動顯著下降。更尷尬的是事后——這些學(xué)生無法像未用AI的同學(xué)那樣,輕松回憶和引用“自己”論文的內(nèi)容。
卡內(nèi)基梅隆和微軟的聯(lián)合研究(319名白領(lǐng))補(bǔ)充了成人世界的證據(jù):對AI工具完成任務(wù)的信心越高,投入的批判性思考努力就越少。信得越多,想得越少。
牛津大學(xué)出版社同期調(diào)查:60%的學(xué)童認(rèn)為AI對學(xué)習(xí)技能產(chǎn)生了負(fù)面影響,但90%承認(rèn)AI至少幫了某方面。約25%覺得“完成作業(yè)太容易了”。
UCL教授Wayne Holmes的評論最刺耳:“他們的成績更好,但實際上學(xué)得更差。”
這次中國26,000人的面板數(shù)據(jù),像是給所有這些碎片化信號做了一次全身體檢——從作業(yè)到月考到升學(xué)考,從初中到高中到各學(xué)科,用30個月的真實軌跡,把“AI學(xué)習(xí)懲罰”從猜測變成了可量化的因果事實。
![]()
![]()
▲ 中文X用戶幾乎逐字復(fù)述了研究核心參數(shù)與異質(zhì)性,這組數(shù)據(jù)已出現(xiàn)在中文公開討論中——“中國學(xué)生真實數(shù)據(jù)”直接擺在所有討論者面前
“為什么不?”——一個讓所有說教失效的理性選擇
Marko Kovic在他的Substack長文《KI ruiniert Bildung》(AI正在毀掉教育)里,用一個經(jīng)濟(jì)學(xué)框架解釋了為什么80%的學(xué)生會滑向外包。
人類同時具備兩種理性:認(rèn)識理性(epistemic rationality)——追求真理和真實理解;工具理性(instrumental rationality)——用最短路徑達(dá)成目標(biāo)。
在教育場景中,學(xué)生面對的即時、可量化的目標(biāo)是“完成作業(yè)、拿高分”。AI提供了一個前所未有的低阻力工具。而真正的教育目標(biāo)——構(gòu)建可遷移的獨立思考能力——滯后、抽象、無法在每次作業(yè)上獲得即時獎勵。
當(dāng)同桌在用AI 30秒出答案拿高分,你花2小時自己寫拿同樣的分,“獨立思考”在排名體系里沒有任何加分。
問題根源是激勵結(jié)構(gòu)本身,跟道德覺悟沒什么關(guān)系。個體工具理性的最優(yōu)解,在群體層面通向一個更差的長期均衡。
Bloom經(jīng)典的“2 Sigma問題”曾暢想:一對一輔導(dǎo)平均能帶來約2個標(biāo)準(zhǔn)差的學(xué)業(yè)提升。AI本有可能規(guī)模化解決“個性化導(dǎo)師太貴”的歷史難題。但現(xiàn)實是,它變成了規(guī)模化“解題外包機(jī)器”。
研究里一個被反復(fù)引用的類比是計算器。但反駁也很鋒利:計算器通常是在多年手算建立數(shù)感之后才引入,AI卻是在概念形成的關(guān)鍵期被大量自由使用;計算器只代勞“計算”環(huán)節(jié),AI能一鍵輸出完整證明、作文和分析框架。
![]()
▲ 中國教育和科研計算機(jī)網(wǎng)早在2023年兩會期間就討論過AI對教育的雙刃劍效應(yīng)——賦能與作弊風(fēng)險并存,與本次實證形成跨年呼應(yīng)
北京既是試驗場,也是預(yù)警雷達(dá)
中國是AI+教育全球最激進(jìn)的試驗場之一。國家層面大力推動“人工智能+基礎(chǔ)教育”,云平臺一鍵下發(fā)作業(yè)、練習(xí)次數(shù)與掌握率節(jié)節(jié)攀升。與此同時,兩會代表自2023年起反復(fù)警示:AI能寫作業(yè)、論文、演講稿,同時也為抄襲作弊打開了最方便的大門。
這種雙重性,恰好印證了本次研究的制度背景:選拔壓力大、AI速度快、傳統(tǒng)“閉卷獨立完成”評估范式仍在主導(dǎo)。
中國教育和科研計算機(jī)網(wǎng)(edu.cn)的專題曾記錄:華東師范大學(xué)等機(jī)構(gòu)討論“要不要封ChatGPT”,斯坦福研發(fā)DetectGPT檢測技術(shù),CNKI上關(guān)于AI學(xué)術(shù)倫理的論文激增。一面是“DeepSeek作業(yè)槍手”的調(diào)侃,一面是“老師用AI抓學(xué)生用AI”的荒誕對弈。
30個月的面板數(shù)據(jù)給出了冰冷答案:在現(xiàn)有激勵結(jié)構(gòu)下,多數(shù)學(xué)生確實選了省力的那條路。而那條路的盡頭,是兩年后發(fā)現(xiàn)曾經(jīng)滾瓜爛熟的知識點已經(jīng)不熟了。
AI本身沒有原罪,默認(rèn)打開方式才是問題
論文作者和評論者并非在喊“禁用AI”。
Bastani等2025年在PNAS發(fā)表的近千名高中生數(shù)學(xué)實驗提供了關(guān)鍵護(hù)欄證據(jù):當(dāng)AI被設(shè)計為“GPT Base”——可以自由提問、直接要答案時,學(xué)生在練習(xí)環(huán)節(jié)成績大幅領(lǐng)先,但移除AI后的獨立考試成績比從未用過AI的對照組差了約17%。
而當(dāng)同一系統(tǒng)被約束為“GPT Tutor”——只提供教師預(yù)設(shè)提示、不給答案——損害消失,甚至在某些維度接近正面效果。
World Bank在尼日利亞的隨機(jī)對照實驗中,常規(guī)課堂配合6周結(jié)構(gòu)化AI導(dǎo)師,英語成績上升約0.23個標(biāo)準(zhǔn)差。美國Kestin等人的RCT同樣發(fā)現(xiàn),當(dāng)AI被當(dāng)作“有護(hù)欄的導(dǎo)師”而非“無約束的答案機(jī)”,學(xué)習(xí)增益超過了傳統(tǒng)大班教學(xué)。
AI這個工具本身沒有原罪,有問題的只是默認(rèn)打開方式。消費級聊天機(jī)器人+現(xiàn)有作業(yè)考核=80%外包+系統(tǒng)性學(xué)習(xí)懲罰。護(hù)欄版AI導(dǎo)師+過程可見+評估重構(gòu)=接近正面效果。這兩組公式之間的差距,就是政策該填的坑。
![]()
▲ Marko Kovic的Substack長文提供完整分析框架:scaffolding vs offloading、阻力最小路徑、肥尾系統(tǒng)風(fēng)險、Bloom 2 Sigma問題的AI版本
一個“肥尾風(fēng)險”,值得所有成年人認(rèn)真看
Marko在Newsletter里寫了一個讓教育工作者脊背發(fā)涼的數(shù)學(xué)洞察:
個體層面,“一個學(xué)生少學(xué)了一點”聽起來沒什么大不了。但放到人口層面,這種能力稀釋具有乘數(shù)效應(yīng)。決策質(zhì)量、信息判斷、社會創(chuàng)新——這些依賴“世代累積獨立思考能力”的公共品,一旦結(jié)構(gòu)性地衰退,修復(fù)周期以十年計。
教育是代際能力基礎(chǔ)設(shè)施。基礎(chǔ)設(shè)施的維護(hù)不當(dāng),不會在第一天就塌。但等發(fā)現(xiàn)塌的時候,已經(jīng)塌了很久了。
這輪討論中還有一條尖銳反駁:考試本身不該被改嗎?既然未來工作都用AI,考試禁AI等于測淘汰技能。
研究的回應(yīng)同樣直白:考試的功能不只是“預(yù)測未來工作表現(xiàn)”。它還在向?qū)W生、家長、社會傳遞一個信號——“你已具備獨立掌握某件事的能力”。如果所有中間產(chǎn)品都被外包,這個信號就失真了。最終受損的是學(xué)生進(jìn)入下一階段時的真實準(zhǔn)備度,以及依賴這些信號進(jìn)行選拔和雇傭的整個社會。
評估當(dāng)然需要改革——增加當(dāng)堂完成、口頭答辯、過程檔案、AI使用痕跡可見的項目制考核,降低“可一鍵外包的中間產(chǎn)品”權(quán)重。但“評估改革”和“放任外包”之間,有一條巨大的鴻溝。
沒有一鍵解藥,但有可行動的方向
完全禁止AI不現(xiàn)實,學(xué)生已經(jīng)在用,未來只會更普遍。完全放任等于放棄教育最核心的使命。
可行的方向至少包括這幾條:
評估重構(gòu):把考核重心從“可外包的課后產(chǎn)品”移到“當(dāng)堂完成、口頭解釋過程、項目制檔案、AI使用痕跡可見”的形式上。
產(chǎn)品設(shè)計分層:教育專用AI必須與消費級聊天機(jī)器人拉開距離——Socratic模式(只追問不直接給答案)、學(xué)習(xí)者儀表盤、教師可追蹤過程。不讓“最省力路徑”成為默認(rèn)設(shè)置。
元認(rèn)知教育:顯性教授“何時該自己掙扎、何時該求助”“AI輸出必須驗證與改寫”。把“使用AI的方式”本身變成可教、可評的內(nèi)容。
正視激勵現(xiàn)實:光靠“要自己思考”的道德呼吁不夠。必須調(diào)整考核權(quán)重和同伴動態(tài),讓“高質(zhì)量使用”成為理性選擇,而不僅是道德要求。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.