導讀
一項追蹤26,811名中國中學生長達30個月的實證研究揭開了AI教育最血腥的真相:用聊天機器人寫作業后,作業分數漲了18%、用時少了30%,但禁止AI的閉卷考試中,成績暴跌20%,高利害入學考試跌幅更達24%。80%的學生掉進了“認知外包”陷阱——作業高分是假的,真實能力在被系統性掏空。研究作者警告:這可能是整整一代人的認知基礎設施塌方。
![]()
![]()
![]()
▲ 德國社會評論家Marko Kovic用一張圖引爆討論:26,000名中國學生、30個月面板數據、作業分漲考試分跌的致命倒掛,帖文獲得超1500贊、19萬瀏覽
一張數據圖,炸出一場全球教育恐慌
2026年6月15日,德國社會評論家Marko Kovic在X上發了一條德語帖文。
配圖只有一張數據可視化圖表。文字不長,但每一行都在加碼:
“一項大型研究調查了中國超過26,000名學生,追蹤他們在30個月內開始使用AI聊天機器人后的成績變化。家庭作業成績提高了約20%。完成時間減少了約20%。這很棒。”
“但是:在禁止使用AI的考試中,他們的成績下降了約20%。”
"這是巨大的惡化。"
帖文最后一句直接引爆:“如果整整一代人比前幾代人更少學會獨立思考,會發生什么?”
48小時內,這條帖文拿下1500多贊、近500次轉發、19萬瀏覽。德語圈、英語圈、中文圈同步炸鍋。計算器類比的攻防戰、理性人陷阱的哲學辯論、dystopian教育未來的末日預言,在回復樹里吵成一團。
但這次的數據,不是實驗室小樣本模擬。它來自中國真實課堂。
![]()
▲ CEPR官方論文DP21577摘要頁——經濟學頂級研究機構的權威背書,26,811人、30個月、DiD因果識別,每一個數字都有面板數據支撐
18%漲、30%省、20%跌:三組數字講完一個殘酷故事
這篇引爆全球討論的論文來自斯德哥爾摩大學David Str?mberg、香港大學Victor Lei和Yanhui Wu。2026年6月2日由歐洲經濟政策研究中心(CEPR)以DP21577編號正式發布,標題直接點題:《生成式AI的學習懲罰:來自中國中學教育的證據》。
研究追蹤了26,811名中國7至12年級學生,橫跨9個科目,數據覆蓋整整30個月——整整兩年半的真實學業軌跡,遠非實驗室里幾周小樣本可比。
他們用了雙重差分法(difference-in-differences),利用不同學生/班級/學校接觸AI聊天機器人的時間差作為自然實驗,同時觀測三類結果:
作業端(有AI輔助):分數上升18%,完成時間下降30%。
月考端(無AI,閉卷):六個月內分數下降20%。
入學考端(高利害,禁AI):高中/大學入學考試分數下跌18%至24%,完整懲罰需要兩年才完全顯現。
作業越做越快越做越好,但一旦拿走AI,底褲就掉了。
不是“暫時不適應”。兩年滯后懲罰說明,這不是臨場緊張或短期遺忘——是知識的“復利效應”被從根部切斷了。
![]()
![]()
▲ CEPR官方藍V賬號發布論文公告,附完整標題、作者機構、核心數據圖表,學術權威機構的背書讓這場討論無法被輕易打發為“危言聳聽”
80%的學生,踩進了同一個坑
論文里真正有殺傷力的發現藏在分布里,不在平均值上。
研究者通過“作業完成時間異常短 + 作業分數異常高”的行為模式,區分了兩類AI用戶:一類把AI當導師用,保留獨立思考過程;另一類直接把AI輸出復制提交——認知外包(cognitive offloading)。
結果觸目驚心:約80%的AI使用者屬于“外包型”。學習損失幾乎全部集中在這群人身上。而維持與未使用AI時相似完成時間的少數學生,考試損失很小或接近零。
更扎心的是異質性分布:
- 社會科學科目損失最大,其次STEM、語言科目;
- 初中階段受影響更嚴重;
- 高學業成就學生和男生損失尤其顯著——那些原本最會學習的人,反而被AI傷得最深。
一個曾經靠刷題把概念焊進肌肉記憶的學霸,現在AI給他更“完美”的答案和范文,作業分更高,省下時間搞競賽。但月考出現了從沒見過的變式題,需要自己組織語言——不會了。以前的熟練是真的,現在的熟練是假的。
![]()
▲ BBC中文2025年底深度報道:MIT腦電實驗、牛津調查、UCL教授觀點——AI輔助讓“成績更好,但實際學得更差”的現象不只在中國學生身上出現
腦電波不會說謊:認知加工正在被“跳過”
BBC中文在2025年底做過一篇長報道,標題直問:“AI指令是否正在損害你的思考能力?”
MIT一項EEG實驗讓54名大學生用ChatGPT寫論文,同時佩戴腦電圖帽。結果揭示了一個扎心事實:使用ChatGPT時,負責認知處理的腦網絡活動顯著下降。更尷尬的是事后——這些學生無法像未用AI的同學那樣,輕松回憶和引用“自己”論文的內容。
卡內基梅隆和微軟的聯合研究(319名白領)補充了成人世界的證據:對AI工具完成任務的信心越高,投入的批判性思考努力就越少。信得越多,想得越少。
牛津大學出版社同期調查:60%的學童認為AI對學習技能產生了負面影響,但90%承認AI至少幫了某方面。約25%覺得“完成作業太容易了”。
UCL教授Wayne Holmes的評論最刺耳:“他們的成績更好,但實際上學得更差。”
這次中國26,000人的面板數據,像是給所有這些碎片化信號做了一次全身體檢——從作業到月考到升學考,從初中到高中到各學科,用30個月的真實軌跡,把“AI學習懲罰”從猜測變成了可量化的因果事實。
![]()
![]()
▲ 中文X用戶幾乎逐字復述了研究核心參數與異質性,這組數據已出現在中文公開討論中——“中國學生真實數據”直接擺在所有討論者面前
“為什么不?”——一個讓所有說教失效的理性選擇
Marko Kovic在他的Substack長文《KI ruiniert Bildung》(AI正在毀掉教育)里,用一個經濟學框架解釋了為什么80%的學生會滑向外包。
人類同時具備兩種理性:認識理性(epistemic rationality)——追求真理和真實理解;工具理性(instrumental rationality)——用最短路徑達成目標。
在教育場景中,學生面對的即時、可量化的目標是“完成作業、拿高分”。AI提供了一個前所未有的低阻力工具。而真正的教育目標——構建可遷移的獨立思考能力——滯后、抽象、無法在每次作業上獲得即時獎勵。
當同桌在用AI 30秒出答案拿高分,你花2小時自己寫拿同樣的分,“獨立思考”在排名體系里沒有任何加分。
問題根源是激勵結構本身,跟道德覺悟沒什么關系。個體工具理性的最優解,在群體層面通向一個更差的長期均衡。
Bloom經典的“2 Sigma問題”曾暢想:一對一輔導平均能帶來約2個標準差的學業提升。AI本有可能規模化解決“個性化導師太貴”的歷史難題。但現實是,它變成了規模化“解題外包機器”。
研究里一個被反復引用的類比是計算器。但反駁也很鋒利:計算器通常是在多年手算建立數感之后才引入,AI卻是在概念形成的關鍵期被大量自由使用;計算器只代勞“計算”環節,AI能一鍵輸出完整證明、作文和分析框架。
![]()
▲ 中國教育和科研計算機網早在2023年兩會期間就討論過AI對教育的雙刃劍效應——賦能與作弊風險并存,與本次實證形成跨年呼應
北京既是試驗場,也是預警雷達
中國是AI+教育全球最激進的試驗場之一。國家層面大力推動“人工智能+基礎教育”,云平臺一鍵下發作業、練習次數與掌握率節節攀升。與此同時,兩會代表自2023年起反復警示:AI能寫作業、論文、演講稿,同時也為抄襲作弊打開了最方便的大門。
這種雙重性,恰好印證了本次研究的制度背景:選拔壓力大、AI速度快、傳統“閉卷獨立完成”評估范式仍在主導。
中國教育和科研計算機網(edu.cn)的專題曾記錄:華東師范大學等機構討論“要不要封ChatGPT”,斯坦福研發DetectGPT檢測技術,CNKI上關于AI學術倫理的論文激增。一面是“DeepSeek作業槍手”的調侃,一面是“老師用AI抓學生用AI”的荒誕對弈。
30個月的面板數據給出了冰冷答案:在現有激勵結構下,多數學生確實選了省力的那條路。而那條路的盡頭,是兩年后發現曾經滾瓜爛熟的知識點已經不熟了。
AI本身沒有原罪,默認打開方式才是問題
論文作者和評論者并非在喊“禁用AI”。
Bastani等2025年在PNAS發表的近千名高中生數學實驗提供了關鍵護欄證據:當AI被設計為“GPT Base”——可以自由提問、直接要答案時,學生在練習環節成績大幅領先,但移除AI后的獨立考試成績比從未用過AI的對照組差了約17%。
而當同一系統被約束為“GPT Tutor”——只提供教師預設提示、不給答案——損害消失,甚至在某些維度接近正面效果。
World Bank在尼日利亞的隨機對照實驗中,常規課堂配合6周結構化AI導師,英語成績上升約0.23個標準差。美國Kestin等人的RCT同樣發現,當AI被當作“有護欄的導師”而非“無約束的答案機”,學習增益超過了傳統大班教學。
AI這個工具本身沒有原罪,有問題的只是默認打開方式。消費級聊天機器人+現有作業考核=80%外包+系統性學習懲罰。護欄版AI導師+過程可見+評估重構=接近正面效果。這兩組公式之間的差距,就是政策該填的坑。
![]()
▲ Marko Kovic的Substack長文提供完整分析框架:scaffolding vs offloading、阻力最小路徑、肥尾系統風險、Bloom 2 Sigma問題的AI版本
一個“肥尾風險”,值得所有成年人認真看
Marko在Newsletter里寫了一個讓教育工作者脊背發涼的數學洞察:
個體層面,“一個學生少學了一點”聽起來沒什么大不了。但放到人口層面,這種能力稀釋具有乘數效應。決策質量、信息判斷、社會創新——這些依賴“世代累積獨立思考能力”的公共品,一旦結構性地衰退,修復周期以十年計。
教育是代際能力基礎設施。基礎設施的維護不當,不會在第一天就塌。但等發現塌的時候,已經塌了很久了。
這輪討論中還有一條尖銳反駁:考試本身不該被改嗎?既然未來工作都用AI,考試禁AI等于測淘汰技能。
研究的回應同樣直白:考試的功能不只是“預測未來工作表現”。它還在向學生、家長、社會傳遞一個信號——“你已具備獨立掌握某件事的能力”。如果所有中間產品都被外包,這個信號就失真了。最終受損的是學生進入下一階段時的真實準備度,以及依賴這些信號進行選拔和雇傭的整個社會。
評估當然需要改革——增加當堂完成、口頭答辯、過程檔案、AI使用痕跡可見的項目制考核,降低“可一鍵外包的中間產品”權重。但“評估改革”和“放任外包”之間,有一條巨大的鴻溝。
沒有一鍵解藥,但有可行動的方向
完全禁止AI不現實,學生已經在用,未來只會更普遍。完全放任等于放棄教育最核心的使命。
可行的方向至少包括這幾條:
評估重構:把考核重心從“可外包的課后產品”移到“當堂完成、口頭解釋過程、項目制檔案、AI使用痕跡可見”的形式上。
產品設計分層:教育專用AI必須與消費級聊天機器人拉開距離——Socratic模式(只追問不直接給答案)、學習者儀表盤、教師可追蹤過程。不讓“最省力路徑”成為默認設置。
元認知教育:顯性教授“何時該自己掙扎、何時該求助”“AI輸出必須驗證與改寫”。把“使用AI的方式”本身變成可教、可評的內容。
正視激勵現實:光靠“要自己思考”的道德呼吁不夠。必須調整考核權重和同伴動態,讓“高質量使用”成為理性選擇,而不僅是道德要求。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.