網易首頁 > 網易號 > 正文申請入駐

2.6萬名中國學生用AI寫作業30個月后，成績單驚現恐怖倒掛：考試分數暴跌24%

2026-06-24 14:45:29　來源: 紫京講談

北京舉報

分享至

導讀
一項追蹤26,811名中國中學生長達30個月的實證研究揭開了AI教育最血腥的真相：用聊天機器人寫作業后，作業分數漲了18%、用時少了30%，但禁止AI的閉卷考試中，成績暴跌20%，高利害入學考試跌幅更達24%。80%的學生掉進了“認知外包”陷阱——作業高分是假的，真實能力在被系統性掏空。研究作者警告：這可能是整整一代人的認知基礎設施塌方。

▲ 德國社會評論家Marko Kovic用一張圖引爆討論：26,000名中國學生、30個月面板數據、作業分漲考試分跌的致命倒掛，帖文獲得超1500贊、19萬瀏覽

一張數據圖，炸出一場全球教育恐慌

2026年6月15日，德國社會評論家Marko Kovic在X上發了一條德語帖文。

配圖只有一張數據可視化圖表。文字不長，但每一行都在加碼：

“一項大型研究調查了中國超過26,000名學生，追蹤他們在30個月內開始使用AI聊天機器人后的成績變化。家庭作業成績提高了約20%。完成時間減少了約20%。這很棒。”

“但是：在禁止使用AI的考試中，他們的成績下降了約20%。”

"這是巨大的惡化。"

帖文最后一句直接引爆：“如果整整一代人比前幾代人更少學會獨立思考，會發生什么？”

48小時內，這條帖文拿下1500多贊、近500次轉發、19萬瀏覽。德語圈、英語圈、中文圈同步炸鍋。計算器類比的攻防戰、理性人陷阱的哲學辯論、dystopian教育未來的末日預言，在回復樹里吵成一團。

但這次的數據，不是實驗室小樣本模擬。它來自中國真實課堂。

▲ CEPR官方論文DP21577摘要頁——經濟學頂級研究機構的權威背書，26,811人、30個月、DiD因果識別，每一個數字都有面板數據支撐

18%漲、30%省、20%跌：三組數字講完一個殘酷故事

這篇引爆全球討論的論文來自斯德哥爾摩大學David Str?mberg、香港大學Victor Lei和Yanhui Wu。2026年6月2日由歐洲經濟政策研究中心（CEPR）以DP21577編號正式發布，標題直接點題：《生成式AI的學習懲罰：來自中國中學教育的證據》。

研究追蹤了26,811名中國7至12年級學生，橫跨9個科目，數據覆蓋整整30個月——整整兩年半的真實學業軌跡，遠非實驗室里幾周小樣本可比。

他們用了雙重差分法（difference-in-differences），利用不同學生/班級/學校接觸AI聊天機器人的時間差作為自然實驗，同時觀測三類結果：

作業端（有AI輔助）：分數上升18%，完成時間下降30%。

月考端（無AI，閉卷）：六個月內分數下降20%。

入學考端（高利害，禁AI）：高中/大學入學考試分數下跌18%至24%，完整懲罰需要兩年才完全顯現。

作業越做越快越做越好，但一旦拿走AI，底褲就掉了。

不是“暫時不適應”。兩年滯后懲罰說明，這不是臨場緊張或短期遺忘——是知識的“復利效應”被從根部切斷了。

▲ CEPR官方藍V賬號發布論文公告，附完整標題、作者機構、核心數據圖表，學術權威機構的背書讓這場討論無法被輕易打發為“危言聳聽”

80%的學生，踩進了同一個坑

論文里真正有殺傷力的發現藏在分布里，不在平均值上。

研究者通過“作業完成時間異常短 + 作業分數異常高”的行為模式，區分了兩類AI用戶：一類把AI當導師用，保留獨立思考過程；另一類直接把AI輸出復制提交——認知外包（cognitive offloading）。

結果觸目驚心：約80%的AI使用者屬于“外包型”。學習損失幾乎全部集中在這群人身上。而維持與未使用AI時相似完成時間的少數學生，考試損失很小或接近零。

更扎心的是異質性分布：

社會科學科目損失最大，其次STEM、語言科目；
初中階段受影響更嚴重；
高學業成就學生和男生損失尤其顯著——那些原本最會學習的人，反而被AI傷得最深。

一個曾經靠刷題把概念焊進肌肉記憶的學霸，現在AI給他更“完美”的答案和范文，作業分更高，省下時間搞競賽。但月考出現了從沒見過的變式題，需要自己組織語言——不會了。以前的熟練是真的，現在的熟練是假的。

▲ BBC中文2025年底深度報道：MIT腦電實驗、牛津調查、UCL教授觀點——AI輔助讓“成績更好，但實際學得更差”的現象不只在中國學生身上出現

腦電波不會說謊：認知加工正在被“跳過”

BBC中文在2025年底做過一篇長報道，標題直問：“AI指令是否正在損害你的思考能力？”

MIT一項EEG實驗讓54名大學生用ChatGPT寫論文，同時佩戴腦電圖帽。結果揭示了一個扎心事實：使用ChatGPT時，負責認知處理的腦網絡活動顯著下降。更尷尬的是事后——這些學生無法像未用AI的同學那樣，輕松回憶和引用“自己”論文的內容。

卡內基梅隆和微軟的聯合研究（319名白領）補充了成人世界的證據：對AI工具完成任務的信心越高，投入的批判性思考努力就越少。信得越多，想得越少。

牛津大學出版社同期調查：60%的學童認為AI對學習技能產生了負面影響，但90%承認AI至少幫了某方面。約25%覺得“完成作業太容易了”。

UCL教授Wayne Holmes的評論最刺耳：“他們的成績更好，但實際上學得更差。”

這次中國26,000人的面板數據，像是給所有這些碎片化信號做了一次全身體檢——從作業到月考到升學考，從初中到高中到各學科，用30個月的真實軌跡，把“AI學習懲罰”從猜測變成了可量化的因果事實。

▲ 中文X用戶幾乎逐字復述了研究核心參數與異質性，這組數據已出現在中文公開討論中——“中國學生真實數據”直接擺在所有討論者面前

“為什么不？”——一個讓所有說教失效的理性選擇

Marko Kovic在他的Substack長文《KI ruiniert Bildung》（AI正在毀掉教育）里，用一個經濟學框架解釋了為什么80%的學生會滑向外包。

人類同時具備兩種理性：認識理性（epistemic rationality）——追求真理和真實理解；工具理性（instrumental rationality）——用最短路徑達成目標。

在教育場景中，學生面對的即時、可量化的目標是“完成作業、拿高分”。AI提供了一個前所未有的低阻力工具。而真正的教育目標——構建可遷移的獨立思考能力——滯后、抽象、無法在每次作業上獲得即時獎勵。

當同桌在用AI 30秒出答案拿高分，你花2小時自己寫拿同樣的分，“獨立思考”在排名體系里沒有任何加分。

問題根源是激勵結構本身，跟道德覺悟沒什么關系。個體工具理性的最優解，在群體層面通向一個更差的長期均衡。

Bloom經典的“2 Sigma問題”曾暢想：一對一輔導平均能帶來約2個標準差的學業提升。AI本有可能規模化解決“個性化導師太貴”的歷史難題。但現實是，它變成了規模化“解題外包機器”。

研究里一個被反復引用的類比是計算器。但反駁也很鋒利：計算器通常是在多年手算建立數感之后才引入，AI卻是在概念形成的關鍵期被大量自由使用；計算器只代勞“計算”環節，AI能一鍵輸出完整證明、作文和分析框架。

▲ 中國教育和科研計算機網早在2023年兩會期間就討論過AI對教育的雙刃劍效應——賦能與作弊風險并存，與本次實證形成跨年呼應

北京既是試驗場，也是預警雷達

中國是AI+教育全球最激進的試驗場之一。國家層面大力推動“人工智能+基礎教育”，云平臺一鍵下發作業、練習次數與掌握率節節攀升。與此同時，兩會代表自2023年起反復警示：AI能寫作業、論文、演講稿，同時也為抄襲作弊打開了最方便的大門。

這種雙重性，恰好印證了本次研究的制度背景：選拔壓力大、AI速度快、傳統“閉卷獨立完成”評估范式仍在主導。

中國教育和科研計算機網（edu.cn）的專題曾記錄：華東師范大學等機構討論“要不要封ChatGPT”，斯坦福研發DetectGPT檢測技術，CNKI上關于AI學術倫理的論文激增。一面是“DeepSeek作業槍手”的調侃，一面是“老師用AI抓學生用AI”的荒誕對弈。

30個月的面板數據給出了冰冷答案：在現有激勵結構下，多數學生確實選了省力的那條路。而那條路的盡頭，是兩年后發現曾經滾瓜爛熟的知識點已經不熟了。

AI本身沒有原罪，默認打開方式才是問題

論文作者和評論者并非在喊“禁用AI”。

Bastani等2025年在PNAS發表的近千名高中生數學實驗提供了關鍵護欄證據：當AI被設計為“GPT Base”——可以自由提問、直接要答案時，學生在練習環節成績大幅領先，但移除AI后的獨立考試成績比從未用過AI的對照組差了約17%。

而當同一系統被約束為“GPT Tutor”——只提供教師預設提示、不給答案——損害消失，甚至在某些維度接近正面效果。

World Bank在尼日利亞的隨機對照實驗中，常規課堂配合6周結構化AI導師，英語成績上升約0.23個標準差。美國Kestin等人的RCT同樣發現，當AI被當作“有護欄的導師”而非“無約束的答案機”，學習增益超過了傳統大班教學。

AI這個工具本身沒有原罪，有問題的只是默認打開方式。消費級聊天機器人+現有作業考核=80%外包+系統性學習懲罰。護欄版AI導師+過程可見+評估重構=接近正面效果。這兩組公式之間的差距，就是政策該填的坑。

▲ Marko Kovic的Substack長文提供完整分析框架：scaffolding vs offloading、阻力最小路徑、肥尾系統風險、Bloom 2 Sigma問題的AI版本

一個“肥尾風險”，值得所有成年人認真看

Marko在Newsletter里寫了一個讓教育工作者脊背發涼的數學洞察：

個體層面，“一個學生少學了一點”聽起來沒什么大不了。但放到人口層面，這種能力稀釋具有乘數效應。決策質量、信息判斷、社會創新——這些依賴“世代累積獨立思考能力”的公共品，一旦結構性地衰退，修復周期以十年計。

教育是代際能力基礎設施。基礎設施的維護不當，不會在第一天就塌。但等發現塌的時候，已經塌了很久了。

這輪討論中還有一條尖銳反駁：考試本身不該被改嗎？既然未來工作都用AI，考試禁AI等于測淘汰技能。

研究的回應同樣直白：考試的功能不只是“預測未來工作表現”。它還在向學生、家長、社會傳遞一個信號——“你已具備獨立掌握某件事的能力”。如果所有中間產品都被外包，這個信號就失真了。最終受損的是學生進入下一階段時的真實準備度，以及依賴這些信號進行選拔和雇傭的整個社會。

評估當然需要改革——增加當堂完成、口頭答辯、過程檔案、AI使用痕跡可見的項目制考核，降低“可一鍵外包的中間產品”權重。但“評估改革”和“放任外包”之間，有一條巨大的鴻溝。

沒有一鍵解藥，但有可行動的方向

完全禁止AI不現實，學生已經在用，未來只會更普遍。完全放任等于放棄教育最核心的使命。

可行的方向至少包括這幾條：

評估重構：把考核重心從“可外包的課后產品”移到“當堂完成、口頭解釋過程、項目制檔案、AI使用痕跡可見”的形式上。

產品設計分層：教育專用AI必須與消費級聊天機器人拉開距離——Socratic模式（只追問不直接給答案）、學習者儀表盤、教師可追蹤過程。不讓“最省力路徑”成為默認設置。

元認知教育：顯性教授“何時該自己掙扎、何時該求助”“AI輸出必須驗證與改寫”。把“使用AI的方式”本身變成可教、可評的內容。

正視激勵現實：光靠“要自己思考”的道德呼吁不夠。必須調整考核權重和同伴動態，讓“高質量使用”成為理性選擇，而不僅是道德要求。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.