導(dǎo)讀:
一項(xiàng)涉及1222人的隨機(jī)對照實(shí)驗(yàn)發(fā)現(xiàn),短暫依賴AI獲取答案,會讓人在AI撤除后表現(xiàn)更差,并更頻繁地選擇直接放棄。研究者認(rèn)為,AI的設(shè)計(jì)不應(yīng)只是回應(yīng)用戶的請求,也要考慮支持用戶的成長。
你是否有過這樣的體驗(yàn):在寫作業(yè)、解難題時(shí),第一反應(yīng)是打開AI 對話框,輸入問題,等待秒回的答案;做報(bào)表處理時(shí),打開OpenClaw下指令,等待任務(wù)自動完成;或者正在讀這篇文章時(shí),忍不住@一下元寶,總結(jié)一個(gè)“省流版”的摘要。有人認(rèn)為這是高效,是跟上時(shí)代潮流。但一項(xiàng)來自卡內(nèi)基梅隆大學(xué)、牛津大學(xué)、麻省理工學(xué)院、加州大學(xué)洛杉磯分校的跨團(tuán)隊(duì)研究,用1222名受試者、3組嚴(yán)格隨機(jī)對照實(shí)驗(yàn)得到了令人吃驚的結(jié)論:僅僅10到15分鐘的AI輔助,就足以讓人在獨(dú)立面對問題時(shí)表現(xiàn)更差,并更頻繁地選擇直接跳過。研究人員提醒,這種傷害像“溫水煮青蛙”,在毫無察覺中,慢慢侵蝕人類的學(xué)習(xí)能力與思維韌性。
這項(xiàng)題為《AI 輔助降低堅(jiān)持性并損害獨(dú)立表現(xiàn)》的研究,于今年4月發(fā)表在預(yù)印本平臺arXiv,目前正在評審之中。它采用因果實(shí)證研究而非相關(guān)性推測,指出當(dāng)下主流AI 助手對人類認(rèn)知能力存在隱形傷害——短期貌似讓人 “開掛”,長期則存在無法忽視的負(fù)面影響。[1]
AI 是 “神助攻”,還是 “拖后腿”?
好的助手或?qū)煟肋h(yuǎn)把學(xué)生長期成長放在第一位。研究人員表示,就像一位負(fù)責(zé)任的老師,不會直接提供答案,而是引導(dǎo)學(xué)生思考,陪學(xué)生經(jīng)歷挫折,在真正需要時(shí)才伸出援手,甚至在必要時(shí)“狠心” 拒絕,逼學(xué)生獨(dú)立面對挑戰(zhàn)。因?yàn)檎嬲膶W(xué)習(xí),從來不是輕松得到答案,而是在掙扎、試錯(cuò)、堅(jiān)持中,把知識內(nèi)化為自己的能力。
但今天的AI助手,則是另一種模樣。它們被訓(xùn)練成短視的“討好型合作者”:除了安全限制,永遠(yuǎn)不會說“不”,永遠(yuǎn)秒回完整答案,永遠(yuǎn)把“即時(shí)滿足”做到極致。用戶問數(shù)學(xué)題,直接給步驟和結(jié)果;寫作文,直接生成全文;做閱讀理解,直接提供正確選項(xiàng)。AI助手讓用戶瞬間變“學(xué)霸”,卻不關(guān)心這種“輕松” 會對用戶的認(rèn)知和習(xí)慣造成什么長期影響。
這種極致的 “即時(shí)幫助”,代價(jià)是什么?
![]()
牛津大學(xué)出版社在2024 年將“Brain Rot”(腦腐)選為年度詞匯,《紐約時(shí)報(bào)》認(rèn)為AI搜索、對話機(jī)器人和社交媒體導(dǎo)致腦腐。
10分鐘,足以影響普通人的獨(dú)立思考
研究者設(shè)計(jì)了三項(xiàng)獨(dú)立實(shí)驗(yàn),覆蓋了1222 名受試者。他們讓人們做幾道分?jǐn)?shù)運(yùn)算題或閱讀理解,一組人可以用AI 輔助,一組人完全靠自己,然后在沒有任何預(yù)告的情況下,撤走AI,讓兩組人完成最后幾道題,測試他們的真實(shí)水平。
結(jié)果顯示,AI輔助可提升短期表現(xiàn),一旦撤回AI,則表現(xiàn)大幅下滑,顯著低于從未用過AI的對照組。AI 輔助導(dǎo)致堅(jiān)持的心力斷崖式下跌,在沒有幫助時(shí),面對難題更容易直接跳過、放棄嘗試,不再愿意花時(shí)間思考攻克難關(guān)。
而這一切,只需要10–15 分鐘的AI 使用,就足以讓一個(gè)正常人的認(rèn)知受到負(fù)面影響。
在第一項(xiàng)實(shí)驗(yàn)中,研究人員招募了354名受試者,任務(wù)是做15道分?jǐn)?shù)計(jì)算數(shù)學(xué)題,難度逐級提升。實(shí)驗(yàn)組的191人在前12題隨時(shí)可用AI(GPT5),沒有AI的對照組163人全程無輔助,獨(dú)立完成所有題目。關(guān)鍵步驟是對最后的3道題目,實(shí)驗(yàn)組AI功能被突然撤走。
結(jié)果令人吃驚:解題正確率AI 組測試階段平均0.57,對照組0.73,AI組低了16 個(gè)百分點(diǎn)。放棄(跳過)率:AI 組0.20,對照組0.11,AI組高了近一倍。統(tǒng)計(jì)學(xué)意義上的差異極其顯著(P<0.001)。簡言之,用AI做了10分鐘題的人,一旦失去AI,不僅做得更差,還更不想做了。
![]()
AI削弱人在沒有輔助時(shí)的表現(xiàn)和堅(jiān)持完成任務(wù)的意愿。(a) 按題目出現(xiàn)順序統(tǒng)計(jì)的參與者每題平均解答率和跳過率,95% 置信區(qū)間(CI)。灰色虛線表示學(xué)習(xí)題與測試題之間的分界。實(shí)驗(yàn)中題目難度逐步提升:依次為一步題(第1—4 題)、兩步題(第5—8 題)和三步題(第9—12 題)。(b)圖為參與者在測試階段的平均解題率與跳過率,95% 置信區(qū)間。測試指標(biāo)通過對每位參與者最后三道測試題的表現(xiàn)取平均值。
那么,實(shí)驗(yàn)1的結(jié)論,是不是因?yàn)锳I 組保留了更多能力差的人?是不是界面突然變化導(dǎo)致不適應(yīng)?
對于這些干擾項(xiàng),研究團(tuán)隊(duì)做了規(guī)模更大、控制更嚴(yán)格的重復(fù)實(shí)驗(yàn):招募了667名受試者。同時(shí)增加前測進(jìn)行篩選,保證兩組初始能量完全一致。此外對照組也設(shè)置實(shí)驗(yàn)組相同的側(cè)邊欄界面,也在最后3題同步撤走,消除界面不對稱干擾。
結(jié)果仍然符合實(shí)驗(yàn)1的結(jié)論:AI 組測試正確率0.71,對照組0.77。放棄率AI 組0.10,對照組0.07,方向一致。這顯示能力差異被嚴(yán)格排除,界面干擾被徹底消除,傷害依然存在。
也許有人說:數(shù)學(xué)是計(jì)算,依賴AI正常,文科思維不會受影響。研究團(tuán)隊(duì)的第三項(xiàng)實(shí)驗(yàn),則直接用SAT 水平的閱讀理解進(jìn)行實(shí)驗(yàn):招募201名受試者,讓他們做閱讀理解題目,考察邏輯推理、觀點(diǎn)辨析、細(xì)節(jié)理解。
結(jié)果再一次高度重復(fù):AI 組測試正確率0.76,對照組0.89。放棄率AI 組0.08,對照組0.01,高了 8 倍。統(tǒng)計(jì)學(xué)顯著(P<0.01),效果量較大(Cohen’s d=0.42)。
這意味著AI 帶來的堅(jiān)持性下降、獨(dú)立能力受損,不只是數(shù)學(xué)任務(wù)的特例,而是較為普遍的效應(yīng)。無論是數(shù)字計(jì)算,還是文字理解,只要習(xí)慣了AI 秒出答案,一旦失去它,普通人的表現(xiàn)就會變差,且更不想努力。
“人們不僅會變得不擅長任務(wù),他們甚至不再嘗試,”該研究第一作者、卡內(nèi)基梅隆大學(xué)博士Grace Liu在接受CNET采訪中談到,“如果這種效應(yīng)隨著經(jīng)年累月的AI使用不斷累積,我們最終可能會培養(yǎng)出一代學(xué)習(xí)者,他們失去了脫離技術(shù)輔助而進(jìn)行高效掙扎(productive struggle)的傾向。”[2]
![]()
閱讀理解任務(wù)中表現(xiàn)與堅(jiān)持性的下降。(a)圖為參與者在題目呈現(xiàn)順序下的平均答題率與跳過率,95% 置信區(qū)間。灰色虛線標(biāo)示學(xué)習(xí)階段與測試階段的分界點(diǎn)。(b)圖為參與者在測試階段的平均答題率與跳過率,95% 置信區(qū)間,由各參與者數(shù)據(jù)匯總。
![]()
Grace Liu ,論文第一作者,目前在卡內(nèi)基梅隆大學(xué)從事強(qiáng)化學(xué)習(xí)和 AI 向善領(lǐng)域的博士研究
如何用 AI很重要?
值得注意的是,在實(shí)驗(yàn)2中,研究者還讓AI組受試者自行報(bào)告使用方式,顯示直接要答案占61%,要提示/ 解釋,用AI找思路、問步驟、理解難點(diǎn),不直接抄答案的占27%,基本不用AI的占12%。
對比三組的后測表現(xiàn),AI 使用方式不同,結(jié)果也明顯分界:直接要答案組測試正確率最低,放棄率最高,相比自己的前測,成績大幅下滑,堅(jiān)持性顯著惡化。要提示/ 解釋組表現(xiàn)接近對照組,傷害極小,甚至部分人略有提升。基本不用AI 組表現(xiàn)最好,正確率最高,放棄率最低,甚至超過純對照組。這表明AI使用的方式對于個(gè)人獨(dú)立面對問題時(shí)的表現(xiàn)影響巨大。
我們的大腦為何會被AI重塑?
但是,為什么AI能在10分鐘內(nèi)就能如此影響到我們的大腦?
研究團(tuán)隊(duì)認(rèn)為,有兩個(gè)機(jī)制或許可解釋這一現(xiàn)象。
首先是即時(shí)滿足導(dǎo)致預(yù)期扭曲,進(jìn)而帶來努力厭惡。AI 秒給答案,讓普通人形成“問題=瞬間解決”的心理預(yù)期和多巴胺路徑后,效率閾值被無限拉高了。研究將其歸因于“享樂適應(yīng)”(Hedonic Adaption),當(dāng)突然失去AI,需要自己花1 分鐘、3 分鐘、5 分鐘思考時(shí),大腦會覺得:“這太慢了、太麻煩了、太痛苦了”。這種主觀難度的急劇上升,讓大腦本能地逃避、放棄。更令人擔(dān)心的是,這是自我強(qiáng)化的惡性循環(huán):越依賴AI,就越覺得獨(dú)立思考辛苦,從而越依賴AI,越不想思考。[3]
另外,AI剝奪了學(xué)習(xí)中的有效掙扎,導(dǎo)致元認(rèn)知退化。認(rèn)知科學(xué)顯示:真正的學(xué)習(xí),發(fā)生在掙扎中。如同健身過程的肌肉撕裂和重建,自己算錯(cuò)題、找思路、啃難點(diǎn),這個(gè)過程不僅重建神經(jīng)元連接,學(xué)會新知識,更會知道:我能靠自己解決難題,這種元認(rèn)知校準(zhǔn)和信心建立是堅(jiān)持性的心理根基。AI 直接給答案,徹底剝奪了大腦掙扎的機(jī)會。從未體驗(yàn)過“靠自己攻克難題” 的成就感,也從未建立“我能行”的信念。一旦AI 消失,面對難題的第一反應(yīng)不是“我試試”,而是“我不會,放棄”。[4]
每一天的AI 依賴,都只帶來一點(diǎn)點(diǎn)微小的傷害,完全察覺不到,但日積月累,研究團(tuán)隊(duì)形容這將“猶如溫水煮青蛙”,導(dǎo)致后果最后難以收拾。
AI系統(tǒng)應(yīng)該重新設(shè)計(jì)?
從文字、算盤、計(jì)算器,到互聯(lián)網(wǎng)、搜索引擎,人類一直在用工具拓展能力邊界。但歷史反復(fù)證明:工具越強(qiáng)大,越考驗(yàn)我們使用工具的智慧。AI 是人類有史以來最強(qiáng)大的認(rèn)知工具,可以把高密度信息瞬時(shí)推送到面前,也可以在短短10 分鐘內(nèi),悄悄瓦解我們的認(rèn)知能力和韌性。
研究團(tuán)隊(duì)明確提出:AI的發(fā)展,不能只追求“即時(shí)好用”,必須兼顧長期能力培養(yǎng)。就像好導(dǎo)師知道“什么時(shí)候不幫忙”,未來的AI,也應(yīng)該學(xué)會適度拒絕、引導(dǎo)思考、分步提示、延遲滿足,而不是一味秒給答案、討好用戶。
該研究的通訊作者、MIT教授Michiel Bakker在接受《連線》(The Wired)雜志采訪時(shí)指出,“直接給出答案的系統(tǒng),與為用戶搭建思考支架、提供引導(dǎo)輔導(dǎo)或是向用戶提出思辨挑戰(zhàn)的系統(tǒng),二者帶來的長期影響截然不同”。[5]
該研究仍然存在一定局限。比如樣本以美國成年人為主,是否適用于兒童、老人、不同文化背景,仍需驗(yàn)證,而且題目對中國成年人來說,可能相對簡單。實(shí)驗(yàn)任務(wù)為短期認(rèn)知任務(wù),長期日常使用的累積效應(yīng),仍需縱向追蹤研究。另外僅測試了GPT5 ,不同AI 設(shè)計(jì)的影響,仍需進(jìn)一步探索。但這些局限,絲毫不影響其核心結(jié)論。當(dāng)下“秒給答案、永不拒絕” 的AI 使用模式,對人類堅(jiān)持性與獨(dú)立能力的傷害,值得深思。
參考文獻(xiàn):
[1]AI Assistance Reduces Persistence and Hurts Independent Performance, https://arxiv.org/abs/2604.04721v2
[2] Counting on AI to Solve Problems Makes Us More Likely to Struggle and Give Up, Study Suggests. https://www.cnet.com/tech/services-and-software/counting-on-ai-to-solve-problems-makes-us-more-likely-to-struggle-and-give-up-study-suggests/
[3] Philip Brickman. Hedonic relativism and planning the good society. Adaptation level theory, pp. 287–301, 1971.
[4] Nick Yeung and Christopher Summerffeld. Metacognition in human decision-making: conffdence and error monitoring. Philosophical Transactions of the Royal Society B: Biological Sciences, 367(1594):1310–1321, 2012.
[5] https://www.wired.com/story/using-ai-negative-impact-thinking-problem-solving-study/
來源:賽先生
編輯:檸七
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場
如需轉(zhuǎn)載請聯(lián)系原公眾號
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.