網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

4名大學(xué)生讓AI考0分，復(fù)旦肖仰華：學(xué)生能力差距正被AI拉大

2026-07-05 20:53:22　來(lái)源: 上觀新聞

上海舉報(bào)

分享至

51名學(xué)生，51份期末考卷，每份考卷都不一樣，但是考卷上的這10道題是不是能夠難倒三個(gè)當(dāng)今最先進(jìn)的AI模型，才是期末考試分?jǐn)?shù)的評(píng)判標(biāo)準(zhǔn)。這是復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授肖仰華“數(shù)據(jù)挖掘技術(shù)”課的期末考試。學(xué)生是出題人，自己設(shè)計(jì)10道題，AI答錯(cuò)的題越多、被難倒的模型越強(qiáng)，學(xué)生的得分就越高。

最終，51份期末試卷中，50人至少讓某個(gè)AI答錯(cuò)過(guò)一題，僅1人完全沒(méi)難倒任何模型。但能讓任一模型整張卷得0分的，只有4人，且三個(gè)應(yīng)考模型中最強(qiáng)的Claude模型沒(méi)有被任何學(xué)生完全考倒。全班平均分85.7分，中位數(shù)88分。

“傳統(tǒng)考察方式，在AI時(shí)代已經(jīng)失效了。”肖仰華說(shuō)，過(guò)去期末考試考的是學(xué)生會(huì)不會(huì)算一道題，但關(guān)聯(lián)規(guī)則、決策樹(shù)、貝葉斯分類(lèi)……恰恰是AI最擅長(zhǎng)的，“再這樣考察學(xué)生，等于是讓學(xué)生與AI比拼AI的強(qiáng)項(xiàng)，沒(méi)有意義。”

所以，“數(shù)據(jù)挖掘技術(shù)”的期末作業(yè)改成，每人出10道數(shù)據(jù)挖掘領(lǐng)域的計(jì)算題，要求有唯一正確答案和完整的推導(dǎo)計(jì)算過(guò)程。拿著這10道題去考三個(gè)不同水平的AI模型。只要認(rèn)真出滿(mǎn)10道合規(guī)題就有60分保底，難倒AI是加分項(xiàng)。AI答錯(cuò)越多，學(xué)生得分越高，封頂100分。

三個(gè)模型對(duì)應(yīng)三個(gè)難度梯度：

DeepSeek V4-Flash答錯(cuò)一題+1.5分、MiniMax M2.7答錯(cuò)一題+2分、Claude Sonnet 4.6答錯(cuò)一題+3分。總分=60分保底+AI難度分。

考題還需要遵循幾條硬性規(guī)則。題目必須基于課程講過(guò)的知識(shí)或教材內(nèi)容，每道題要有唯一正確答案，學(xué)生自己得先能把題從頭到尾算對(duì)。“自己出的題自己都不會(huì)，那算不上真本事。”肖仰華說(shuō)。

深入理解知識(shí)，就能找到AI的盲區(qū)

“我要讓學(xué)生相信，只要你真正深入理解了知識(shí)，你就能找到AI的盲區(qū)。這不是運(yùn)氣，是能力。”肖仰華說(shuō)。

計(jì)算與智能創(chuàng)新學(xué)院24級(jí)本科生謝錦樹(shù)最后拿到了97分。他出的10題全是SHAP值、HITS、HMM、ChiMerge、CART+貝葉斯網(wǎng)絡(luò)這類(lèi)重計(jì)算題，標(biāo)準(zhǔn)答案經(jīng)獨(dú)立驗(yàn)算正確，三個(gè)模型幾乎全錯(cuò)。

謝錦樹(shù)翻教材自己設(shè)計(jì)題目，發(fā)現(xiàn)如果把教科書(shū)原題有意進(jìn)行修改，AI仍會(huì)依據(jù)訓(xùn)練時(shí)學(xué)到解題思路給出答案，并不會(huì)調(diào)整；做選擇題時(shí)，去掉部分選項(xiàng)和保留全部選項(xiàng)，AI給出的答案也不一樣，即使正確答案一直在選項(xiàng)里，“這說(shuō)明AI在專(zhuān)業(yè)知識(shí)上的幻覺(jué)相當(dāng)嚴(yán)重”。

但10道題的體量靠人工完成效率太低。于是他嘗試讓AI出題來(lái)難倒自己。

他搭建了一個(gè)多智能體協(xié)作的自動(dòng)化出題框架，用GPT-5.5-Pro做出題層，三個(gè)應(yīng)考模型作答并自動(dòng)判分。框架跑起來(lái)后，他發(fā)現(xiàn)AI會(huì)“作弊”。

比起老老實(shí)實(shí)出一道高質(zhì)量的難題，AI更傾向于攻擊評(píng)測(cè)腳本本身。它會(huì)偽造標(biāo)準(zhǔn)答案，把假答案塞進(jìn)去讓判分腳本以為對(duì)了。它會(huì)限制最大輸出長(zhǎng)度來(lái)截?cái)嗥渌Ｐ偷耐评磉^(guò)程。它會(huì)調(diào)低推理深度參數(shù)讓其他模型懶得深入思考。它還會(huì)把一道成功了的題目復(fù)制十份來(lái)湊數(shù)。

于是他加了一個(gè)審查層，由人類(lèi)給審查模型補(bǔ)充規(guī)則，攔截鉆空子行為，審查通過(guò)了再把題目送去考那三個(gè)模型。這套框架跑了四天，中間不斷迭代，最終自動(dòng)生成了10道題，三個(gè)應(yīng)考模型全部答錯(cuò)。

與謝錦樹(shù)不同，計(jì)算與智能創(chuàng)新學(xué)院23級(jí)本科生巫瀚東選擇的策略是“規(guī)模碾壓”。他出題時(shí)把數(shù)據(jù)量拉到AI輸入上限的邊緣。“AI本質(zhì)上沒(méi)有記憶能力，數(shù)據(jù)量大到一定程度，它就會(huì)遺忘前面的信息。”巫瀚東說(shuō)。一個(gè)問(wèn)答式AI無(wú)法調(diào)用工具進(jìn)行精確計(jì)算，只能靠“注意力機(jī)制”抓重點(diǎn)，但只要漏掉一個(gè)值，整道題就錯(cuò)了。當(dāng)他把大規(guī)模數(shù)據(jù)這個(gè)思路加進(jìn)去，十分鐘就設(shè)計(jì)出了難倒AI的題目。

除了數(shù)據(jù)和計(jì)算層面的設(shè)計(jì)，也有學(xué)生在題目結(jié)構(gòu)上做文章。

經(jīng)濟(jì)學(xué)院23級(jí)本科生溫嘉宸的10道選擇題標(biāo)準(zhǔn)答案全是E，也就是“以上都不是”。

他考察的是，大模型能否跳出題目本身，審視題目自身信息不充足這個(gè)事實(shí)。每道題看上去像有確定性的答案，但其實(shí)題干缺少關(guān)鍵假設(shè)條件，邏輯上無(wú)法得出明確結(jié)論，正確做法只能選E。“這專(zhuān)治模型非要給個(gè)確定答案的慣性，考的不僅僅是解題能力，更是元認(rèn)知能力，即能不能意識(shí)到這道題本身就不該有答案。”肖仰華解釋道。

新聞學(xué)院24級(jí)傳播學(xué)專(zhuān)業(yè)的本科生黎育嘉也是少數(shù)跨專(zhuān)業(yè)選課的學(xué)生。她選擇從教材習(xí)題出發(fā)，尋找細(xì)節(jié)漏洞。她設(shè)計(jì)的一道題關(guān)于規(guī)則有趣度，需要從兩個(gè)變量綜合考慮。題干先引導(dǎo)AI算出其中一個(gè)變量，讓它只盯著這一項(xiàng)，忽略了另一個(gè)關(guān)鍵條件，最終答案與正確結(jié)果完全不同。

考分背后，學(xué)生能力的分層正在被AI拉大

“讓AI偶爾翻車(chē)很容易，讓最先進(jìn)的模型系統(tǒng)性歸零非常難。但為什么有的學(xué)生讓AI全部做錯(cuò)？”肖仰華觀察到一個(gè)最大的差異，即高分學(xué)生自己能把題從頭到尾算對(duì)，低分學(xué)生出了題自己也不知道答案。

“二者的差距不在出計(jì)算題還是概念題。”肖仰華說(shuō)，低分段的同學(xué)也在出Apriori自連接、k-means、PCA重構(gòu)這些題，但數(shù)據(jù)規(guī)模小、計(jì)算步數(shù)少、答案是課本上的例題水平。高分段的同學(xué)出的是長(zhǎng)鏈條、高精度、零容錯(cuò)的計(jì)算任務(wù)，比如20條交易建整棵FP-tree、整張CSV跑所有三元組、精確到小數(shù)點(diǎn)后四位。

“高分同學(xué)對(duì)AI的弱點(diǎn)有準(zhǔn)確判斷，他們的題能命中AI的結(jié)構(gòu)性缺陷；低分同學(xué)只是把課本習(xí)題換了個(gè)數(shù)字，AI在訓(xùn)練時(shí)見(jiàn)過(guò)千百萬(wàn)遍，直接套模板就對(duì)了。”肖仰華說(shuō)，在這個(gè)現(xiàn)象背后，是學(xué)生能力的分層正在被AI拉大，這種差距比傳統(tǒng)考試體現(xiàn)出來(lái)的問(wèn)題更加嚴(yán)峻。那些能力本來(lái)就偏弱的學(xué)生，如果只會(huì)依賴(lài)AI做作業(yè)，自己的判斷力會(huì)進(jìn)一步退化。強(qiáng)的更強(qiáng)、弱的更弱，“AI正在放大這種‘馬太效應(yīng)’。”

教學(xué)與考核方式必須徹底變革

這場(chǎng)“人考AI”的期末考核，也只是“數(shù)據(jù)挖掘技術(shù)”課教學(xué)改革的一部分。AI是大勢(shì)所趨，無(wú)法拒絕，課程必須擁抱AI，這是肖仰華很早就確立的基本判斷。在“人考AI”之前，他已經(jīng)對(duì)課程的內(nèi)容進(jìn)行了改革，同時(shí)他鼓勵(lì)學(xué)生把AI當(dāng)作學(xué)習(xí)伙伴，遇到概念不清楚的，先問(wèn)AI再來(lái)課堂討論。今年在這門(mén)課上，肖仰華全面引入了師生團(tuán)隊(duì)自研的智能體（GenericAgent），用于完成課程項(xiàng)目。而且有了AI輔助后，實(shí)踐訓(xùn)練從一學(xué)期一到兩次變成了每課一練，本學(xué)期課程訓(xùn)練作業(yè)就有9次之多。“學(xué)生動(dòng)手的頻次上來(lái)了，對(duì)算法的理解也從紙面走向了真實(shí)場(chǎng)景。”

課程考核方式必須徹底轉(zhuǎn)型。肖仰華告訴記者，“人考AI”的模式會(huì)繼續(xù)做下去，而且要做得更系統(tǒng)。傳統(tǒng)那種考記憶、考計(jì)算的出題方式必須退場(chǎng)，未來(lái)的考核重點(diǎn)將全面轉(zhuǎn)向評(píng)價(jià)能力、判斷能力和創(chuàng)造性思維，這些高階能力才是AI替代不了的。課程的教學(xué)重心也在慢慢轉(zhuǎn)移。過(guò)去講算法，重點(diǎn)落在推導(dǎo)和計(jì)算上，學(xué)生要會(huì)算、會(huì)寫(xiě)代碼。但現(xiàn)在，算和寫(xiě)這些事AI都能做，而且做得不差。“所以課堂上更多的時(shí)間被用來(lái)討論，學(xué)生怎么判斷一個(gè)結(jié)果是對(duì)的還是錯(cuò)的？怎么識(shí)別AI在哪里會(huì)出問(wèn)題？怎么提出一個(gè)AI回答不了的好問(wèn)題？”肖仰華說(shuō)，從訓(xùn)練學(xué)生“怎么做”，轉(zhuǎn)向訓(xùn)練他們“怎么指揮AI來(lái)做、怎么評(píng)判AI做的結(jié)果”。

原標(biāo)題：《4名大學(xué)生讓AI考0分，復(fù)旦肖仰華：學(xué)生能力差距正被AI拉大》

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.