![]()
51名學(xué)生,51份期末考卷,每份考卷都不一樣,但是考卷上的這10道題是不是能夠難倒三個(gè)當(dāng)今最先進(jìn)的AI模型,才是期末考試分?jǐn)?shù)的評(píng)判標(biāo)準(zhǔn)。這是復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授肖仰華“數(shù)據(jù)挖掘技術(shù)”課的期末考試。學(xué)生是出題人,自己設(shè)計(jì)10道題,AI答錯(cuò)的題越多、被難倒的模型越強(qiáng),學(xué)生的得分就越高。
最終,51份期末試卷中,50人至少讓某個(gè)AI答錯(cuò)過(guò)一題,僅1人完全沒(méi)難倒任何模型。但能讓任一模型整張卷得0分的,只有4人,且三個(gè)應(yīng)考模型中最強(qiáng)的Claude模型沒(méi)有被任何學(xué)生完全考倒。全班平均分85.7分,中位數(shù)88分。
“傳統(tǒng)考察方式,在AI時(shí)代已經(jīng)失效了。”肖仰華說(shuō),過(guò)去期末考試考的是學(xué)生會(huì)不會(huì)算一道題,但關(guān)聯(lián)規(guī)則、決策樹(shù)、貝葉斯分類(lèi)……恰恰是AI最擅長(zhǎng)的,“再這樣考察學(xué)生,等于是讓學(xué)生與AI比拼AI的強(qiáng)項(xiàng),沒(méi)有意義。”
所以,“數(shù)據(jù)挖掘技術(shù)”的期末作業(yè)改成,每人出10道數(shù)據(jù)挖掘領(lǐng)域的計(jì)算題,要求有唯一正確答案和完整的推導(dǎo)計(jì)算過(guò)程。拿著這10道題去考三個(gè)不同水平的AI模型。只要認(rèn)真出滿(mǎn)10道合規(guī)題就有60分保底,難倒AI是加分項(xiàng)。AI答錯(cuò)越多,學(xué)生得分越高,封頂100分。
三個(gè)模型對(duì)應(yīng)三個(gè)難度梯度:
DeepSeek V4-Flash答錯(cuò)一題+1.5分、MiniMax M2.7答錯(cuò)一題+2分、Claude Sonnet 4.6答錯(cuò)一題+3分。總分=60分保底+AI難度分。
考題還需要遵循幾條硬性規(guī)則。題目必須基于課程講過(guò)的知識(shí)或教材內(nèi)容,每道題要有唯一正確答案,學(xué)生自己得先能把題從頭到尾算對(duì)。“自己出的題自己都不會(huì),那算不上真本事。”肖仰華說(shuō)。
![]()
深入理解知識(shí),就能找到AI的盲區(qū)
“我要讓學(xué)生相信,只要你真正深入理解了知識(shí),你就能找到AI的盲區(qū)。這不是運(yùn)氣,是能力。”肖仰華說(shuō)。
計(jì)算與智能創(chuàng)新學(xué)院24級(jí)本科生謝錦樹(shù)最后拿到了97分。他出的10題全是SHAP值、HITS、HMM、ChiMerge、CART+貝葉斯網(wǎng)絡(luò)這類(lèi)重計(jì)算題,標(biāo)準(zhǔn)答案經(jīng)獨(dú)立驗(yàn)算正確,三個(gè)模型幾乎全錯(cuò)。
謝錦樹(shù)翻教材自己設(shè)計(jì)題目,發(fā)現(xiàn)如果把教科書(shū)原題有意進(jìn)行修改,AI仍會(huì)依據(jù)訓(xùn)練時(shí)學(xué)到解題思路給出答案,并不會(huì)調(diào)整;做選擇題時(shí),去掉部分選項(xiàng)和保留全部選項(xiàng),AI給出的答案也不一樣,即使正確答案一直在選項(xiàng)里,“這說(shuō)明AI在專(zhuān)業(yè)知識(shí)上的幻覺(jué)相當(dāng)嚴(yán)重”。
但10道題的體量靠人工完成效率太低。于是他嘗試讓AI出題來(lái)難倒自己。
他搭建了一個(gè)多智能體協(xié)作的自動(dòng)化出題框架,用GPT-5.5-Pro做出題層,三個(gè)應(yīng)考模型作答并自動(dòng)判分。框架跑起來(lái)后,他發(fā)現(xiàn)AI會(huì)“作弊”。
比起老老實(shí)實(shí)出一道高質(zhì)量的難題,AI更傾向于攻擊評(píng)測(cè)腳本本身。它會(huì)偽造標(biāo)準(zhǔn)答案,把假答案塞進(jìn)去讓判分腳本以為對(duì)了。它會(huì)限制最大輸出長(zhǎng)度來(lái)截?cái)嗥渌P偷耐评磉^(guò)程。它會(huì)調(diào)低推理深度參數(shù)讓其他模型懶得深入思考。它還會(huì)把一道成功了的題目復(fù)制十份來(lái)湊數(shù)。
于是他加了一個(gè)審查層,由人類(lèi)給審查模型補(bǔ)充規(guī)則,攔截鉆空子行為,審查通過(guò)了再把題目送去考那三個(gè)模型。這套框架跑了四天,中間不斷迭代,最終自動(dòng)生成了10道題,三個(gè)應(yīng)考模型全部答錯(cuò)。
與謝錦樹(shù)不同,計(jì)算與智能創(chuàng)新學(xué)院23級(jí)本科生巫瀚東選擇的策略是“規(guī)模碾壓”。他出題時(shí)把數(shù)據(jù)量拉到AI輸入上限的邊緣。“AI本質(zhì)上沒(méi)有記憶能力,數(shù)據(jù)量大到一定程度,它就會(huì)遺忘前面的信息。”巫瀚東說(shuō)。一個(gè)問(wèn)答式AI無(wú)法調(diào)用工具進(jìn)行精確計(jì)算,只能靠“注意力機(jī)制”抓重點(diǎn),但只要漏掉一個(gè)值,整道題就錯(cuò)了。當(dāng)他把大規(guī)模數(shù)據(jù)這個(gè)思路加進(jìn)去,十分鐘就設(shè)計(jì)出了難倒AI的題目。
除了數(shù)據(jù)和計(jì)算層面的設(shè)計(jì),也有學(xué)生在題目結(jié)構(gòu)上做文章。
經(jīng)濟(jì)學(xué)院23級(jí)本科生溫嘉宸的10道選擇題標(biāo)準(zhǔn)答案全是E,也就是“以上都不是”。
他考察的是,大模型能否跳出題目本身,審視題目自身信息不充足這個(gè)事實(shí)。每道題看上去像有確定性的答案,但其實(shí)題干缺少關(guān)鍵假設(shè)條件,邏輯上無(wú)法得出明確結(jié)論,正確做法只能選E。“這專(zhuān)治模型非要給個(gè)確定答案的慣性,考的不僅僅是解題能力,更是元認(rèn)知能力,即能不能意識(shí)到這道題本身就不該有答案。”肖仰華解釋道。
新聞學(xué)院24級(jí)傳播學(xué)專(zhuān)業(yè)的本科生黎育嘉也是少數(shù)跨專(zhuān)業(yè)選課的學(xué)生。她選擇從教材習(xí)題出發(fā),尋找細(xì)節(jié)漏洞。她設(shè)計(jì)的一道題關(guān)于規(guī)則有趣度,需要從兩個(gè)變量綜合考慮。題干先引導(dǎo)AI算出其中一個(gè)變量,讓它只盯著這一項(xiàng),忽略了另一個(gè)關(guān)鍵條件,最終答案與正確結(jié)果完全不同。
考分背后,學(xué)生能力的分層正在被AI拉大
“讓AI偶爾翻車(chē)很容易,讓最先進(jìn)的模型系統(tǒng)性歸零非常難。但為什么有的學(xué)生讓AI全部做錯(cuò)?”肖仰華觀察到一個(gè)最大的差異,即高分學(xué)生自己能把題從頭到尾算對(duì),低分學(xué)生出了題自己也不知道答案。
![]()
“二者的差距不在出計(jì)算題還是概念題。”肖仰華說(shuō),低分段的同學(xué)也在出Apriori自連接、k-means、PCA重構(gòu)這些題,但數(shù)據(jù)規(guī)模小、計(jì)算步數(shù)少、答案是課本上的例題水平。高分段的同學(xué)出的是長(zhǎng)鏈條、高精度、零容錯(cuò)的計(jì)算任務(wù),比如20條交易建整棵FP-tree、整張CSV跑所有三元組、精確到小數(shù)點(diǎn)后四位。
“高分同學(xué)對(duì)AI的弱點(diǎn)有準(zhǔn)確判斷,他們的題能命中AI的結(jié)構(gòu)性缺陷;低分同學(xué)只是把課本習(xí)題換了個(gè)數(shù)字,AI在訓(xùn)練時(shí)見(jiàn)過(guò)千百萬(wàn)遍,直接套模板就對(duì)了。”肖仰華說(shuō),在這個(gè)現(xiàn)象背后,是學(xué)生能力的分層正在被AI拉大,這種差距比傳統(tǒng)考試體現(xiàn)出來(lái)的問(wèn)題更加嚴(yán)峻。那些能力本來(lái)就偏弱的學(xué)生,如果只會(huì)依賴(lài)AI做作業(yè),自己的判斷力會(huì)進(jìn)一步退化。強(qiáng)的更強(qiáng)、弱的更弱,“AI正在放大這種‘馬太效應(yīng)’。”
教學(xué)與考核方式必須徹底變革
這場(chǎng)“人考AI”的期末考核,也只是“數(shù)據(jù)挖掘技術(shù)”課教學(xué)改革的一部分。AI是大勢(shì)所趨,無(wú)法拒絕,課程必須擁抱AI,這是肖仰華很早就確立的基本判斷。在“人考AI”之前,他已經(jīng)對(duì)課程的內(nèi)容進(jìn)行了改革,同時(shí)他鼓勵(lì)學(xué)生把AI當(dāng)作學(xué)習(xí)伙伴,遇到概念不清楚的,先問(wèn)AI再來(lái)課堂討論。今年在這門(mén)課上,肖仰華全面引入了師生團(tuán)隊(duì)自研的智能體(GenericAgent),用于完成課程項(xiàng)目。而且有了AI輔助后,實(shí)踐訓(xùn)練從一學(xué)期一到兩次變成了每課一練,本學(xué)期課程訓(xùn)練作業(yè)就有9次之多。“學(xué)生動(dòng)手的頻次上來(lái)了,對(duì)算法的理解也從紙面走向了真實(shí)場(chǎng)景。”
課程考核方式必須徹底轉(zhuǎn)型。肖仰華告訴記者,“人考AI”的模式會(huì)繼續(xù)做下去,而且要做得更系統(tǒng)。傳統(tǒng)那種考記憶、考計(jì)算的出題方式必須退場(chǎng),未來(lái)的考核重點(diǎn)將全面轉(zhuǎn)向評(píng)價(jià)能力、判斷能力和創(chuàng)造性思維,這些高階能力才是AI替代不了的。課程的教學(xué)重心也在慢慢轉(zhuǎn)移。過(guò)去講算法,重點(diǎn)落在推導(dǎo)和計(jì)算上,學(xué)生要會(huì)算、會(huì)寫(xiě)代碼。但現(xiàn)在,算和寫(xiě)這些事AI都能做,而且做得不差。“所以課堂上更多的時(shí)間被用來(lái)討論,學(xué)生怎么判斷一個(gè)結(jié)果是對(duì)的還是錯(cuò)的?怎么識(shí)別AI在哪里會(huì)出問(wèn)題?怎么提出一個(gè)AI回答不了的好問(wèn)題?”肖仰華說(shuō),從訓(xùn)練學(xué)生“怎么做”,轉(zhuǎn)向訓(xùn)練他們“怎么指揮AI來(lái)做、怎么評(píng)判AI做的結(jié)果”。
原標(biāo)題:《4名大學(xué)生讓AI考0分,復(fù)旦肖仰華:學(xué)生能力差距正被AI拉大》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.