近日,復(fù)旦大學一場特殊的“反套路”期末考試結(jié)束。
在該校“數(shù)據(jù)挖掘技術(shù)”課程考試中,學生們沒有坐在考場里答題,反而成了出題人。
他們用自己設(shè)計的10道題去“考倒”三個當今最先進的AI模型。AI答錯的題越多、被難倒的模型越強,出題學生的得分就越高。
![]()
Fudan University has replaced a traditional final exam with an AI challenge, asking students to create questions that stump leading AI models instead of answering them.
據(jù)了解,51份期末試卷中,50人至少讓某個AI答錯過一題,僅1人完全沒難倒任何模型。但能讓任一模型整張卷得0分的,只有4人,且三個應(yīng)考模型中最強的Claude模型沒有被任何學生完全考倒。全班平均分85.7分,中位數(shù)88分。
Of the 51 students, 50 managed to make at least one model answer a question incorrectly. Four produced question sets that completely defeated one of the models, though none managed to fully stump Claude, the strongest model in the test.
“AI答錯越多,學生得分越高”
“傳統(tǒng)的出題考察方式,在AI時代已經(jīng)失效了。”教授“數(shù)據(jù)挖掘技術(shù)”課程的肖仰華教授說,“老師出一道標準的算法題,AI比任何學生都算得快、算得準。繼續(xù)用這種方式考,等于在AI的強項上跟AI比,這沒有意義。”
于是,“數(shù)據(jù)挖掘技術(shù)”的期末作業(yè)修改了考試方式:每人出10道數(shù)據(jù)挖掘領(lǐng)域的計算題,要求有唯一正確答案和完整的推導計算過程。拿著這10道題去考三個不同水平的AI模型。 AI答錯越多,學生得分越高。
The assessment was part of a data mining course, where students designed 10 computational questions based on course material, each with a single correct answer and a complete solution.
The questions were tested on three AI models, and the more mistakes the models made, the higher the student's score.
Professor Xiao Yanghua said traditional exams focused on calculation have become less meaningful in the AI era, as AI can often solve standard problems faster and more accurately than students.
![]()
“人考AI”考核流程示意圖(出題→AI作答→自動判分→助教復(fù)核)
題目必須基于課程講過的知識或教材內(nèi)容,每道題要有唯一正確答案,學生自己得先能把題從頭到尾算對。肖仰華說:“自己出的題自己都不會,那算不上真本事。”
計算與智能創(chuàng)新學院24級本科生謝錦樹最后拿到了97分。他嘗試讓AI出題來難倒自己,便搭建了一個多智能體協(xié)作的自動化出題框架,用GPT-5.5-Pro做出題層,三個應(yīng)考模型作答并自動判分。框架跑起來后,他發(fā)現(xiàn)AI會“作弊”。
AI會偽造標準答案,把假答案塞進去,讓判分腳本以為對了。它會限制最大輸出長度來截斷其他模型的推理過程。它會調(diào)低推理深度參數(shù),讓其他模型懶得深入思考。它還會把一道成功了的題目復(fù)制十份來湊數(shù)。
于是,謝錦樹加了一個審查層,攔截鉆空子行為,最終自動生成了10道題,三個應(yīng)考模型全部答錯。
![]()
從“怎么算”到“怎么判斷”
考試結(jié)束后,肖仰華觀察到一個差異,即高分學生自己能把題從頭到尾算對,低分學生出了題自己也不知道答案。
“高分同學對AI的弱點有準確判斷,他們的題能命中AI的結(jié)構(gòu)性缺陷;低分同學只是把課本習題換了個數(shù)字,AI在訓練時見過千百萬遍,直接套模板就對了。”
這一觀察,讓肖仰華心生警惕。那些能力本來就偏弱的學生,如果只會依賴AI做作業(yè),自己的判斷力會進一步退化。
After the exam, Xiao found that top-performing students not only understood the course content but also knew where AI was likely to fail. By contrast, lower-scoring students often relied on familiar textbook-style questions that AI could easily solve.
![]()
有了這次嘗試,肖仰華決定之后課程的考核方式要徹底轉(zhuǎn)型。“人考AI”的模式會繼續(xù)做下去,而且要做得更系統(tǒng)。
在他看來,傳統(tǒng)那種考記憶、考計算的出題方式必須退場,未來的考核重點將全面轉(zhuǎn)向評價能力、判斷能力和創(chuàng)造性思維,這些高階能力才是AI替代不了的。
Xiao said the course will continue using the "human tests AI" format, shifting its focus from memorization and calculation to judgment, critical thinking and creativity — skills he believes remain essential in the age of AI.
“所以課堂上更多的時間被用來討論,學生怎么判斷一個結(jié)果是對的還是錯的?怎么識別AI在哪里會出問題?怎么提出一個AI回答不了的好問題?”肖仰華認為,這門課正在從訓練學生“怎么做”,轉(zhuǎn)向訓練他們“怎么指揮AI來做、怎么評判AI做的結(jié)果”。
![]()
而對于在這次考試中沒拿到好成績的同學,肖仰華表示,接下來的課程設(shè)計也會有意識去托住這部分學生,幫他們建立最基本的判斷底線,不能讓他們成為只會點擊“確認”的AI使用者。
來源:中國青年報 復(fù)旦大學
跟著China Daily
精讀英語新聞
“無痛”學英語,每天20分鐘就夠!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.