无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

4名大學(xué)生讓AI考0分,復(fù)旦肖仰華:學(xué)生能力差距正被AI拉大

0
分享至


51名學(xué)生,51份期末考卷,每份考卷都不一樣,但是考卷上的這10道題是不是能夠難倒三個(gè)當(dāng)今最先進(jìn)的AI模型,才是期末考試分?jǐn)?shù)的評(píng)判標(biāo)準(zhǔn)。這是復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授肖仰華“數(shù)據(jù)挖掘技術(shù)”課的期末考試。學(xué)生是出題人,自己設(shè)計(jì)10道題,AI答錯(cuò)的題越多、被難倒的模型越強(qiáng),學(xué)生的得分就越高。

最終,51份期末試卷中,50人至少讓某個(gè)AI答錯(cuò)過(guò)一題,僅1人完全沒(méi)難倒任何模型。但能讓任一模型整張卷得0分的,只有4人,且三個(gè)應(yīng)考模型中最強(qiáng)的Claude模型沒(méi)有被任何學(xué)生完全考倒。全班平均分85.7分,中位數(shù)88分。

“傳統(tǒng)考察方式,在AI時(shí)代已經(jīng)失效了。”肖仰華說(shuō),過(guò)去期末考試考的是學(xué)生會(huì)不會(huì)算一道題,但關(guān)聯(lián)規(guī)則、決策樹(shù)、貝葉斯分類(lèi)……恰恰是AI最擅長(zhǎng)的,“再這樣考察學(xué)生,等于是讓學(xué)生與AI比拼AI的強(qiáng)項(xiàng),沒(méi)有意義。”

所以,“數(shù)據(jù)挖掘技術(shù)”的期末作業(yè)改成,每人出10道數(shù)據(jù)挖掘領(lǐng)域的計(jì)算題,要求有唯一正確答案和完整的推導(dǎo)計(jì)算過(guò)程。拿著這10道題去考三個(gè)不同水平的AI模型。只要認(rèn)真出滿(mǎn)10道合規(guī)題就有60分保底,難倒AI是加分項(xiàng)。AI答錯(cuò)越多,學(xué)生得分越高,封頂100分。

三個(gè)模型對(duì)應(yīng)三個(gè)難度梯度:

DeepSeek V4-Flash答錯(cuò)一題+1.5分、MiniMax M2.7答錯(cuò)一題+2分、Claude Sonnet 4.6答錯(cuò)一題+3分。總分=60分保底+AI難度分。

考題還需要遵循幾條硬性規(guī)則。題目必須基于課程講過(guò)的知識(shí)或教材內(nèi)容,每道題要有唯一正確答案,學(xué)生自己得先能把題從頭到尾算對(duì)。“自己出的題自己都不會(huì),那算不上真本事。”肖仰華說(shuō)。


深入理解知識(shí),就能找到AI的盲區(qū)

“我要讓學(xué)生相信,只要你真正深入理解了知識(shí),你就能找到AI的盲區(qū)。這不是運(yùn)氣,是能力。”肖仰華說(shuō)。

計(jì)算與智能創(chuàng)新學(xué)院24級(jí)本科生謝錦樹(shù)最后拿到了97分。他出的10題全是SHAP值、HITS、HMM、ChiMerge、CART+貝葉斯網(wǎng)絡(luò)這類(lèi)重計(jì)算題,標(biāo)準(zhǔn)答案經(jīng)獨(dú)立驗(yàn)算正確,三個(gè)模型幾乎全錯(cuò)。

謝錦樹(shù)翻教材自己設(shè)計(jì)題目,發(fā)現(xiàn)如果把教科書(shū)原題有意進(jìn)行修改,AI仍會(huì)依據(jù)訓(xùn)練時(shí)學(xué)到解題思路給出答案,并不會(huì)調(diào)整;做選擇題時(shí),去掉部分選項(xiàng)和保留全部選項(xiàng),AI給出的答案也不一樣,即使正確答案一直在選項(xiàng)里,“這說(shuō)明AI在專(zhuān)業(yè)知識(shí)上的幻覺(jué)相當(dāng)嚴(yán)重”。

但10道題的體量靠人工完成效率太低。于是他嘗試讓AI出題來(lái)難倒自己。

他搭建了一個(gè)多智能體協(xié)作的自動(dòng)化出題框架,用GPT-5.5-Pro做出題層,三個(gè)應(yīng)考模型作答并自動(dòng)判分。框架跑起來(lái)后,他發(fā)現(xiàn)AI會(huì)“作弊”。

比起老老實(shí)實(shí)出一道高質(zhì)量的難題,AI更傾向于攻擊評(píng)測(cè)腳本本身。它會(huì)偽造標(biāo)準(zhǔn)答案,把假答案塞進(jìn)去讓判分腳本以為對(duì)了。它會(huì)限制最大輸出長(zhǎng)度來(lái)截?cái)嗥渌P偷耐评磉^(guò)程。它會(huì)調(diào)低推理深度參數(shù)讓其他模型懶得深入思考。它還會(huì)把一道成功了的題目復(fù)制十份來(lái)湊數(shù)。

于是他加了一個(gè)審查層,由人類(lèi)給審查模型補(bǔ)充規(guī)則,攔截鉆空子行為,審查通過(guò)了再把題目送去考那三個(gè)模型。這套框架跑了四天,中間不斷迭代,最終自動(dòng)生成了10道題,三個(gè)應(yīng)考模型全部答錯(cuò)。

與謝錦樹(shù)不同,計(jì)算與智能創(chuàng)新學(xué)院23級(jí)本科生巫瀚東選擇的策略是“規(guī)模碾壓”。他出題時(shí)把數(shù)據(jù)量拉到AI輸入上限的邊緣。“AI本質(zhì)上沒(méi)有記憶能力,數(shù)據(jù)量大到一定程度,它就會(huì)遺忘前面的信息。”巫瀚東說(shuō)。一個(gè)問(wèn)答式AI無(wú)法調(diào)用工具進(jìn)行精確計(jì)算,只能靠“注意力機(jī)制”抓重點(diǎn),但只要漏掉一個(gè)值,整道題就錯(cuò)了。當(dāng)他把大規(guī)模數(shù)據(jù)這個(gè)思路加進(jìn)去,十分鐘就設(shè)計(jì)出了難倒AI的題目。

除了數(shù)據(jù)和計(jì)算層面的設(shè)計(jì),也有學(xué)生在題目結(jié)構(gòu)上做文章。

經(jīng)濟(jì)學(xué)院23級(jí)本科生溫嘉宸的10道選擇題標(biāo)準(zhǔn)答案全是E,也就是“以上都不是”。

他考察的是,大模型能否跳出題目本身,審視題目自身信息不充足這個(gè)事實(shí)。每道題看上去像有確定性的答案,但其實(shí)題干缺少關(guān)鍵假設(shè)條件,邏輯上無(wú)法得出明確結(jié)論,正確做法只能選E。“這專(zhuān)治模型非要給個(gè)確定答案的慣性,考的不僅僅是解題能力,更是元認(rèn)知能力,即能不能意識(shí)到這道題本身就不該有答案。”肖仰華解釋道。

新聞學(xué)院24級(jí)傳播學(xué)專(zhuān)業(yè)的本科生黎育嘉也是少數(shù)跨專(zhuān)業(yè)選課的學(xué)生。她選擇從教材習(xí)題出發(fā),尋找細(xì)節(jié)漏洞。她設(shè)計(jì)的一道題關(guān)于規(guī)則有趣度,需要從兩個(gè)變量綜合考慮。題干先引導(dǎo)AI算出其中一個(gè)變量,讓它只盯著這一項(xiàng),忽略了另一個(gè)關(guān)鍵條件,最終答案與正確結(jié)果完全不同。

考分背后,學(xué)生能力的分層正在被AI拉大

“讓AI偶爾翻車(chē)很容易,讓最先進(jìn)的模型系統(tǒng)性歸零非常難。但為什么有的學(xué)生讓AI全部做錯(cuò)?”肖仰華觀察到一個(gè)最大的差異,即高分學(xué)生自己能把題從頭到尾算對(duì),低分學(xué)生出了題自己也不知道答案。


“二者的差距不在出計(jì)算題還是概念題。”肖仰華說(shuō),低分段的同學(xué)也在出Apriori自連接、k-means、PCA重構(gòu)這些題,但數(shù)據(jù)規(guī)模小、計(jì)算步數(shù)少、答案是課本上的例題水平。高分段的同學(xué)出的是長(zhǎng)鏈條、高精度、零容錯(cuò)的計(jì)算任務(wù),比如20條交易建整棵FP-tree、整張CSV跑所有三元組、精確到小數(shù)點(diǎn)后四位。

“高分同學(xué)對(duì)AI的弱點(diǎn)有準(zhǔn)確判斷,他們的題能命中AI的結(jié)構(gòu)性缺陷;低分同學(xué)只是把課本習(xí)題換了個(gè)數(shù)字,AI在訓(xùn)練時(shí)見(jiàn)過(guò)千百萬(wàn)遍,直接套模板就對(duì)了。”肖仰華說(shuō),在這個(gè)現(xiàn)象背后,是學(xué)生能力的分層正在被AI拉大,這種差距比傳統(tǒng)考試體現(xiàn)出來(lái)的問(wèn)題更加嚴(yán)峻。那些能力本來(lái)就偏弱的學(xué)生,如果只會(huì)依賴(lài)AI做作業(yè),自己的判斷力會(huì)進(jìn)一步退化。強(qiáng)的更強(qiáng)、弱的更弱,“AI正在放大這種‘馬太效應(yīng)’。”

教學(xué)與考核方式必須徹底變革

這場(chǎng)“人考AI”的期末考核,也只是“數(shù)據(jù)挖掘技術(shù)”課教學(xué)改革的一部分。AI是大勢(shì)所趨,無(wú)法拒絕,課程必須擁抱AI,這是肖仰華很早就確立的基本判斷。在“人考AI”之前,他已經(jīng)對(duì)課程的內(nèi)容進(jìn)行了改革,同時(shí)他鼓勵(lì)學(xué)生把AI當(dāng)作學(xué)習(xí)伙伴,遇到概念不清楚的,先問(wèn)AI再來(lái)課堂討論。今年在這門(mén)課上,肖仰華全面引入了師生團(tuán)隊(duì)自研的智能體(GenericAgent),用于完成課程項(xiàng)目。而且有了AI輔助后,實(shí)踐訓(xùn)練從一學(xué)期一到兩次變成了每課一練,本學(xué)期課程訓(xùn)練作業(yè)就有9次之多。“學(xué)生動(dòng)手的頻次上來(lái)了,對(duì)算法的理解也從紙面走向了真實(shí)場(chǎng)景。”

課程考核方式必須徹底轉(zhuǎn)型。肖仰華告訴記者,“人考AI”的模式會(huì)繼續(xù)做下去,而且要做得更系統(tǒng)。傳統(tǒng)那種考記憶、考計(jì)算的出題方式必須退場(chǎng),未來(lái)的考核重點(diǎn)將全面轉(zhuǎn)向評(píng)價(jià)能力、判斷能力和創(chuàng)造性思維,這些高階能力才是AI替代不了的。課程的教學(xué)重心也在慢慢轉(zhuǎn)移。過(guò)去講算法,重點(diǎn)落在推導(dǎo)和計(jì)算上,學(xué)生要會(huì)算、會(huì)寫(xiě)代碼。但現(xiàn)在,算和寫(xiě)這些事AI都能做,而且做得不差。“所以課堂上更多的時(shí)間被用來(lái)討論,學(xué)生怎么判斷一個(gè)結(jié)果是對(duì)的還是錯(cuò)的?怎么識(shí)別AI在哪里會(huì)出問(wèn)題?怎么提出一個(gè)AI回答不了的好問(wèn)題?”肖仰華說(shuō),從訓(xùn)練學(xué)生“怎么做”,轉(zhuǎn)向訓(xùn)練他們“怎么指揮AI來(lái)做、怎么評(píng)判AI做的結(jié)果”。

原標(biāo)題:《4名大學(xué)生讓AI考0分,復(fù)旦肖仰華:學(xué)生能力差距正被AI拉大》

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世界杯早早出局后換帥!羅馬諾:克洛普將擔(dān)任德國(guó)隊(duì)主教練

世界杯早早出局后換帥!羅馬諾:克洛普將擔(dān)任德國(guó)隊(duì)主教練

全景體育V
2026-07-05 18:19:29
壓著打!中國(guó)隊(duì)3-0掀翻澳大利亞升到第一名,徐正鵬2助攻太出色

壓著打!中國(guó)隊(duì)3-0掀翻澳大利亞升到第一名,徐正鵬2助攻太出色

何老師呀
2026-07-05 22:01:48
皇馬官宣第4簽!30歲鄧弗里斯加盟,買(mǎi)斷費(fèi)2000萬(wàn),穆帥再獲補(bǔ)強(qiáng)

皇馬官宣第4簽!30歲鄧弗里斯加盟,買(mǎi)斷費(fèi)2000萬(wàn),穆帥再獲補(bǔ)強(qiáng)

夏侯看英超
2026-07-05 20:09:55
她是大家熟悉的演員,不拍戲在法國(guó)洗碗謀生,如今遭遇高溫?zé)岬没?>
    </a>
        <h3>
      <a href=流史歲月
2026-07-03 16:00:07
世界杯19場(chǎng)19球!黃健翔:姆巴佩技術(shù)上差大羅一個(gè)檔次 不敢過(guò)門(mén)將

世界杯19場(chǎng)19球!黃健翔:姆巴佩技術(shù)上差大羅一個(gè)檔次 不敢過(guò)門(mén)將

風(fēng)過(guò)鄉(xiāng)
2026-07-05 11:09:08
0-3!輸球不可怕,可怕的是加拿大主帥賽后這番話,發(fā)布會(huì)逆轉(zhuǎn)!

0-3!輸球不可怕,可怕的是加拿大主帥賽后這番話,發(fā)布會(huì)逆轉(zhuǎn)!

田先生籃球
2026-07-05 06:59:16
姜萍最新消息!已考入常熟一高校,校園為她設(shè)“逆襲升本”宣傳欄

姜萍最新消息!已考入常熟一高校,校園為她設(shè)“逆襲升本”宣傳欄

火山詩(shī)話
2026-07-05 10:55:18
馮德萊恩:如果中國(guó)錯(cuò)過(guò)10月最后期限,歐盟所有手段都已準(zhǔn)備就緒

馮德萊恩:如果中國(guó)錯(cuò)過(guò)10月最后期限,歐盟所有手段都已準(zhǔn)備就緒

故事終將光明磊落
2026-07-05 14:45:58
零跑"神車(chē)"官宣:12.98萬(wàn),新車(chē)上市

零跑"神車(chē)"官宣:12.98萬(wàn),新車(chē)上市

科技堡壘
2026-07-05 11:25:03
22歲女子和堂哥私奔6年,想再要個(gè)小情夫,2014年被堂哥掐死

22歲女子和堂哥私奔6年,想再要個(gè)小情夫,2014年被堂哥掐死

漢史趣聞
2026-07-05 14:44:06
快訊!臺(tái)北市長(zhǎng)蔣萬(wàn)安正式宣布了!

快訊!臺(tái)北市長(zhǎng)蔣萬(wàn)安正式宣布了!

故事終將光明磊落
2026-07-05 13:57:32
震撼全網(wǎng)!耿同學(xué)怒扒中山大學(xué)副院長(zhǎng):史上最假Nature論文!

震撼全網(wǎng)!耿同學(xué)怒扒中山大學(xué)副院長(zhǎng):史上最假Nature論文!

魔都囡
2026-07-05 11:45:37
中超無(wú)罰分積分榜:申花升至第2,蓉城領(lǐng)先優(yōu)勢(shì)仍達(dá)12分

中超無(wú)罰分積分榜:申花升至第2,蓉城領(lǐng)先優(yōu)勢(shì)仍達(dá)12分

懂球帝
2026-07-05 22:29:06
堪比足球隊(duì),勇士夏聯(lián)名單共25人,分為金隊(duì)和藍(lán)隊(duì)

堪比足球隊(duì),勇士夏聯(lián)名單共25人,分為金隊(duì)和藍(lán)隊(duì)

懂球帝
2026-07-05 18:45:02
低價(jià)套餐不給辦?移動(dòng)人員提醒:辦理套餐繞開(kāi)10086,就打這3個(gè)

低價(jià)套餐不給辦?移動(dòng)人員提醒:辦理套餐繞開(kāi)10086,就打這3個(gè)

粵語(yǔ)音樂(lè)噴泉
2026-07-04 05:36:10
德天空:紅牛集團(tuán)要求德國(guó)足協(xié)支付補(bǔ)償,才會(huì)放行克洛普

德天空:紅牛集團(tuán)要求德國(guó)足協(xié)支付補(bǔ)償,才會(huì)放行克洛普

懂球帝
2026-07-05 22:29:07
王力宏回應(yīng)演唱會(huì)摔傷,臉部耳朵共縫39針,治療照曝光疤痕明顯

王力宏回應(yīng)演唱會(huì)摔傷,臉部耳朵共縫39針,治療照曝光疤痕明顯

扒蝦侃娛
2026-07-05 03:44:12
扎哈羅娃:俄羅斯勸誡和平的方法已經(jīng)改變

扎哈羅娃:俄羅斯勸誡和平的方法已經(jīng)改變

參考消息
2026-07-05 15:12:35
伊朗已故最高領(lǐng)袖哈梅內(nèi)伊三個(gè)兒子現(xiàn)身告別儀式

伊朗已故最高領(lǐng)袖哈梅內(nèi)伊三個(gè)兒子現(xiàn)身告別儀式

極目新聞
2026-07-05 18:23:02
曾仕強(qiáng):連蜜蜂和蒼蠅都避開(kāi)的食物,為什么我們卻天天吃?

曾仕強(qiáng):連蜜蜂和蒼蠅都避開(kāi)的食物,為什么我們卻天天吃?

夸大其詞的說(shuō)
2026-07-02 16:48:06
2026-07-06 00:35:00
上觀新聞 incentive-icons
上觀新聞
站上海,觀天下
508209文章數(shù) 762696關(guān)注度
往期回顧 全部

教育要聞

“六大”之后,這所四星高中絕對(duì)是最優(yōu)選擇!

頭條要聞

醫(yī)院給老人一次拔12顆牙種10顆 官方:將頂格行政處罰

頭條要聞

醫(yī)院給老人一次拔12顆牙種10顆 官方:將頂格行政處罰

體育要聞

姆巴佩點(diǎn)走巴拉圭:巴黎三代左鋒傳承

娛樂(lè)要聞

霉霉婚禮照片泄露 有四人違規(guī)

財(cái)經(jīng)要聞

揭秘跨境“對(duì)敲”換匯黑產(chǎn)

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

汽車(chē)要聞

方程豹鈦9內(nèi)飾曝光 用上了長(zhǎng)聯(lián)屏設(shè)計(jì)/下半年上市

態(tài)度原創(chuàng)

數(shù)碼
親子
時(shí)尚
藝術(shù)
本地

數(shù)碼要聞

安克上線官翻產(chǎn)品旗艦店,提供官方保修和售后保障

親子要聞

工程車(chē)愛(ài)游泳

3年賺46億,楊冪喊出一個(gè)安徽富豪

藝術(shù)要聞

畫(huà)布上邂逅一場(chǎng)光影之戀:俄羅斯油畫(huà)大師的溫柔人間

本地新聞

國(guó)內(nèi)足球之旅?這座小城給你高分答案

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版