无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

4名大學生出題,AI考了0分!

4名大學生出題 AI考了0分

0
分享至

近日,復(fù)旦大學一場特殊的“反套路”期末考試結(jié)束。

在該校“數(shù)據(jù)挖掘技術(shù)”課程考試中,學生們沒有坐在考場里答題,反而成了出題人。

他們用自己設(shè)計的10道題去“考倒”三個當今最先進的AI模型。AI答錯的題越多、被難倒的模型越強,出題學生的得分就越高。


Fudan University has replaced a traditional final exam with an AI challenge, asking students to create questions that stump leading AI models instead of answering them.

據(jù)了解,51份期末試卷中,50人至少讓某個AI答錯過一題,僅1人完全沒難倒任何模型。但能讓任一模型整張卷得0分的,只有4人,且三個應(yīng)考模型中最強的Claude模型沒有被任何學生完全考倒。全班平均分85.7分,中位數(shù)88分。

Of the 51 students, 50 managed to make at least one model answer a question incorrectly. Four produced question sets that completely defeated one of the models, though none managed to fully stump Claude, the strongest model in the test.

“AI答錯越多,學生得分越高”

“傳統(tǒng)的出題考察方式,在AI時代已經(jīng)失效了。”教授“數(shù)據(jù)挖掘技術(shù)”課程的肖仰華教授說,“老師出一道標準的算法題,AI比任何學生都算得快、算得準。繼續(xù)用這種方式考,等于在AI的強項上跟AI比,這沒有意義。”

于是,“數(shù)據(jù)挖掘技術(shù)”的期末作業(yè)修改了考試方式:每人出10道數(shù)據(jù)挖掘領(lǐng)域的計算題,要求有唯一正確答案和完整的推導計算過程。拿著這10道題去考三個不同水平的AI模型。 AI答錯越多,學生得分越高。

The assessment was part of a data mining course, where students designed 10 computational questions based on course material, each with a single correct answer and a complete solution.

The questions were tested on three AI models, and the more mistakes the models made, the higher the student's score.

Professor Xiao Yanghua said traditional exams focused on calculation have become less meaningful in the AI era, as AI can often solve standard problems faster and more accurately than students.

“人考AI”考核流程示意圖(出題→AI作答→自動判分→助教復(fù)核)

題目必須基于課程講過的知識或教材內(nèi)容,每道題要有唯一正確答案,學生自己得先能把題從頭到尾算對。肖仰華說:“自己出的題自己都不會,那算不上真本事。”

計算與智能創(chuàng)新學院24級本科生謝錦樹最后拿到了97分。他嘗試讓AI出題來難倒自己,便搭建了一個多智能體協(xié)作的自動化出題框架,用GPT-5.5-Pro做出題層,三個應(yīng)考模型作答并自動判分。框架跑起來后,他發(fā)現(xiàn)AI會“作弊”。

AI會偽造標準答案,把假答案塞進去,讓判分腳本以為對了。它會限制最大輸出長度來截斷其他模型的推理過程。它會調(diào)低推理深度參數(shù),讓其他模型懶得深入思考。它還會把一道成功了的題目復(fù)制十份來湊數(shù)。

于是,謝錦樹加了一個審查層,攔截鉆空子行為,最終自動生成了10道題,三個應(yīng)考模型全部答錯。


從“怎么算”到“怎么判斷”

考試結(jié)束后,肖仰華觀察到一個差異,即高分學生自己能把題從頭到尾算對,低分學生出了題自己也不知道答案。

“高分同學對AI的弱點有準確判斷,他們的題能命中AI的結(jié)構(gòu)性缺陷;低分同學只是把課本習題換了個數(shù)字,AI在訓練時見過千百萬遍,直接套模板就對了。”

這一觀察,讓肖仰華心生警惕。那些能力本來就偏弱的學生,如果只會依賴AI做作業(yè),自己的判斷力會進一步退化。

After the exam, Xiao found that top-performing students not only understood the course content but also knew where AI was likely to fail. By contrast, lower-scoring students often relied on familiar textbook-style questions that AI could easily solve.

有了這次嘗試,肖仰華決定之后課程的考核方式要徹底轉(zhuǎn)型。“人考AI”的模式會繼續(xù)做下去,而且要做得更系統(tǒng)。

在他看來,傳統(tǒng)那種考記憶、考計算的出題方式必須退場,未來的考核重點將全面轉(zhuǎn)向評價能力、判斷能力和創(chuàng)造性思維,這些高階能力才是AI替代不了的。

Xiao said the course will continue using the "human tests AI" format, shifting its focus from memorization and calculation to judgment, critical thinking and creativity — skills he believes remain essential in the age of AI.

“所以課堂上更多的時間被用來討論,學生怎么判斷一個結(jié)果是對的還是錯的?怎么識別AI在哪里會出問題?怎么提出一個AI回答不了的好問題?肖仰華認為,這門課正在從訓練學生“怎么做”,轉(zhuǎn)向訓練他們“怎么指揮AI來做、怎么評判AI做的結(jié)果”。


而對于在這次考試中沒拿到好成績的同學,肖仰華表示,接下來的課程設(shè)計也會有意識去托住這部分學生,幫他們建立最基本的判斷底線,不能讓他們成為只會點擊“確認”的AI使用者。

來源:中國青年報 復(fù)旦大學

跟著China Daily

精讀英語新聞

“無痛”學英語,每天20分鐘就夠!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
調(diào)查發(fā)現(xiàn):腦梗最怕的早餐,豆腐腦第六,第一名很多人天天都在吃

調(diào)查發(fā)現(xiàn):腦梗最怕的早餐,豆腐腦第六,第一名很多人天天都在吃

荊醫(yī)生科普
2026-07-03 16:29:43
221名女囚漂洋過海,下船時全員懷孕,這批女囚竟生出了一個國家

221名女囚漂洋過海,下船時全員懷孕,這批女囚竟生出了一個國家

抽象派大師
2026-07-01 01:39:46
哈佛10年追蹤:俯臥撐比血壓更準!每周2-3次力竭,給全身換系統(tǒng)

哈佛10年追蹤:俯臥撐比血壓更準!每周2-3次力竭,給全身換系統(tǒng)

健身狂人
2026-06-13 20:30:47
杰倫-布朗成為史上第二快被交易的FMVP

杰倫-布朗成為史上第二快被交易的FMVP

北青網(wǎng)-北京青年報
2026-07-02 19:52:02
王楚欽兼項輸球后,鄧亞萍發(fā)言翻紅!我們那個時候主力兼項是責任

王楚欽兼項輸球后,鄧亞萍發(fā)言翻紅!我們那個時候主力兼項是責任

生活新鮮市
2026-07-03 18:41:29
特斯拉中國 6 月賣了超 8.9 萬輛 Model 3/Y

特斯拉中國 6 月賣了超 8.9 萬輛 Model 3/Y

新浪財經(jīng)
2026-07-02 22:54:13
北京發(fā)布大風黃色預(yù)警信號 海淀朝陽等區(qū)局地陣風可達10級以上

北京發(fā)布大風黃色預(yù)警信號 海淀朝陽等區(qū)局地陣風可達10級以上

北青網(wǎng)-北京青年報
2026-07-03 15:18:10
法國浙江人口相當,法國GDP3萬億,浙江經(jīng)濟如何?

法國浙江人口相當,法國GDP3萬億,浙江經(jīng)濟如何?

殘夢重生來
2026-07-01 07:03:26
總分?702、語文?146!考生滿分卷面走紅,閱卷老師看后愛不釋手!

總分?702、語文?146!考生滿分卷面走紅,閱卷老師看后愛不釋手!

凱旋學長
2026-06-30 19:07:43
國臺辦發(fā)統(tǒng)一強音,鄭麗文掏出徽章,直言不諱,臺灣的未來在大陸

國臺辦發(fā)統(tǒng)一強音,鄭麗文掏出徽章,直言不諱,臺灣的未來在大陸

共工之錨
2026-07-03 00:12:18
金鷹獎大洗牌!劉亦菲出局,趙麗穎邊緣,視帝沒懸念,唯她被罵慘

金鷹獎大洗牌!劉亦菲出局,趙麗穎邊緣,視帝沒懸念,唯她被罵慘

林雁飛
2026-07-02 14:34:17
哈梅內(nèi)伊棺前擺著遇害外孫女遺照

哈梅內(nèi)伊棺前擺著遇害外孫女遺照

界面新聞
2026-07-03 16:26:19
“真希望他不是我親生的!”父親直言討厭兒子,引來千萬家長共鳴

“真希望他不是我親生的!”父親直言討厭兒子,引來千萬家長共鳴

妍妍教育日記
2026-07-01 20:48:04
2年內(nèi)從15萬本金賺到318萬,總結(jié)了10條鐵律,話很短,含金量很大

2年內(nèi)從15萬本金賺到318萬,總結(jié)了10條鐵律,話很短,含金量很大

一方聊市
2026-06-27 15:35:03
六世達賴:白天是西藏權(quán)力最大的王,晚上化身貴族公子當風流情郎

六世達賴:白天是西藏權(quán)力最大的王,晚上化身貴族公子當風流情郎

掠影后有感
2026-07-02 10:02:05
打破球王貝利記錄!婚后連生4娃的他,如今32歲仍能閃耀世界杯

打破球王貝利記錄!婚后連生4娃的他,如今32歲仍能閃耀世界杯

林輕吟
2026-07-03 09:57:15
伊朗為已故最高領(lǐng)袖哈梅內(nèi)伊舉行遺體告別儀式,伊朗各界人士、宗教領(lǐng)袖以及多國官員出席,伊朗總統(tǒng)發(fā)文悼念:全體人民深感悲痛

伊朗為已故最高領(lǐng)袖哈梅內(nèi)伊舉行遺體告別儀式,伊朗各界人士、宗教領(lǐng)袖以及多國官員出席,伊朗總統(tǒng)發(fā)文悼念:全體人民深感悲痛

政知新媒體
2026-07-03 13:50:18
記者:克洛普準備接受德國隊主帥職位

記者:克洛普準備接受德國隊主帥職位

懂球帝
2026-07-03 12:14:29
張馨予老公被偶遇,何捷一身穿搭精英范十足,手握2部手機很繁忙

張馨予老公被偶遇,何捷一身穿搭精英范十足,手握2部手機很繁忙

一個小豹子
2026-07-03 03:57:18
巴格達的倒戈:扎伊迪的“雷霆三日”如何撕裂伊朗的什葉派走廊

巴格達的倒戈:扎伊迪的“雷霆三日”如何撕裂伊朗的什葉派走廊

民間胡扯老哥
2026-07-03 05:29:12
2026-07-03 20:44:49
中國日報 incentive-icons
中國日報
中國日報官方網(wǎng)易號
26371文章數(shù) 371596關(guān)注度
往期回顧 全部

教育要聞

人人有大學上,東北又走在了前面

頭條要聞

60歲老人猥褻8歲女童僅獲刑一年三個月 法院決定再審

頭條要聞

60歲老人猥褻8歲女童僅獲刑一年三個月 法院決定再審

體育要聞

C羅穿已故隊友若塔球衣謝場 眼中含淚

娛樂要聞

海來阿木孕期出軌指控掀起全網(wǎng)熱議

財經(jīng)要聞

"千億"眾邦銀行被接管:系嚴重信用風險

科技要聞

萬億富豪馬斯克 舍不得特斯拉員工敞開用AI

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長聯(lián)屏設(shè)計/下半年上市

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
家居
軍事航空

藝術(shù)要聞

溥儀賣給日本的王羲之真跡!足有5000多字

肯德基繼續(xù)開團索尼!KFC游戲主機發(fā)售時間曝光

本地新聞

國內(nèi)足球之旅?這座小城給你高分答案

家居要聞

傳奇筑 日常詩

軍事要聞

俄大使館遇襲 2年多遭襲擊次數(shù)已超25次

無障礙瀏覽 進入關(guān)懷版