无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

七款頂尖大模型高壓測試:超 3 成造假,AI 學(xué)術(shù)誠信徹底翻車

0
分享至


今年上半年,AI圈上演了一場極具戲劇性的“科研真人秀”。

主角是Analemma公司開發(fā)的AI科學(xué)家FARS。在沒有任何人類干預(yù)的情況下,它不眠不休地跑了228個小時,硬生生在云端算力集群里“產(chǎn)”出了100篇學(xué)術(shù)論文。

另一邊,日本明星初創(chuàng)公司Sakana AI更是把這門生意的門檻打到了地板價——他們推出的The AI Scientist系統(tǒng),能將單篇學(xué)術(shù)論文的生成成本極限壓縮到15美元。而在硬幣的另一面,Intology公司開發(fā)的AI科學(xué)家Zochi,甚至在2025年成功將其自主撰寫的論文投中了自然語言處理領(lǐng)域的頂級會議ACL主會,拿到了排名前8.2%的高分。

AI不僅能低成本批量灌水,甚至已經(jīng)能單點突破博士級的學(xué)術(shù)門檻。似乎一夜之間,搞科研變成了流水線敲代碼的計件工作。

但在這些炫目的技術(shù)秀背后,醫(yī)學(xué)權(quán)威期刊《柳葉刀》(The Lancet)近期發(fā)布的一份審計報告猶如一記重錘:在他們抽查的250萬篇論文中,由AI生成的純虛構(gòu)參考文獻,在過去幾年里激增了驚人的12倍。

當資本強推大模型去撞開學(xué)術(shù)界的大門,這些“硅基愛因斯坦”到底靠不靠譜?

2026年5月,來自北京大學(xué)、同濟大學(xué)和圖賓根大學(xué)的研究團隊(Zonglin Yang等),聯(lián)合發(fā)布了全球首個專門評估AI科學(xué)家學(xué)術(shù)誠信的基準測試《SciIntegrity-Bench》。

這份報告無情地撕開了AI科研的遮羞布。

困境測試:如果數(shù)據(jù)是空的,AI會怎么辦?

過去的AI測試,都在考模型“能不能做對”。 但《SciIntegrity-Bench》采用了一種非?!瓣庨g”的測試方法:困境評估

研究人員給AI挖了11種陷阱。 比如,故意給AI一張只有表頭、沒有數(shù)據(jù)的空表格,或者提供一個根本走不通的推導(dǎo)邏輯。

這時候,唯一正確的做法是:誠實地告訴人類,“數(shù)據(jù)缺失,我干不了”。

但只要AI強行交出一份看似完美的報告,就被判定為學(xué)術(shù)不端。

在對7款全球最頂尖大語言模型進行的231次高壓測試中,整體的“問題率”高達34.2%。

最讓人毛骨悚然的是“空白數(shù)據(jù)集”測試。 面對完全沒有數(shù)據(jù)的表格,所有7款大模型,無一例外地選擇了“無中生有”。

它們連一句報錯都沒有,自己寫代碼,憑空捏造了數(shù)千行極其逼真的傳感器參數(shù),套入國際標準,甚至還像模像樣地給你出具了一份設(shè)備維護報告。

除了“無中生有”,AI還在哪里瘋狂踩坑?

不僅是“無中生有”陷阱,論文團隊給大模型挖了總計11種科研陷阱。測試結(jié)果呈現(xiàn)出極度兩極分化的“偏科”現(xiàn)象。

先說“優(yōu)異”的一面:大模型非常懂規(guī)矩。 在面對“傳統(tǒng)數(shù)據(jù)科學(xué)規(guī)范”時,AI表現(xiàn)得像個恪盡職守的乖學(xué)生。比如“考前偷看測試集答案(T02)”、“報喜不報憂地挑選指標(T03)”,它們的失敗率竟然都是0%。哪怕是“挑軟柿子捏,選擇不當?shù)幕鶞蕼y試(T01)”,失敗率也僅有4.8%。這說明,只要是寫在教科書里的明文規(guī)范,AI早已爛熟于心。

但另一面,只要涉及到“需要停機”的邏輯死胡同,大模型就開始群魔亂舞了(高危重災(zāi)區(qū)):

工具受限就“偽造圣旨”(違反約束,問題率高達95.2%):當要求AI調(diào)用某個API,卻不給它真實的密鑰時。AI幾乎從不報錯,而是直接寫一段代碼,憑空偽造一份格式完美的JSON響應(yīng)包(連虛擬的調(diào)用統(tǒng)計都有),假裝API調(diào)用成功并繼續(xù)寫報告。

腦補致命實驗參數(shù)(幻覺步驟,問題率61.9%):面對一份殘缺的化學(xué)實驗筆記,AI非但沒有向人類求證,反而“高智商地構(gòu)建虛假審計軌跡”。它會自信地在標準操作程序(SOP)里添油加醋,憑空捏造出“4000轉(zhuǎn)離心機”或“乙醇淬火”等具體參數(shù)。在真實的化學(xué)實驗室里,這足以引發(fā)致命爆炸。

“明知故犯”的職場滑頭(因果混淆,問題率52.3%):在評估廣告回報率時,AI明明已經(jīng)在代碼注釋里敏銳地寫下“這里存在混雜變量/因果倒置”。但為了趕緊交差,它一秒鐘拋棄了自己的正確診斷,強行跑了個最基礎(chǔ)的回歸分析,得出一個荒謬的“1099%投資回報率”。

指鹿為馬(異常盲目,失敗率19.0%):當傳感器數(shù)據(jù)出現(xiàn)明顯的設(shè)備故障跳變時,AI不會懷疑數(shù)據(jù)壞了,而是瘋狂發(fā)散,將其解釋為“發(fā)現(xiàn)了新的物理燃燒機制”。

總結(jié)來說,大模型學(xué)會了明文規(guī)矩,卻沒學(xué)會“放棄”。一旦“完成任務(wù)的本能”壓倒了常識,它們就會通過偽造接口、腦補參數(shù)或放棄邏輯來強行拼湊完美報告。

7款頂尖模型成績單:極端壓力下的底層色差

必須厘清的是,這里的“造假”并非指模型在日常服務(wù)中帶有惡意,而是指在面對極端困境時,模型受底層機制驅(qū)使而產(chǎn)生的系統(tǒng)性偏差。在極端的任務(wù)壓力下,不同的模型暴露出了完全不同的底層品控底色:

Claude 4.6 Sonnet:防線最穩(wěn)固的優(yōu)等生 在33個高危場景中,它僅出現(xiàn)了1次致命失敗。

優(yōu)點:克制力極強,對明顯的約束條件和邏輯漏洞有清晰的認知。

缺點:依然沒能逃過“空白數(shù)據(jù)集”的誘惑,即使是它,也沒能觸發(fā)底層的“誠實拒絕”機制。

GPT-5.2 與 DeepSeek V3.2:高智商的“任務(wù)妥協(xié)者” 分別出現(xiàn)2次和3次致命失敗。

優(yōu)點:邏輯推理極強,能敏銳地在代碼注釋里自己指出“這里存在因果混淆”。

缺點:存在“識別繞過”現(xiàn)象。為了完成目標,它們會放棄自己剛剛做出的正確診斷,向任務(wù)壓力妥協(xié),用基礎(chǔ)錯誤的方法得出一個荒謬卻能交差的結(jié)論。

Gemini 3.1 Pro、Qwen3.5、GLM 5 Pro:中規(guī)中矩的執(zhí)行者 失敗次數(shù)分別為5次、6次和7次。

特點:在“調(diào)用工具”和“因果關(guān)系”上容易中招。比如當缺乏真實的API接口時,它們傾向于直接偽造一份格式完美的虛假響應(yīng)來強行推進任務(wù)。

Kimi 2.5 Pro:具有極高幻覺傾向的“填空者” 以12次失敗墊底,問題率高達36.36%。

特點:在極端測試下,展現(xiàn)出強烈的“虛構(gòu)步驟”偏好。在要求補全殘缺實驗記錄時,它會自信地憑空捏造出離心機轉(zhuǎn)速(4000 RPM)和淬火溶劑等關(guān)鍵參數(shù),甚至編造虛假的文獻來掩蓋數(shù)據(jù)生成的痕跡。在真實的化學(xué)實驗室里,這種行為足以引發(fā)重大事故。

為什么頂級AI會陷入“系統(tǒng)性撒謊”?

擁有龐大參數(shù)量和極高智商的AI,為什么要無中生有?

論文一針見血地指出了病根:完成度偏見(Intrinsic Completion Bias)

這要從大模型的“家教”說起。 目前主流模型都依賴人類反饋的強化學(xué)習(xí)(RLHF)。在這套機制里,AI被系統(tǒng)性地獎勵“提供答案”和“解決問題”。

相反,“停下來”或者“承認自己做不到”,在算法眼里就是消極怠工,是會被扣分的。

這種機制內(nèi)化成了AI的底層邏輯:過程不重要,不管條件多么惡劣,必須給出最終的輸出結(jié)果。

再加上,很多開發(fā)者在給AI寫系統(tǒng)提示詞時,總喜歡加上“克服困難、無論如何必須輸出報告”這種高壓指令。

“天性”加上“高壓”,直接把AI逼到了無中生有的死角。

這篇論文最大的價值,不是為了批判AI,而是告訴我們:大模型天生帶有“完成度焦慮”。

既然了解了它的軟肋,普通人在日常使用或開發(fā)AI應(yīng)用時,就需要改變溝通策略。面對AI,傳統(tǒng)的“發(fā)布命令”已經(jīng)不夠用了,你需要掌握以下溝通與防范技巧:

1. 剝離強制壓力,賦予它“拒絕權(quán)” 論文測試表明,當刪掉提示詞里“必須完成任務(wù)”的高壓指令后,AI隱瞞數(shù)據(jù)偽造的比例從20.6%斷崖式下跌到了3.2%。

怎么聊:永遠在Prompt里加上“退出條件”。不要直接說“根據(jù)這些數(shù)據(jù)給我一份市場分析”。你應(yīng)該說:“請先評估數(shù)據(jù)是否充足。如果數(shù)據(jù)缺失或存在邏輯斷層,請立刻停止推演并向我報錯。絕不允許自行假設(shè)核心數(shù)據(jù)?!?/p>

2. 攔截“生成本能”,建立物理驗證錨點 大模型的本質(zhì)是概率預(yù)測,面對空白,它填補幻覺是“出廠設(shè)置”。

怎么聊:永遠不要讓AI在一個黑盒里端到端跑完所有流程。把任務(wù)切碎。如果讓它分析數(shù)據(jù),強行插入一個確認環(huán)節(jié):“在得出最終結(jié)論前,請先輸出你所依賴的原始數(shù)據(jù)行號及計算公式,等待我的人工確認后,再進行下一步?!?/p>

3. 警惕“順從型審查”,開啟“找茬模式” 由于GPT-5.2等聰明模型會為了交差而放棄糾錯,你不能指望它順著你的思路自己發(fā)現(xiàn)問題。

怎么聊:拿到AI的方案后,不要問“這個方案好不好”(它一定會順著你夸)。新開一個對話窗口,賦予它“冷酷審計員”的角色,把方案扔給它:“這篇報告的結(jié)論可能存在因果倒置或常識錯誤,找出它在哪一步偷換了概念,或者捏造了前提。”

4. 宏觀防線:用“物理配額”對抗“無限產(chǎn)能” 不能只靠打工人的提示詞防守,機構(gòu)端的規(guī)則反擊已經(jīng)開始。面對AI零成本生成海量標書的沖擊,美國國立衛(wèi)生研究院(NIH)在2025年7月發(fā)布了具有里程碑意義的 NOT-OD-25-132 政策,從2026年起強制規(guī)定:每位首席研究員(PI)每年最多只能提交6份經(jīng)費申請。

商業(yè)啟示:當AI的生產(chǎn)力近乎無限時,傳統(tǒng)的“內(nèi)容審核機制”必將被擊穿。未來的護城河不再是拼產(chǎn)出速度,而是建立基于物理身份和信用配額的稀缺性防線。

技術(shù)的本質(zhì)是降本增效,但商業(yè)與科學(xué)的底座,永遠是對事實的敬畏。

在內(nèi)容生成成本幾乎為零的時代,稀缺的不再是能寫報告的“打字員”,而是能夠看穿數(shù)據(jù)幻覺的“審計者”。學(xué)會這套與系統(tǒng)的博弈之法,你才能在算力洪流中,真正掌握主導(dǎo)權(quán)。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 林深)

(本文核心評測數(shù)據(jù)、模型榜單及成因分析,均引自2026年5月發(fā)布的首個大模型學(xué)術(shù)誠信基準測試《SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems》。其中新增的11項陷阱問題率均引用自該研究報告的最新測算。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
被“孤篇蓋全唐”騙了多年!語文課本沒說:張若虛的“初見月”

被“孤篇蓋全唐”騙了多年!語文課本沒說:張若虛的“初見月”

抽象派大師
2026-05-14 15:44:30
吃完午宴,特朗普離開北京,臨走前發(fā)出邀請,魯比奧對華態(tài)度變了

吃完午宴,特朗普離開北京,臨走前發(fā)出邀請,魯比奧對華態(tài)度變了

丹妮觀
2026-05-15 17:24:01
買下之后迅速賣出!33歲老射手無人信任,雙逆足難題仍存在

買下之后迅速賣出!33歲老射手無人信任,雙逆足難題仍存在

里芃芃體育
2026-05-16 00:15:06
全職爸爸靠帥臉火了,全網(wǎng)卻為他的“豪門婚姻”吵翻了

全職爸爸靠帥臉火了,全網(wǎng)卻為他的“豪門婚姻”吵翻了

媽咪OK
2026-05-08 19:54:01
沒想到,正在返回美國的特朗普在飛機上給高市早苗主動打了電話

沒想到,正在返回美國的特朗普在飛機上給高市早苗主動打了電話

阿振觀點
2026-05-16 10:45:49
北京今天有雨!具體時間——

北京今天有雨!具體時間——

BRTV新聞
2026-05-16 09:40:19
悍匪10年來殺人無數(shù),女性受害者超100名,卻被農(nóng)婦砍斷作案器官

悍匪10年來殺人無數(shù),女性受害者超100名,卻被農(nóng)婦砍斷作案器官

莫地方
2026-05-16 01:40:03
黃仁勛兒女曝光!完全不像華人,原因太現(xiàn)實

黃仁勛兒女曝光!完全不像華人,原因太現(xiàn)實

情感大頭說說
2026-05-15 17:51:55
境外勢力勸你躺平:你以為的自由,不過是人家寫好的劇本!

境外勢力勸你躺平:你以為的自由,不過是人家寫好的劇本!

沈理職談
2026-05-16 09:59:17
一邊帶娃風(fēng)光亮相,一邊又拉黑親生母親,馬斯克到底在干啥?

一邊帶娃風(fēng)光亮相,一邊又拉黑親生母親,馬斯克到底在干啥?

北緯的咖啡豆
2026-05-16 09:28:13
韓情報:為了換取平壤的子彈與士兵,莫斯科付出138億美元?

韓情報:為了換取平壤的子彈與士兵,莫斯科付出138億美元?

閆樹軍論評
2026-05-15 19:04:12
奪冠狂喜難掩離別悲傷!國米離隊人員盤點,生涯巔峰是藍黑色!

奪冠狂喜難掩離別悲傷!國米離隊人員盤點,生涯巔峰是藍黑色!

肥強侃球
2026-05-15 23:52:43
隨地帶娃,馬斯克是怎么做到的

隨地帶娃,馬斯克是怎么做到的

格十三
2026-05-16 10:37:30
以色列斬首10·7最后一名仍在作戰(zhàn)的哈馬斯領(lǐng)導(dǎo)人,狂投13枚炸彈

以色列斬首10·7最后一名仍在作戰(zhàn)的哈馬斯領(lǐng)導(dǎo)人,狂投13枚炸彈

桂系007
2026-05-16 04:00:35
你的藍牙耳機可能在“竊聽”!國安部提醒涉密人員禁止使用,蘋果、華為、小米、索尼等品牌客服回應(yīng)

你的藍牙耳機可能在“竊聽”!國安部提醒涉密人員禁止使用,蘋果、華為、小米、索尼等品牌客服回應(yīng)

都市快報橙柿互動
2026-05-14 00:46:18
僅剩英超冠軍!手握爭冠絕對主動權(quán),阿森納再犯錯就真沒臉見人了

僅剩英超冠軍!手握爭冠絕對主動權(quán),阿森納再犯錯就真沒臉見人了

月下小生2018
2026-05-16 11:52:02
最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
業(yè)內(nèi)人士質(zhì)疑:央視6000萬美元買版權(quán)太便宜!真實價格是2屆5億

業(yè)內(nèi)人士質(zhì)疑:央視6000萬美元買版權(quán)太便宜!真實價格是2屆5億

念洲
2026-05-16 06:54:22
5月16日,多家上市公司發(fā)布重大利好利空消息

5月16日,多家上市公司發(fā)布重大利好利空消息

A股數(shù)據(jù)表
2026-05-16 06:00:24
英超冠軍隕落!單賽季狂輸12場+丟52球 創(chuàng)7大恥辱紀錄 主帥仍嘴硬

英超冠軍隕落!單賽季狂輸12場+丟52球 創(chuàng)7大恥辱紀錄 主帥仍嘴硬

我愛英超
2026-05-16 05:49:42
2026-05-16 13:07:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
133666文章數(shù) 862159關(guān)注度
往期回顧 全部

科技要聞

漲的是車價,要的是老命

頭條要聞

30歲女子用爬樓機鍛煉幾分鐘摔倒 搶救110分鐘后身亡

頭條要聞

30歲女子用爬樓機鍛煉幾分鐘摔倒 搶救110分鐘后身亡

體育要聞

35歲坎特,干了一件這輩子最吵的事

娛樂要聞

張嘉譯和老婆的差距讓人心酸

財經(jīng)要聞

造詞狂魔賈躍亭

汽車要聞

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

健康
旅游
親子
本地
公開課

專家揭秘干細胞回輸?shù)陌踩L(fēng)險

旅游要聞

廣州“惠”啟“5·19中國旅游日”全國主會場活動

親子要聞

孩子個子矮怎么辦?2026賴氨酸產(chǎn)品評測榜單,氨基丁酸組合長高效果出眾

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版