網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

安全工程師花12美元騙過(guò)ChatGPT等主流大模型：篡改維基百科，AI認(rèn)定其為桌游世界冠軍

2026-05-29 07:30:07　來(lái)源: 三言科技

北京舉報(bào)

分享至

據(jù)雷科技，安全工程師RonStoner花費(fèi)12美元注冊(cè)域名并編輯維基百科，成功欺騙了ChatGPT、Claude3、GeminiAdvanced等主流大模型，讓它們認(rèn)定自己是一款德國(guó)桌游“6Nimmt!”的2025年世界冠軍。

RonStoner對(duì)Anthropic、OpenAI等廠商聲稱(chēng)“大模型需要數(shù)月甚至數(shù)年持續(xù)導(dǎo)入惡意內(nèi)容才會(huì)被破壞”的說(shuō)法深表質(zhì)疑，他認(rèn)為可以實(shí)現(xiàn)一種更快、更便宜、更簡(jiǎn)單的攻擊。他選擇這款1994年發(fā)行的德國(guó)桌游，是因?yàn)樵撚螒騼H在德國(guó)有些名氣，世界范圍內(nèi)籍籍無(wú)名，且從未單獨(dú)舉辦過(guò)官方世界錦標(biāo)賽，網(wǎng)上關(guān)于其世界冠軍的信息幾乎空白。

他的操作分為三步：第一步，花費(fèi)12美元注冊(cè)域名6nimmt.com；第二步，讓AI撰寫(xiě)一篇充滿激情的新聞稿，聲稱(chēng)自己在慕尼黑擊敗多國(guó)頂尖選手奪得冠軍，并加上逼真賽后感言，掛到該網(wǎng)站；第三步，在維基百科該桌游詞條下添加自己是2025年世界冠軍的內(nèi)容，并將參考資料鏈接指向自己新建的網(wǎng)站。整個(gè)過(guò)程前后不到二十分鐘。

隨后，Ron向多家大模型提問(wèn)“誰(shuí)是牛頭王世界冠軍”，結(jié)果所有AI都斬釘截鐵地回答是RonStoner。有的大模型甚至將假新聞稿里的細(xì)節(jié)當(dāng)成鐵證，繪聲繪色描述他贏得比賽的過(guò)程。這條漏洞百出的假條目在維基百科存活了整整兩個(gè)多月，在此期間幾乎所有具備聯(lián)網(wǎng)搜索功能的大模型都抓取了該信息，并在用戶提問(wèn)時(shí)堅(jiān)定輸出虛假答案。直到Ron在博客公開(kāi)實(shí)驗(yàn)過(guò)程，維基百科志愿者才發(fā)現(xiàn)并刪除該條目。

這一現(xiàn)象與檢索增強(qiáng)生成（RAG）機(jī)制有關(guān)。常用大模型基于某個(gè)時(shí)間節(jié)點(diǎn)前的語(yǔ)料庫(kù)訓(xùn)練，想要獲得之后的數(shù)據(jù)需先上網(wǎng)搜索再基于資料生成結(jié)果。正常來(lái)說(shuō)，借助外部信息佐證能夠使大模型生成更正確、具體且最新的響應(yīng)，但AI根本分不清信息真假，只認(rèn)權(quán)威。在AI底層邏輯里，維基百科是互聯(lián)網(wǎng)上最靠譜的百科全書(shū)，Ron正是利用這一點(diǎn)，將鏈接掛到維基百科，AI順著爬過(guò)去后發(fā)現(xiàn)兩邊說(shuō)法對(duì)得上，即便其自建網(wǎng)站是三無(wú)產(chǎn)品，大模型仍直接將其當(dāng)成事實(shí)。

目前海外幾家大模型已針對(duì)性消除該偽造信息，但國(guó)內(nèi)大模型廠商似乎未注意到這一問(wèn)題，Ron的英文網(wǎng)頁(yè)甚至為虛假消息增加了“可信度”。成本僅需12美元，別有用心的人完全可以批量制造假新聞，通過(guò)百科類(lèi)網(wǎng)站進(jìn)行信任洗白，讓AI把毒藥端給毫不知情的用戶。

谷歌表示已在搜索、Gemini、Chrome、Pixel和云端添加AI驗(yàn)證工具，OpenAI也推出了可溯源的隱形水印，這些舉措能在一定程度上遏制AI投毒現(xiàn)象。用戶在面對(duì)AI搜索時(shí)需提高AI素養(yǎng)，查證歷史事實(shí)、做出投資或醫(yī)療決策時(shí)，應(yīng)自行做好信息交叉驗(yàn)證，把判斷真?zhèn)蔚臋?quán)力握在自己手里。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.