據(jù)雷科技,安全工程師RonStoner花費(fèi)12美元注冊(cè)域名并編輯維基百科,成功欺騙了ChatGPT、Claude3、GeminiAdvanced等主流大模型,讓它們認(rèn)定自己是一款德國(guó)桌游“6Nimmt!”的2025年世界冠軍。
RonStoner對(duì)Anthropic、OpenAI等廠商聲稱(chēng)“大模型需要數(shù)月甚至數(shù)年持續(xù)導(dǎo)入惡意內(nèi)容才會(huì)被破壞”的說(shuō)法深表質(zhì)疑,他認(rèn)為可以實(shí)現(xiàn)一種更快、更便宜、更簡(jiǎn)單的攻擊。他選擇這款1994年發(fā)行的德國(guó)桌游,是因?yàn)樵撚螒騼H在德國(guó)有些名氣,世界范圍內(nèi)籍籍無(wú)名,且從未單獨(dú)舉辦過(guò)官方世界錦標(biāo)賽,網(wǎng)上關(guān)于其世界冠軍的信息幾乎空白。
他的操作分為三步:第一步,花費(fèi)12美元注冊(cè)域名6nimmt.com;第二步,讓AI撰寫(xiě)一篇充滿激情的新聞稿,聲稱(chēng)自己在慕尼黑擊敗多國(guó)頂尖選手奪得冠軍,并加上逼真賽后感言,掛到該網(wǎng)站;第三步,在維基百科該桌游詞條下添加自己是2025年世界冠軍的內(nèi)容,并將參考資料鏈接指向自己新建的網(wǎng)站。整個(gè)過(guò)程前后不到二十分鐘。
隨后,Ron向多家大模型提問(wèn)“誰(shuí)是牛頭王世界冠軍”,結(jié)果所有AI都斬釘截鐵地回答是RonStoner。有的大模型甚至將假新聞稿里的細(xì)節(jié)當(dāng)成鐵證,繪聲繪色描述他贏得比賽的過(guò)程。這條漏洞百出的假條目在維基百科存活了整整兩個(gè)多月,在此期間幾乎所有具備聯(lián)網(wǎng)搜索功能的大模型都抓取了該信息,并在用戶提問(wèn)時(shí)堅(jiān)定輸出虛假答案。直到Ron在博客公開(kāi)實(shí)驗(yàn)過(guò)程,維基百科志愿者才發(fā)現(xiàn)并刪除該條目。
這一現(xiàn)象與檢索增強(qiáng)生成(RAG)機(jī)制有關(guān)。常用大模型基于某個(gè)時(shí)間節(jié)點(diǎn)前的語(yǔ)料庫(kù)訓(xùn)練,想要獲得之后的數(shù)據(jù)需先上網(wǎng)搜索再基于資料生成結(jié)果。正常來(lái)說(shuō),借助外部信息佐證能夠使大模型生成更正確、具體且最新的響應(yīng),但AI根本分不清信息真假,只認(rèn)權(quán)威。在AI底層邏輯里,維基百科是互聯(lián)網(wǎng)上最靠譜的百科全書(shū),Ron正是利用這一點(diǎn),將鏈接掛到維基百科,AI順著爬過(guò)去后發(fā)現(xiàn)兩邊說(shuō)法對(duì)得上,即便其自建網(wǎng)站是三無(wú)產(chǎn)品,大模型仍直接將其當(dāng)成事實(shí)。
目前海外幾家大模型已針對(duì)性消除該偽造信息,但國(guó)內(nèi)大模型廠商似乎未注意到這一問(wèn)題,Ron的英文網(wǎng)頁(yè)甚至為虛假消息增加了“可信度”。成本僅需12美元,別有用心的人完全可以批量制造假新聞,通過(guò)百科類(lèi)網(wǎng)站進(jìn)行信任洗白,讓AI把毒藥端給毫不知情的用戶。
谷歌表示已在搜索、Gemini、Chrome、Pixel和云端添加AI驗(yàn)證工具,OpenAI也推出了可溯源的隱形水印,這些舉措能在一定程度上遏制AI投毒現(xiàn)象。用戶在面對(duì)AI搜索時(shí)需提高AI素養(yǎng),查證歷史事實(shí)、做出投資或醫(yī)療決策時(shí),應(yīng)自行做好信息交叉驗(yàn)證,把判斷真?zhèn)蔚臋?quán)力握在自己手里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.