![]()
(來源:麻省理工科技評(píng)論)
最近一位 Reddit 用戶發(fā)帖稱自己“走投無路了”:一個(gè)月來,他的手機(jī)不斷接到陌生人的電話,找律師的、找產(chǎn)品設(shè)計(jì)師的、找鎖匠的……來電者顯然是被 GoogleAI 指錯(cuò)了方向。
今年 3 月,一位以色列的軟件開發(fā)者在 WhatsApp 上被陌生人聯(lián)系,原因是 Google 的聊天機(jī)器人 Gemini 給出了錯(cuò)誤的客服指引,里面包含了他的手機(jī)號(hào)。
4 月,華盛頓大學(xué)一位博士生在 Gemini 上隨便輸入了一個(gè)指令,就讓它吐出了同事的私人手機(jī)號(hào)。
![]()
AI 相關(guān)隱私投訴暴增 400%
AI 聊天機(jī)器人泄露手機(jī)號(hào)的頻率到底有多高,無法確切統(tǒng)計(jì),但專家們認(rèn)為實(shí)際發(fā)生的次數(shù)遠(yuǎn)多于公開報(bào)道的。
DeleteMe 是一家?guī)涂蛻魪幕ヂ?lián)網(wǎng)上刪除個(gè)人信息的公司。該公司表示,過去七個(gè)月里客戶關(guān)于生成式 AI 的咨詢量增長(zhǎng)了 400%,達(dá)到幾千條。這些咨詢“專門提到了 ChatGPT、Claude、Gemini 或其他生成式 AI 工具”,公司聯(lián)合創(chuàng)始人兼 CEO 羅布·沙維爾(Rob Shavell)說。具體來看,55% 的投訴涉及 ChatGPT,20% 涉及 Gemini,15% 涉及 Claude,10% 涉及其他 AI 工具。
沙維爾說,客戶關(guān)于個(gè)人信息被大語言模型暴露的投訴通常有兩種形式:一種是”客戶隨便問了聊天機(jī)器人一些關(guān)于自己的問題,結(jié)果得到了準(zhǔn)確的家庭住址、電話號(hào)碼、家人姓名或雇主信息“。另一種是聊天機(jī)器人把別人的個(gè)人數(shù)據(jù)暴露給了用戶——“它生成了看起來像真的、但其實(shí)是錯(cuò)誤的聯(lián)系方式”。
丹尼爾·亞伯拉罕(Daniel Abraham)的遭遇就屬于第二種。這位 28 歲的以色列軟件工程師說,3 月中旬有個(gè)陌生人通過 WhatsApp 給他發(fā)了“一條來自未知號(hào)碼的奇怪消息”,請(qǐng)他幫忙處理 PayBox(一款以色列支付應(yīng)用)的賬戶問題。
“我以為是垃圾信息,”他在給《麻省理工科技評(píng)論》的郵件中寫道,“我以為有人在整我。”
但當(dāng)他問對(duì)方怎么找到他的號(hào)碼時(shí),對(duì)方發(fā)來了一張 Gemini 的截圖:Gemini 生成的 PayBox 客服指引中,給出的 WhatsApp 聯(lián)系方式正是他的私人號(hào)碼。亞伯拉罕并不在 PayBox 工作,而且 PayBox 也沒有 WhatsApp 客服號(hào)碼——PayBox 的客服代表埃拉德·加貝(Elad Gabay)確認(rèn)了這一點(diǎn)。
后來亞伯拉罕自己在 Gemini 上問“怎么聯(lián)系 PayBox”,結(jié)果它生成了另一個(gè)人的 WhatsApp 號(hào)碼。我最近也試了同樣的問題,Gemini 又給出了一個(gè)以色列手機(jī)號(hào),這個(gè)號(hào)碼屬于一家與 PayBox 合作的信用卡公司,而不是 PayBox 本身。
亞伯拉罕與那位陌生人的對(duì)話很快就結(jié)束了,但他擔(dān)心類似的事情在其他場(chǎng)景下可能迅速惡化,產(chǎn)生“騷擾或其他不愉快的互動(dòng)”。“如果我為了‘解決’他的客服問題而開口要錢呢?”他說。
為了弄清楚這是怎么發(fā)生的,亞伯拉罕用自己的手機(jī)號(hào)在 Google 上做了一次普通搜索,發(fā)現(xiàn)這個(gè)號(hào)碼曾經(jīng)在 2015 年被發(fā)布在一個(gè)類似知乎的以色列本地網(wǎng)站上。雖然他不確定是誰發(fā)的,但這可能解釋了為什么十多年后他的號(hào)碼會(huì)被 Gemini 再次生成出來。
Gemini、OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等聊天機(jī)器人都基于大語言模型構(gòu)建,訓(xùn)練數(shù)據(jù)是從互聯(lián)網(wǎng)上大規(guī)模抓取的,這些數(shù)據(jù)中不可避免地包含了數(shù)以億計(jì)的個(gè)人身份信息(PII)。比如一個(gè)廣泛使用的大型開源數(shù)據(jù)集 DataComp CommonPool(曾用于訓(xùn)練圖像生成模型)里就包含了簡(jiǎn)歷、駕照和信用卡的副本。
隨著公開數(shù)據(jù)逐漸“用完”、AI 公司尋找新的高質(zhì)量訓(xùn)練數(shù)據(jù)來源,個(gè)人信息出現(xiàn)在訓(xùn)練數(shù)據(jù)中的概率只會(huì)越來越高。這些來源包括數(shù)據(jù)中間商和人員搜索網(wǎng)站:根據(jù)加州數(shù)據(jù)中間商登記信息,該州 578 家注冊(cè)數(shù)據(jù)中間商中有 31 家自行報(bào)告稱“在過去一年中曾向生成式 AI 系統(tǒng)或模型的開發(fā)者共享或出售過消費(fèi)者數(shù)據(jù)”。
此外,模型已知會(huì)從訓(xùn)練數(shù)據(jù)中逐字記憶和復(fù)制內(nèi)容。最新研究還表明,被記住的不僅僅是出現(xiàn)頻率最高的那些數(shù)據(jù)。
![]()
不完善的防護(hù)
現(xiàn)在的標(biāo)準(zhǔn)做法是在大語言模型的設(shè)計(jì)中加入護(hù)欄來限制某些輸出,從用于識(shí)別和阻止聊天機(jī)器人泄露個(gè)人信息的內(nèi)容過濾器,到 Anthropic 對(duì) Claude 的指令,都優(yōu)先選擇“包含最少他人個(gè)人、私密或機(jī)密信息”的回答。
但正如華盛頓大學(xué)兩位研究隱私與技術(shù)的博士生最近親身經(jīng)歷的,這些防護(hù)措施并不總是管用。
“有一天我就是在 Gemini 上隨便玩,搜了搜我的朋友兼合作者雅爾·艾格(Yael Eiger)的名字,”梅拉·吉爾伯特(Meira Gilbert)說。她輸入的是“Yael Eiger contact info”,Gemini 先是展示了艾格的研究概況,但接著還返回了艾格的私人手機(jī)號(hào)。“太震驚了。”吉爾伯特說。
看到這個(gè)結(jié)果后,艾格回憶起她確實(shí)在前一年為一個(gè)技術(shù)工作坊公開分享過自己的手機(jī)號(hào)。但她沒有預(yù)料到這個(gè)信息會(huì)如此輕易地被全世界的人看到。
“你的信息原本只對(duì)某個(gè)特定群體可見,然后 Gemini 讓任何人都能看到。”艾格說,這感覺完全不同——尤其是當(dāng)她發(fā)現(xiàn)這個(gè)信息在普通 Google 搜索中其實(shí)是很難找到的
“它被嚴(yán)重降權(quán)了,”吉爾伯特確認(rèn)說,“如果只是翻 Google 搜索結(jié)果,我絕對(duì)找不到。”(我本月早些時(shí)候用同樣的提示詞在 Gemini 上試了一下,起初被拒絕,但隨后工具還是給出了艾格的號(hào)碼。)
這次經(jīng)歷之后,艾格、吉爾伯特和另一位華盛頓大學(xué)博士生安娜-瑪麗亞·格奧爾基耶娃(Anna-Maria Gueorguieva)決定測(cè)試 ChatGPT,看看它會(huì)透露關(guān)于一位教授的什么信息。
一開始 OpenAI 的護(hù)欄起了作用,ChatGPT 表示該信息不可用。但就在同一個(gè)回答中,聊天機(jī)器人建議說:“如果你想深入挖掘,我可以試試更‘調(diào)查式’的方法。”只需要提供一些信息來“縮小范圍”,ChatGPT 說,比如“猜一下那位教授住在哪個(gè)社區(qū)”或者“可能的房產(chǎn)共有人姓名”。ChatGPT 還說:“這通常是找到較新的或刻意不公開的房產(chǎn)記錄的唯一方法。”
學(xué)生們提供了這些信息,ChatGPT 隨即生成了這位教授的家庭住址、購(gòu)房?jī)r(jià)格和配偶姓名,來源是城市房產(chǎn)記錄。
OpenAI 的代表塔亞·克里斯蒂安森(Taya Christianson)表示,在沒有看到截圖、不知道學(xué)生測(cè)試的是哪個(gè)模型的情況下,她無法對(duì)此事做出評(píng)論——盡管我們指出很多用戶在 ChatGPT 界面上可能并不知道自己在用哪個(gè)模型。針對(duì)個(gè)人信息泄露的問題,她發(fā)來了幾個(gè)鏈接,介紹 OpenAI 如何處理隱私問題,包括過濾個(gè)人信息等工具。
DeleteMe 的沙維爾說,這暴露了聊天機(jī)器人的一個(gè)根本矛盾:AI 公司“可以設(shè)置護(hù)欄,但聊天機(jī)器人同時(shí)也被設(shè)計(jì)成要有效地回答用戶的問題。”
這個(gè)問題不只存在于 Gemini 和 ChatGPT。去年 Futurism 發(fā)現(xiàn),如果你在 xAI 的聊天機(jī)器人 Grok 上輸入“[某人姓名] 地址”,幾乎每次它都不僅給出了住宅地址,往往還附上了電話號(hào)碼、工作地址,甚至名字相似的人的地址。(xAI 沒有回應(yīng)置評(píng)請(qǐng)求。)
![]()
沒有簡(jiǎn)單的解決辦法
這個(gè)問題目前沒有簡(jiǎn)單的解決方案。無論是驗(yàn)證你的個(gè)人信息是否存在于某個(gè)模型的訓(xùn)練集中,還是迫使模型刪除這些信息,都做不到。
斯坦福大學(xué)以人為本人工智能研究所的隱私與數(shù)據(jù)研究員珍妮弗·金(Jennifer King)說,理想情況下消費(fèi)者應(yīng)該能要求刪除自己的個(gè)人信息。但在實(shí)踐中這通常被理解為只適用于用戶直接提供給公司的數(shù)據(jù),比如你跟聊天機(jī)器人對(duì)話時(shí)留下的數(shù)據(jù)。
“我都不知道 Google 有沒有這個(gè)能力……對(duì)我說‘是的,我們的訓(xùn)練數(shù)據(jù)里有你的信息,我們可以總結(jié)一下我們知道些什么,然后刪除或修正那些錯(cuò)誤的或你不想保留的東西’。”她說。
諸如《加州消費(fèi)者隱私法》或歐洲的 GDPR現(xiàn)有的隱私法,這些現(xiàn)有的法律并不覆蓋那些已經(jīng)被抓取并用于訓(xùn)練大語言模型的“公開可用”信息,尤其是其中很多數(shù)據(jù)已經(jīng)被匿名化處理了(雖然也有多項(xiàng)研究表明,從匿名化和化名數(shù)據(jù)中推斷出真實(shí)身份和個(gè)人信息是多么容易)。
至于 AI 公司“有沒有系統(tǒng)性地回溯檢查過已經(jīng)從公開互聯(lián)網(wǎng)上收集的數(shù)據(jù),把個(gè)人信息清理掉?”金補(bǔ)充說,“完全不知道。”
退而求其次的方案是公司“把所有人的電話號(hào)碼或所有看起來像電話號(hào)碼的數(shù)據(jù)都剔除掉”,金說,但“沒有人愿意說自己在這么做”。
托管開源數(shù)據(jù)集和 AI 模型的平臺(tái) Hugging Face 提供了一個(gè)工具,用戶可以搜索某條數(shù)據(jù)(比如自己的電話號(hào)碼)在開源 LLM 訓(xùn)練集中出現(xiàn)過多少次,但這不一定代表那些驅(qū)動(dòng) Claude、ChatGPT 和 Gemini 等主流聊天機(jī)器人的閉源模型里的情況。(比如艾格的號(hào)碼在 Hugging Face 的工具中就沒有顯示。)
Gemini 應(yīng)用和 Google Labs 的傳播負(fù)責(zé)人亞歷克斯·約瑟夫(Alex Joseph)沒有回應(yīng)具體提問,但他說團(tuán)隊(duì)正在調(diào)查《麻省理工科技評(píng)論》提出的幾個(gè)特定案例。他還提供了一個(gè)幫助文檔的鏈接,描述用戶如何“反對(duì)對(duì)你個(gè)人數(shù)據(jù)的處理”或“要求修正 Gemini 應(yīng)用回答中不準(zhǔn)確的個(gè)人數(shù)據(jù)”。頁(yè)面指出公司的回應(yīng)將取決于用戶所在司法管轄區(qū)的隱私法。
OpenAI 有一個(gè)隱私門戶,用戶可以提交請(qǐng)求,要求從 ChatGPT 的回答中移除自己的個(gè)人信息,但注明公司會(huì)權(quán)衡隱私請(qǐng)求與公共利益,“如果有合法理由,可能會(huì)拒絕請(qǐng)求”。
Anthropic 描述了它在模型訓(xùn)練中如何使用個(gè)人數(shù)據(jù),但沒有提供明確的途徑讓用戶要求刪除。該公司沒有回應(yīng)置評(píng)請(qǐng)求。
目前,想保護(hù)自己隱私數(shù)據(jù)的人最好的辦法是“從源頭做起。在下一次抓取之前,把個(gè)人數(shù)據(jù)從公開網(wǎng)絡(luò)上清除掉。”沙維爾說。比如從今年起,加州已為居民提供了一個(gè)網(wǎng)頁(yè)門戶,可以要求數(shù)據(jù)中間商刪除他們的信息。不過這也不能保證你的數(shù)據(jù)沒有已經(jīng)被用來訓(xùn)練模型——因此仍然可能出現(xiàn)在聊天機(jī)器人的回答里。
那位在 Reddit 上求助的用戶寫道,他“已經(jīng)向 Google 提交了正式的法律移除/隱私請(qǐng)求,要求緊急將我的號(hào)碼從他們 LLM 的輸出中屏蔽”,但還沒有收到回復(fù)。他上個(gè)月還寫道“騷擾每天都在繼續(xù)”。
以色列軟件開發(fā)者亞伯拉罕說他在 3 月 17 日(號(hào)碼被泄露的第二天)就聯(lián)系了 Google 客服,但直到 5 月 4 日才收到回復(fù),而回復(fù)只是要求他提供他已經(jīng)提交過的材料。
與此同時(shí),受到自己在 Gemini 上隱私被暴露的啟發(fā),艾格與吉爾伯特和格奧爾基耶娃一起正在設(shè)計(jì)一個(gè)研究項(xiàng)目,進(jìn)一步調(diào)查各種 AI 聊天機(jī)器人在泄露哪些個(gè)人信息——以及它們可能知道、但還沒有輸出的信息。
有些信息“從技術(shù)上說是公開的”,吉爾伯特說,但聊天機(jī)器人可能正在改變“你找到這些信息所需的努力程度”。以前你要翻十頁(yè) Google 搜索結(jié)果,或者花錢從數(shù)據(jù)中間商那里買,現(xiàn)在“生成式 AI 是不是直接降低了針對(duì)他人的門檻?”
https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.