網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI正在泄露真實(shí)的個(gè)人電話號(hào)碼

2026-05-15 13:16:15　來源: DeepTech深科技

北京舉報(bào)

分享至

（來源：麻省理工科技評(píng)論）

最近一位 Reddit 用戶發(fā)帖稱自己“走投無路了”：一個(gè)月來，他的手機(jī)不斷接到陌生人的電話，找律師的、找產(chǎn)品設(shè)計(jì)師的、找鎖匠的……來電者顯然是被 GoogleAI 指錯(cuò)了方向。

今年 3 月，一位以色列的軟件開發(fā)者在 WhatsApp 上被陌生人聯(lián)系，原因是 Google 的聊天機(jī)器人 Gemini 給出了錯(cuò)誤的客服指引，里面包含了他的手機(jī)號(hào)。

4 月，華盛頓大學(xué)一位博士生在 Gemini 上隨便輸入了一個(gè)指令，就讓它吐出了同事的私人手機(jī)號(hào)。

AI 相關(guān)隱私投訴暴增 400%

AI 聊天機(jī)器人泄露手機(jī)號(hào)的頻率到底有多高，無法確切統(tǒng)計(jì)，但專家們認(rèn)為實(shí)際發(fā)生的次數(shù)遠(yuǎn)多于公開報(bào)道的。

DeleteMe 是一家?guī)涂蛻魪幕ヂ?lián)網(wǎng)上刪除個(gè)人信息的公司。該公司表示，過去七個(gè)月里客戶關(guān)于生成式 AI 的咨詢量增長(zhǎng)了 400%，達(dá)到幾千條。這些咨詢“專門提到了 ChatGPT、Claude、Gemini 或其他生成式 AI 工具”，公司聯(lián)合創(chuàng)始人兼 CEO 羅布·沙維爾（Rob Shavell）說。具體來看，55% 的投訴涉及 ChatGPT，20% 涉及 Gemini，15% 涉及 Claude，10% 涉及其他 AI 工具。

沙維爾說，客戶關(guān)于個(gè)人信息被大語言模型暴露的投訴通常有兩種形式：一種是”客戶隨便問了聊天機(jī)器人一些關(guān)于自己的問題，結(jié)果得到了準(zhǔn)確的家庭住址、電話號(hào)碼、家人姓名或雇主信息“。另一種是聊天機(jī)器人把別人的個(gè)人數(shù)據(jù)暴露給了用戶——“它生成了看起來像真的、但其實(shí)是錯(cuò)誤的聯(lián)系方式”。

丹尼爾·亞伯拉罕（Daniel Abraham）的遭遇就屬于第二種。這位 28 歲的以色列軟件工程師說，3 月中旬有個(gè)陌生人通過 WhatsApp 給他發(fā)了“一條來自未知號(hào)碼的奇怪消息”，請(qǐng)他幫忙處理 PayBox（一款以色列支付應(yīng)用）的賬戶問題。

“我以為是垃圾信息，”他在給《麻省理工科技評(píng)論》的郵件中寫道，“我以為有人在整我。”

但當(dāng)他問對(duì)方怎么找到他的號(hào)碼時(shí)，對(duì)方發(fā)來了一張 Gemini 的截圖：Gemini 生成的 PayBox 客服指引中，給出的 WhatsApp 聯(lián)系方式正是他的私人號(hào)碼。亞伯拉罕并不在 PayBox 工作，而且 PayBox 也沒有 WhatsApp 客服號(hào)碼——PayBox 的客服代表埃拉德·加貝（Elad Gabay）確認(rèn)了這一點(diǎn)。

后來亞伯拉罕自己在 Gemini 上問“怎么聯(lián)系 PayBox”，結(jié)果它生成了另一個(gè)人的 WhatsApp 號(hào)碼。我最近也試了同樣的問題，Gemini 又給出了一個(gè)以色列手機(jī)號(hào)，這個(gè)號(hào)碼屬于一家與 PayBox 合作的信用卡公司，而不是 PayBox 本身。

亞伯拉罕與那位陌生人的對(duì)話很快就結(jié)束了，但他擔(dān)心類似的事情在其他場(chǎng)景下可能迅速惡化，產(chǎn)生“騷擾或其他不愉快的互動(dòng)”。“如果我為了‘解決’他的客服問題而開口要錢呢？”他說。

為了弄清楚這是怎么發(fā)生的，亞伯拉罕用自己的手機(jī)號(hào)在 Google 上做了一次普通搜索，發(fā)現(xiàn)這個(gè)號(hào)碼曾經(jīng)在 2015 年被發(fā)布在一個(gè)類似知乎的以色列本地網(wǎng)站上。雖然他不確定是誰發(fā)的，但這可能解釋了為什么十多年后他的號(hào)碼會(huì)被 Gemini 再次生成出來。

Gemini、OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等聊天機(jī)器人都基于大語言模型構(gòu)建，訓(xùn)練數(shù)據(jù)是從互聯(lián)網(wǎng)上大規(guī)模抓取的，這些數(shù)據(jù)中不可避免地包含了數(shù)以億計(jì)的個(gè)人身份信息（PII）。比如一個(gè)廣泛使用的大型開源數(shù)據(jù)集 DataComp CommonPool（曾用于訓(xùn)練圖像生成模型）里就包含了簡(jiǎn)歷、駕照和信用卡的副本。

隨著公開數(shù)據(jù)逐漸“用完”、AI 公司尋找新的高質(zhì)量訓(xùn)練數(shù)據(jù)來源，個(gè)人信息出現(xiàn)在訓(xùn)練數(shù)據(jù)中的概率只會(huì)越來越高。這些來源包括數(shù)據(jù)中間商和人員搜索網(wǎng)站：根據(jù)加州數(shù)據(jù)中間商登記信息，該州 578 家注冊(cè)數(shù)據(jù)中間商中有 31 家自行報(bào)告稱“在過去一年中曾向生成式 AI 系統(tǒng)或模型的開發(fā)者共享或出售過消費(fèi)者數(shù)據(jù)”。

此外，模型已知會(huì)從訓(xùn)練數(shù)據(jù)中逐字記憶和復(fù)制內(nèi)容。最新研究還表明，被記住的不僅僅是出現(xiàn)頻率最高的那些數(shù)據(jù)。

不完善的防護(hù)

現(xiàn)在的標(biāo)準(zhǔn)做法是在大語言模型的設(shè)計(jì)中加入護(hù)欄來限制某些輸出，從用于識(shí)別和阻止聊天機(jī)器人泄露個(gè)人信息的內(nèi)容過濾器，到 Anthropic 對(duì) Claude 的指令，都優(yōu)先選擇“包含最少他人個(gè)人、私密或機(jī)密信息”的回答。

但正如華盛頓大學(xué)兩位研究隱私與技術(shù)的博士生最近親身經(jīng)歷的，這些防護(hù)措施并不總是管用。

“有一天我就是在 Gemini 上隨便玩，搜了搜我的朋友兼合作者雅爾·艾格（Yael Eiger）的名字，”梅拉·吉爾伯特（Meira Gilbert）說。她輸入的是“Yael Eiger contact info”，Gemini 先是展示了艾格的研究概況，但接著還返回了艾格的私人手機(jī)號(hào)。“太震驚了。”吉爾伯特說。

看到這個(gè)結(jié)果后，艾格回憶起她確實(shí)在前一年為一個(gè)技術(shù)工作坊公開分享過自己的手機(jī)號(hào)。但她沒有預(yù)料到這個(gè)信息會(huì)如此輕易地被全世界的人看到。

“你的信息原本只對(duì)某個(gè)特定群體可見，然后 Gemini 讓任何人都能看到。”艾格說，這感覺完全不同——尤其是當(dāng)她發(fā)現(xiàn)這個(gè)信息在普通 Google 搜索中其實(shí)是很難找到的

“它被嚴(yán)重降權(quán)了，”吉爾伯特確認(rèn)說，“如果只是翻 Google 搜索結(jié)果，我絕對(duì)找不到。”（我本月早些時(shí)候用同樣的提示詞在 Gemini 上試了一下，起初被拒絕，但隨后工具還是給出了艾格的號(hào)碼。）

這次經(jīng)歷之后，艾格、吉爾伯特和另一位華盛頓大學(xué)博士生安娜-瑪麗亞·格奧爾基耶娃（Anna-Maria Gueorguieva）決定測(cè)試 ChatGPT，看看它會(huì)透露關(guān)于一位教授的什么信息。

一開始 OpenAI 的護(hù)欄起了作用，ChatGPT 表示該信息不可用。但就在同一個(gè)回答中，聊天機(jī)器人建議說：“如果你想深入挖掘，我可以試試更‘調(diào)查式’的方法。”只需要提供一些信息來“縮小范圍”，ChatGPT 說，比如“猜一下那位教授住在哪個(gè)社區(qū)”或者“可能的房產(chǎn)共有人姓名”。ChatGPT 還說：“這通常是找到較新的或刻意不公開的房產(chǎn)記錄的唯一方法。”

學(xué)生們提供了這些信息，ChatGPT 隨即生成了這位教授的家庭住址、購(gòu)房?jī)r(jià)格和配偶姓名，來源是城市房產(chǎn)記錄。

OpenAI 的代表塔亞·克里斯蒂安森（Taya Christianson）表示，在沒有看到截圖、不知道學(xué)生測(cè)試的是哪個(gè)模型的情況下，她無法對(duì)此事做出評(píng)論——盡管我們指出很多用戶在 ChatGPT 界面上可能并不知道自己在用哪個(gè)模型。針對(duì)個(gè)人信息泄露的問題，她發(fā)來了幾個(gè)鏈接，介紹 OpenAI 如何處理隱私問題，包括過濾個(gè)人信息等工具。

DeleteMe 的沙維爾說，這暴露了聊天機(jī)器人的一個(gè)根本矛盾：AI 公司“可以設(shè)置護(hù)欄，但聊天機(jī)器人同時(shí)也被設(shè)計(jì)成要有效地回答用戶的問題。”

這個(gè)問題不只存在于 Gemini 和 ChatGPT。去年 Futurism 發(fā)現(xiàn)，如果你在 xAI 的聊天機(jī)器人 Grok 上輸入“[某人姓名] 地址”，幾乎每次它都不僅給出了住宅地址，往往還附上了電話號(hào)碼、工作地址，甚至名字相似的人的地址。（xAI 沒有回應(yīng)置評(píng)請(qǐng)求。）

沒有簡(jiǎn)單的解決辦法

這個(gè)問題目前沒有簡(jiǎn)單的解決方案。無論是驗(yàn)證你的個(gè)人信息是否存在于某個(gè)模型的訓(xùn)練集中，還是迫使模型刪除這些信息，都做不到。

斯坦福大學(xué)以人為本人工智能研究所的隱私與數(shù)據(jù)研究員珍妮弗·金（Jennifer King）說，理想情況下消費(fèi)者應(yīng)該能要求刪除自己的個(gè)人信息。但在實(shí)踐中這通常被理解為只適用于用戶直接提供給公司的數(shù)據(jù)，比如你跟聊天機(jī)器人對(duì)話時(shí)留下的數(shù)據(jù)。

“我都不知道 Google 有沒有這個(gè)能力……對(duì)我說‘是的，我們的訓(xùn)練數(shù)據(jù)里有你的信息，我們可以總結(jié)一下我們知道些什么，然后刪除或修正那些錯(cuò)誤的或你不想保留的東西’。”她說。

諸如《加州消費(fèi)者隱私法》或歐洲的 GDPR現(xiàn)有的隱私法，這些現(xiàn)有的法律并不覆蓋那些已經(jīng)被抓取并用于訓(xùn)練大語言模型的“公開可用”信息，尤其是其中很多數(shù)據(jù)已經(jīng)被匿名化處理了（雖然也有多項(xiàng)研究表明，從匿名化和化名數(shù)據(jù)中推斷出真實(shí)身份和個(gè)人信息是多么容易）。

至于 AI 公司“有沒有系統(tǒng)性地回溯檢查過已經(jīng)從公開互聯(lián)網(wǎng)上收集的數(shù)據(jù)，把個(gè)人信息清理掉？”金補(bǔ)充說，“完全不知道。”

退而求其次的方案是公司“把所有人的電話號(hào)碼或所有看起來像電話號(hào)碼的數(shù)據(jù)都剔除掉”，金說，但“沒有人愿意說自己在這么做”。

托管開源數(shù)據(jù)集和 AI 模型的平臺(tái) Hugging Face 提供了一個(gè)工具，用戶可以搜索某條數(shù)據(jù)（比如自己的電話號(hào)碼）在開源 LLM 訓(xùn)練集中出現(xiàn)過多少次，但這不一定代表那些驅(qū)動(dòng) Claude、ChatGPT 和 Gemini 等主流聊天機(jī)器人的閉源模型里的情況。（比如艾格的號(hào)碼在 Hugging Face 的工具中就沒有顯示。）

Gemini 應(yīng)用和 Google Labs 的傳播負(fù)責(zé)人亞歷克斯·約瑟夫（Alex Joseph）沒有回應(yīng)具體提問，但他說團(tuán)隊(duì)正在調(diào)查《麻省理工科技評(píng)論》提出的幾個(gè)特定案例。他還提供了一個(gè)幫助文檔的鏈接，描述用戶如何“反對(duì)對(duì)你個(gè)人數(shù)據(jù)的處理”或“要求修正 Gemini 應(yīng)用回答中不準(zhǔn)確的個(gè)人數(shù)據(jù)”。頁(yè)面指出公司的回應(yīng)將取決于用戶所在司法管轄區(qū)的隱私法。

OpenAI 有一個(gè)隱私門戶，用戶可以提交請(qǐng)求，要求從 ChatGPT 的回答中移除自己的個(gè)人信息，但注明公司會(huì)權(quán)衡隱私請(qǐng)求與公共利益，“如果有合法理由，可能會(huì)拒絕請(qǐng)求”。

Anthropic 描述了它在模型訓(xùn)練中如何使用個(gè)人數(shù)據(jù)，但沒有提供明確的途徑讓用戶要求刪除。該公司沒有回應(yīng)置評(píng)請(qǐng)求。

目前，想保護(hù)自己隱私數(shù)據(jù)的人最好的辦法是“從源頭做起。在下一次抓取之前，把個(gè)人數(shù)據(jù)從公開網(wǎng)絡(luò)上清除掉。”沙維爾說。比如從今年起，加州已為居民提供了一個(gè)網(wǎng)頁(yè)門戶，可以要求數(shù)據(jù)中間商刪除他們的信息。不過這也不能保證你的數(shù)據(jù)沒有已經(jīng)被用來訓(xùn)練模型——因此仍然可能出現(xiàn)在聊天機(jī)器人的回答里。

那位在 Reddit 上求助的用戶寫道，他“已經(jīng)向 Google 提交了正式的法律移除/隱私請(qǐng)求，要求緊急將我的號(hào)碼從他們 LLM 的輸出中屏蔽”，但還沒有收到回復(fù)。他上個(gè)月還寫道“騷擾每天都在繼續(xù)”。

以色列軟件開發(fā)者亞伯拉罕說他在 3 月 17 日（號(hào)碼被泄露的第二天）就聯(lián)系了 Google 客服，但直到 5 月 4 日才收到回復(fù)，而回復(fù)只是要求他提供他已經(jīng)提交過的材料。

與此同時(shí)，受到自己在 Gemini 上隱私被暴露的啟發(fā)，艾格與吉爾伯特和格奧爾基耶娃一起正在設(shè)計(jì)一個(gè)研究項(xiàng)目，進(jìn)一步調(diào)查各種 AI 聊天機(jī)器人在泄露哪些個(gè)人信息——以及它們可能知道、但還沒有輸出的信息。

有些信息“從技術(shù)上說是公開的”，吉爾伯特說，但聊天機(jī)器人可能正在改變“你找到這些信息所需的努力程度”。以前你要翻十頁(yè) Google 搜索結(jié)果，或者花錢從數(shù)據(jù)中間商那里買，現(xiàn)在“生成式 AI 是不是直接降低了針對(duì)他人的門檻？”

https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.