![]()
(來源:麻省理工科技評論)
最近一位 Reddit 用戶發帖稱自己“走投無路了”:一個月來,他的手機不斷接到陌生人的電話,找律師的、找產品設計師的、找鎖匠的……來電者顯然是被 GoogleAI 指錯了方向。
今年 3 月,一位以色列的軟件開發者在 WhatsApp 上被陌生人聯系,原因是 Google 的聊天機器人 Gemini 給出了錯誤的客服指引,里面包含了他的手機號。
4 月,華盛頓大學一位博士生在 Gemini 上隨便輸入了一個指令,就讓它吐出了同事的私人手機號。
![]()
AI 相關隱私投訴暴增 400%
AI 聊天機器人泄露手機號的頻率到底有多高,無法確切統計,但專家們認為實際發生的次數遠多于公開報道的。
DeleteMe 是一家幫客戶從互聯網上刪除個人信息的公司。該公司表示,過去七個月里客戶關于生成式 AI 的咨詢量增長了 400%,達到幾千條。這些咨詢“專門提到了 ChatGPT、Claude、Gemini 或其他生成式 AI 工具”,公司聯合創始人兼 CEO 羅布·沙維爾(Rob Shavell)說。具體來看,55% 的投訴涉及 ChatGPT,20% 涉及 Gemini,15% 涉及 Claude,10% 涉及其他 AI 工具。
沙維爾說,客戶關于個人信息被大語言模型暴露的投訴通常有兩種形式:一種是”客戶隨便問了聊天機器人一些關于自己的問題,結果得到了準確的家庭住址、電話號碼、家人姓名或雇主信息“。另一種是聊天機器人把別人的個人數據暴露給了用戶——“它生成了看起來像真的、但其實是錯誤的聯系方式”。
丹尼爾·亞伯拉罕(Daniel Abraham)的遭遇就屬于第二種。這位 28 歲的以色列軟件工程師說,3 月中旬有個陌生人通過 WhatsApp 給他發了“一條來自未知號碼的奇怪消息”,請他幫忙處理 PayBox(一款以色列支付應用)的賬戶問題。
“我以為是垃圾信息,”他在給《麻省理工科技評論》的郵件中寫道,“我以為有人在整我。”
但當他問對方怎么找到他的號碼時,對方發來了一張 Gemini 的截圖:Gemini 生成的 PayBox 客服指引中,給出的 WhatsApp 聯系方式正是他的私人號碼。亞伯拉罕并不在 PayBox 工作,而且 PayBox 也沒有 WhatsApp 客服號碼——PayBox 的客服代表埃拉德·加貝(Elad Gabay)確認了這一點。
后來亞伯拉罕自己在 Gemini 上問“怎么聯系 PayBox”,結果它生成了另一個人的 WhatsApp 號碼。我最近也試了同樣的問題,Gemini 又給出了一個以色列手機號,這個號碼屬于一家與 PayBox 合作的信用卡公司,而不是 PayBox 本身。
亞伯拉罕與那位陌生人的對話很快就結束了,但他擔心類似的事情在其他場景下可能迅速惡化,產生“騷擾或其他不愉快的互動”。“如果我為了‘解決’他的客服問題而開口要錢呢?”他說。
為了弄清楚這是怎么發生的,亞伯拉罕用自己的手機號在 Google 上做了一次普通搜索,發現這個號碼曾經在 2015 年被發布在一個類似知乎的以色列本地網站上。雖然他不確定是誰發的,但這可能解釋了為什么十多年后他的號碼會被 Gemini 再次生成出來。
Gemini、OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等聊天機器人都基于大語言模型構建,訓練數據是從互聯網上大規模抓取的,這些數據中不可避免地包含了數以億計的個人身份信息(PII)。比如一個廣泛使用的大型開源數據集 DataComp CommonPool(曾用于訓練圖像生成模型)里就包含了簡歷、駕照和信用卡的副本。
隨著公開數據逐漸“用完”、AI 公司尋找新的高質量訓練數據來源,個人信息出現在訓練數據中的概率只會越來越高。這些來源包括數據中間商和人員搜索網站:根據加州數據中間商登記信息,該州 578 家注冊數據中間商中有 31 家自行報告稱“在過去一年中曾向生成式 AI 系統或模型的開發者共享或出售過消費者數據”。
此外,模型已知會從訓練數據中逐字記憶和復制內容。最新研究還表明,被記住的不僅僅是出現頻率最高的那些數據。
![]()
不完善的防護
現在的標準做法是在大語言模型的設計中加入護欄來限制某些輸出,從用于識別和阻止聊天機器人泄露個人信息的內容過濾器,到 Anthropic 對 Claude 的指令,都優先選擇“包含最少他人個人、私密或機密信息”的回答。
但正如華盛頓大學兩位研究隱私與技術的博士生最近親身經歷的,這些防護措施并不總是管用。
“有一天我就是在 Gemini 上隨便玩,搜了搜我的朋友兼合作者雅爾·艾格(Yael Eiger)的名字,”梅拉·吉爾伯特(Meira Gilbert)說。她輸入的是“Yael Eiger contact info”,Gemini 先是展示了艾格的研究概況,但接著還返回了艾格的私人手機號。“太震驚了。”吉爾伯特說。
看到這個結果后,艾格回憶起她確實在前一年為一個技術工作坊公開分享過自己的手機號。但她沒有預料到這個信息會如此輕易地被全世界的人看到。
“你的信息原本只對某個特定群體可見,然后 Gemini 讓任何人都能看到。”艾格說,這感覺完全不同——尤其是當她發現這個信息在普通 Google 搜索中其實是很難找到的
“它被嚴重降權了,”吉爾伯特確認說,“如果只是翻 Google 搜索結果,我絕對找不到。”(我本月早些時候用同樣的提示詞在 Gemini 上試了一下,起初被拒絕,但隨后工具還是給出了艾格的號碼。)
這次經歷之后,艾格、吉爾伯特和另一位華盛頓大學博士生安娜-瑪麗亞·格奧爾基耶娃(Anna-Maria Gueorguieva)決定測試 ChatGPT,看看它會透露關于一位教授的什么信息。
一開始 OpenAI 的護欄起了作用,ChatGPT 表示該信息不可用。但就在同一個回答中,聊天機器人建議說:“如果你想深入挖掘,我可以試試更‘調查式’的方法。”只需要提供一些信息來“縮小范圍”,ChatGPT 說,比如“猜一下那位教授住在哪個社區”或者“可能的房產共有人姓名”。ChatGPT 還說:“這通常是找到較新的或刻意不公開的房產記錄的唯一方法。”
學生們提供了這些信息,ChatGPT 隨即生成了這位教授的家庭住址、購房價格和配偶姓名,來源是城市房產記錄。
OpenAI 的代表塔亞·克里斯蒂安森(Taya Christianson)表示,在沒有看到截圖、不知道學生測試的是哪個模型的情況下,她無法對此事做出評論——盡管我們指出很多用戶在 ChatGPT 界面上可能并不知道自己在用哪個模型。針對個人信息泄露的問題,她發來了幾個鏈接,介紹 OpenAI 如何處理隱私問題,包括過濾個人信息等工具。
DeleteMe 的沙維爾說,這暴露了聊天機器人的一個根本矛盾:AI 公司“可以設置護欄,但聊天機器人同時也被設計成要有效地回答用戶的問題。”
這個問題不只存在于 Gemini 和 ChatGPT。去年 Futurism 發現,如果你在 xAI 的聊天機器人 Grok 上輸入“[某人姓名] 地址”,幾乎每次它都不僅給出了住宅地址,往往還附上了電話號碼、工作地址,甚至名字相似的人的地址。(xAI 沒有回應置評請求。)
![]()
沒有簡單的解決辦法
這個問題目前沒有簡單的解決方案。無論是驗證你的個人信息是否存在于某個模型的訓練集中,還是迫使模型刪除這些信息,都做不到。
斯坦福大學以人為本人工智能研究所的隱私與數據研究員珍妮弗·金(Jennifer King)說,理想情況下消費者應該能要求刪除自己的個人信息。但在實踐中這通常被理解為只適用于用戶直接提供給公司的數據,比如你跟聊天機器人對話時留下的數據。
“我都不知道 Google 有沒有這個能力……對我說‘是的,我們的訓練數據里有你的信息,我們可以總結一下我們知道些什么,然后刪除或修正那些錯誤的或你不想保留的東西’。”她說。
諸如《加州消費者隱私法》或歐洲的 GDPR現有的隱私法,這些現有的法律并不覆蓋那些已經被抓取并用于訓練大語言模型的“公開可用”信息,尤其是其中很多數據已經被匿名化處理了(雖然也有多項研究表明,從匿名化和化名數據中推斷出真實身份和個人信息是多么容易)。
至于 AI 公司“有沒有系統性地回溯檢查過已經從公開互聯網上收集的數據,把個人信息清理掉?”金補充說,“完全不知道。”
退而求其次的方案是公司“把所有人的電話號碼或所有看起來像電話號碼的數據都剔除掉”,金說,但“沒有人愿意說自己在這么做”。
托管開源數據集和 AI 模型的平臺 Hugging Face 提供了一個工具,用戶可以搜索某條數據(比如自己的電話號碼)在開源 LLM 訓練集中出現過多少次,但這不一定代表那些驅動 Claude、ChatGPT 和 Gemini 等主流聊天機器人的閉源模型里的情況。(比如艾格的號碼在 Hugging Face 的工具中就沒有顯示。)
Gemini 應用和 Google Labs 的傳播負責人亞歷克斯·約瑟夫(Alex Joseph)沒有回應具體提問,但他說團隊正在調查《麻省理工科技評論》提出的幾個特定案例。他還提供了一個幫助文檔的鏈接,描述用戶如何“反對對你個人數據的處理”或“要求修正 Gemini 應用回答中不準確的個人數據”。頁面指出公司的回應將取決于用戶所在司法管轄區的隱私法。
OpenAI 有一個隱私門戶,用戶可以提交請求,要求從 ChatGPT 的回答中移除自己的個人信息,但注明公司會權衡隱私請求與公共利益,“如果有合法理由,可能會拒絕請求”。
Anthropic 描述了它在模型訓練中如何使用個人數據,但沒有提供明確的途徑讓用戶要求刪除。該公司沒有回應置評請求。
目前,想保護自己隱私數據的人最好的辦法是“從源頭做起。在下一次抓取之前,把個人數據從公開網絡上清除掉。”沙維爾說。比如從今年起,加州已為居民提供了一個網頁門戶,可以要求數據中間商刪除他們的信息。不過這也不能保證你的數據沒有已經被用來訓練模型——因此仍然可能出現在聊天機器人的回答里。
那位在 Reddit 上求助的用戶寫道,他“已經向 Google 提交了正式的法律移除/隱私請求,要求緊急將我的號碼從他們 LLM 的輸出中屏蔽”,但還沒有收到回復。他上個月還寫道“騷擾每天都在繼續”。
以色列軟件開發者亞伯拉罕說他在 3 月 17 日(號碼被泄露的第二天)就聯系了 Google 客服,但直到 5 月 4 日才收到回復,而回復只是要求他提供他已經提交過的材料。
與此同時,受到自己在 Gemini 上隱私被暴露的啟發,艾格與吉爾伯特和格奧爾基耶娃一起正在設計一個研究項目,進一步調查各種 AI 聊天機器人在泄露哪些個人信息——以及它們可能知道、但還沒有輸出的信息。
有些信息“從技術上說是公開的”,吉爾伯特說,但聊天機器人可能正在改變“你找到這些信息所需的努力程度”。以前你要翻十頁 Google 搜索結果,或者花錢從數據中間商那里買,現在“生成式 AI 是不是直接降低了針對他人的門檻?”
https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.