![]()
圖源:Seedance生成
撰文 | 崔原豪
責(zé)編 | 李珊珊
1993年,《紐約客》雜志刊登了一幅著名漫畫:一只狗坐在電腦前,對另一只狗說,在互聯(lián)網(wǎng)上,沒人知道你是一條狗[1]。
這幅漫畫精準(zhǔn)地捕捉了早期互聯(lián)網(wǎng)的精神內(nèi)核:匿名性賦予每個人平等的發(fā)言權(quán),身份、地位、外貌都被暫時懸置,唯有思想和文字在流動。
![]()
圖源:紐約客截圖
三十多年后的今天,這個美好的假設(shè)正在被一種新技術(shù)悄然瓦解。
2026年2月,蘇黎世聯(lián)邦理工學(xué)院與人工智能公司Anthropic聯(lián)合發(fā)表了一篇論文,標(biāo)題直白得令人不安:Large-scale online deanonymization with LLMs(基于大語言模型的大規(guī)模在線去匿名化)[2]。研究團(tuán)隊展示了一個令人震驚的事實:在AI面前,互聯(lián)網(wǎng)匿名正在以肉眼可見的速度崩塌。
01 當(dāng)人肉搜索成為流水線作業(yè)
讓我們從一個假設(shè)開始。
假設(shè)你在某個技術(shù)論壇注冊了一個小號,ID是代碼詩人1995。你從未透露真實姓名,頭像是一只貓,簡介里只寫著熱愛開源,討厭周一。你在論壇上討論編程問題、吐槽公司制度、偶爾發(fā)表一些不想被同事看到的觀點。你覺得很安全,畢竟這只是個馬甲。
但現(xiàn)在,有一臺機(jī)器正在閱讀你所有的發(fā)言。
![]()
它注意到你喜歡用特定的標(biāo)點符號組合是三個句號加空格;它發(fā)現(xiàn)你提到上周去杭州出差時順便抱怨了西湖邊的酒店太貴;它記得你說過研究生是在北郵讀的,導(dǎo)師姓張。它把這些碎片拼接起來,然后在一個擁有數(shù)十億用戶數(shù)據(jù)的互聯(lián)網(wǎng)上進(jìn)行匹配。
90%的精度,68%的召回率,這是論文中報告的數(shù)字[2]。換句話說,這臺機(jī)器有接近七成的概率,能從茫茫人海中把你代碼詩人1995的真實身份找出來。
這不是科幻小說的情節(jié)。研究團(tuán)隊用三個真實場景驗證了這一攻擊的有效性:將Hacker News用戶與LinkedIn檔案匹配、跨Reddit不同社區(qū)識別同一用戶、甚至僅憑一個用戶在不同時間段的發(fā)言就將其分身關(guān)聯(lián)起來。在每一項測試中,基于大語言模型的方法都碾壓了傳統(tǒng)算法,后者的成功率幾乎為零。
02 從神話到科學(xué):去匿名化的技術(shù)躍遷
要理解這場變革的意義,我們需要回溯歷史。
![]()
2006年,Netflix舉辦了一場著名的算法競賽:公開一億條電影評分?jǐn)?shù)據(jù),懸賞100萬美元給能最好地預(yù)測用戶評分的團(tuán)隊。然而,研究者很快發(fā)現(xiàn),即使數(shù)據(jù)經(jīng)過匿名化處理,用戶ID被隨機(jī)替換,仍然可以通過交叉比對其他公開數(shù)據(jù)庫(如IMDb)重新識別出具體個人。一位德克薩斯大學(xué)的研究生甚至成功識別出了Netflix數(shù)據(jù)集中包括她自己在內(nèi)的多位用戶[3]。
這就是傳統(tǒng)去匿名化的困境:它依賴于結(jié)構(gòu)化數(shù)據(jù),需要精心設(shè)計的交叉比對,本質(zhì)上是一種手工藝術(shù)。門檻高、規(guī)模小、成本昂貴,只有具備相當(dāng)資源的機(jī)構(gòu)才能實施。
但大語言模型改變了這一切。
論文中描述的攻擊流程看似簡單,卻蘊(yùn)含著深刻的范式轉(zhuǎn)變。整個系統(tǒng)分為三個核心模塊:
- 第一步是特征提取。傳統(tǒng)方法需要人工定義什么是身份特征,比如姓名、地址、電話號碼。但大語言模型可以直接閱讀原始文本,自動發(fā)現(xiàn)那些人類難以形式化的線索。比如你習(xí)慣在句尾加上哈哈哈,你提到周末總是去五道口那家書店,你對某個技術(shù)框架有特定的稱呼方式。這些看似瑣碎的細(xì)節(jié),在模型眼中構(gòu)成了獨特的身份指紋。
- 第二步是語義匹配。研究者使用了一種稱為嵌入的技術(shù)[2]。簡單來說,就是把每段文字轉(zhuǎn)化為一個高維空間中的向量。語義相近的文字,在這個空間中距離也相近。當(dāng)模型需要匹配兩個不同平臺上的用戶時,它不需要逐字比對,而是計算這兩個用戶文字向量之間的距離。如果距離足夠近,就有可能是同一個人。
- 第三步是推理驗證。這是大語言模型最獨特的能力。前兩步可能產(chǎn)生大量候選匹配,其中有不少是誤報。此時,模型會像一位經(jīng)驗豐富的偵探一樣,仔細(xì)審視每一對候選對象,分析它們之間的相似點和差異點,最終給出是否匹配的判斷。論文顯示,加入這一推理步驟后,系統(tǒng)在99%精度下的召回率提升了一倍[2]。
![]()
關(guān)鍵在于,這一切都可以自動化、規(guī)模化地進(jìn)行。不再需要人工設(shè)計特征,不再需要編寫復(fù)雜的匹配規(guī)則,只需要一個經(jīng)過訓(xùn)練的大語言模型和足夠的算力。
03 匿名的價值:人類為什么需要馬甲?
在討論技術(shù)之前,我們必須先問一個問題:匿名重要嗎?
答案是肯定的,而且比我們想象的更重要。
從古希臘的民主廣場到啟蒙時代的咖啡館,從地下出版物到互聯(lián)網(wǎng)論壇,匿名一直是保護(hù)言論自由的重要機(jī)制。它讓異見者敢于發(fā)聲,讓弱勢群體尋求幫助,讓吹哨者揭露真相。沒有匿名,蘇格拉底可能不敢在雅典街頭與人辯論;沒有匿名,《聯(lián)邦黨人文集》的作者們無法坦誠地討論新憲法的利弊;沒有匿名,曾經(jīng)的BBS匿名用戶功能也不會成為許多人心中的樹洞。
![]()
但匿名的意義不僅在于保護(hù)發(fā)言者,更在于保護(hù)言論本身。
社會心理學(xué)中有一個著名的去個體化理論:當(dāng)個體身份被隱藏時,人們更容易表達(dá)真實的想法,而不是社會期望的答案[4]。這在某些情況下可能導(dǎo)致負(fù)面后果,如網(wǎng)絡(luò)暴力,但在更多情況下,它促進(jìn)了真誠的公共討論。許多關(guān)于職場不公、學(xué)術(shù)腐敗、性別歧視的重要揭露,最初都始于一個匿名的帖子。
如果AI讓匿名成為奢望,我們失去的將不僅僅是“馬甲”,我們失去的是一個讓真話得以存活的生態(tài)。
04 威脅模型:誰會被影響?
論文的作者們沒有回避技術(shù)的潛在濫用。
企業(yè)可以構(gòu)建超精準(zhǔn)的用戶畫像,實現(xiàn)超定向廣告;攻擊者可以大規(guī)模收集目標(biāo)信息,發(fā)起高度個性化的社會工程攻擊。在職場環(huán)境中,這可能成為內(nèi)部斗爭的工具;在社交場景中,這可能侵蝕個人的隱私底線。
![]()
但更大的威脅或許來自開盒成本的降低。
想象一下:你在微博上用小號吐槽了公司領(lǐng)導(dǎo),以為沒人知道。但你的同事,或者更糟,你的領(lǐng)導(dǎo),只需要把你的發(fā)言與公司內(nèi)部通訊記錄進(jìn)行比對,就有很大概率發(fā)現(xiàn)原來那個罵我的人就是你。這種橫向去匿名化不需要復(fù)雜的組織,只需要一點技術(shù)知識和好奇心。
更微妙的是,這種技術(shù)可能改變我們對隱私的預(yù)期。
過去,我們認(rèn)為只要我不說,別人就不會知道。但現(xiàn)在,即使你不主動透露,你的寫作風(fēng)格、你的表達(dá)方式、你的思維習(xí)慣,這些曾經(jīng)被認(rèn)為是無害的特征,都可能成為識別你的指紋。
隱私的邊界正在從你說了什么擴(kuò)展到你怎么說。
05 我們能做什么?
面對這一挑戰(zhàn),個人、平臺和政策制定者都需要行動。
對個人而言,首先需要意識到風(fēng)格即身份。跨平臺使用完全不同的寫作風(fēng)格、避免重復(fù)使用特定的短語或表情符號、謹(jǐn)慎關(guān)聯(lián)真實身份與網(wǎng)絡(luò)身份,這些措施可以提供一定程度的保護(hù),盡管無法完全抵御有針對性的攻擊。
對平臺而言,數(shù)據(jù)最小化原則變得前所未有的重要。減少用戶數(shù)據(jù)的存儲時間、限制數(shù)據(jù)的交叉使用、引入風(fēng)格混淆技術(shù),如AI改寫工具,這些措施可以增加攻擊者的成本。
對政策制定者而言,需要重新思考隱私法律的適用范圍。傳統(tǒng)的匿名化標(biāo)準(zhǔn),如k-匿名、l-多樣性,在大語言模型時代可能不再足夠[5]。我們需要新的技術(shù)標(biāo)準(zhǔn)和法律框架,來應(yīng)對基于AI的推斷性識別這一新興威脅。
但最根本的問題或許是:當(dāng)技術(shù)讓隱私保護(hù)變得越來越困難時,我們是否需要重新定義隱私本身?
06 結(jié)語:在透明的時代尋找陰影
古希臘神話中,普羅米修斯為人類盜來火種,卻因此被縛于高加索山,日日受鷹啄肝之痛。技術(shù)的進(jìn)步往往伴隨著代價,而大語言模型帶來的去匿名化能力,或許正是我們這個時代必須面對的普羅米修斯之火。
論文的作者們在倫理審查的框架下開展了這項研究,他們使用的數(shù)據(jù)集經(jīng)過了脫敏處理,研究過程經(jīng)過了ETH Zurich倫理委員會的批準(zhǔn)[2]。但技術(shù)一旦公開,如何使用便不再由研究者控制。
這正是技術(shù)倫理的經(jīng)典困境:揭示風(fēng)險與提供攻擊工具之間的微妙平衡。
我們不得不面對一個令人不安的事實:互聯(lián)網(wǎng)匿名曾是一種實用的模糊性,不是絕對安全,而是攻擊成本太高,所以相對安全。但AI正在大幅降低這一成本,使得針對普通人的去匿名化從不可能變?yōu)榭赡埽瑥陌嘿F變?yōu)榱畠r。
也許,我們正在見證一個時代的終結(jié)。那個可以在網(wǎng)上自由更換馬甲、嘗試不同身份、說出不敢實名說出的話的時代,正在緩緩拉上帷幕。
但這不是故事的結(jié)局。歷史告訴我們,每當(dāng)舊有的保護(hù)機(jī)制失效,新的機(jī)制就會誕生。加密通信、去中心化網(wǎng)絡(luò)、聯(lián)邦學(xué)習(xí),這些技術(shù)正在為用戶提供新的隱私工具。更重要的是,社會對隱私價值的認(rèn)識也在深化。當(dāng)威脅變得具體,保護(hù)的動力就會增強(qiáng)。
在《1984》中,奧威爾描繪了一個沒有隱私的恐怖世界[6]。但我們也記得,在《美麗新世界》中,赫胥黎警告的是另一種危險:人們可能會主動放棄隱私,換取便利和娛樂[7]。面對AI時代的去匿名化威脅,我們需要的不僅是技術(shù)防御,更是對隱私價值的堅守,不是因為我們要隱藏什么,而是因為我們需要一個讓真話得以存活的空間。
畢竟,即使在最明亮的房間里,人也總需要一些陰影。
(本文作者崔原豪為北京郵電大學(xué)副研究員、中國計算機(jī)學(xué)會科學(xué)普及工作委員會主任助理。如無特別標(biāo)注,本文插圖均由GeminiNanobanana生成。)
參考文獻(xiàn):
- [1] Steiner P. On the Internet, nobody knows you are a dog. The New Yorker, 1993.
- [2] Lermen S, et al. Large-scale online deanonymization with LLMs. arXiv:2602.16800, 2025.
- [3] Narayanan A, Shmatikov V. Robust De-anonymization of Large Sparse Datasets. IEEE Symposium on Security and Privacy, 2008: 111-125.
- [4] Diener E. Deindividuation: The absence of self-awareness and self-regulation in group members. Advances in Experimental Social Psychology, 1980, 13: 209-242.
- [5] Sweeney L. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557-570.
- [6] Orwell G. Nineteen Eighty-Four. Secker & Warburg, 1949.
- [7] Huxley A. Brave New World. Chatto & Windus, 1932.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.