網易首頁 > 網易號 > 正文申請入駐

當AI界出現"叛徒"：英國高校聯合揭露大模型水印技術的致命軟肋

2026-06-08 16:58:17　來源: 科技行者

北京舉報

分享至

這項由倫敦國王學院、倫敦帝國理工學院與華威大學聯合完成的研究，發表于2026年第43屆國際機器學習大會（ICML），收錄于PMLR 306論文集，論文編號為arXiv:2605.30501，有興趣深入了解的讀者可通過該編號查詢完整論文。

當你在網上讀到一篇文章，你能確定它是人寫的，還是AI生成的嗎？這個問題聽起來像是科幻電影里的情節，但它正在成為影響學術誠信、新聞真實性乃至知識產權保護的現實難題。為了解決這個問題，研究者們發明了一種叫做"水印"的技術——就像在鈔票里嵌入隱形圖案一樣，在AI生成的文字里悄悄藏入某種統計規律，讓檢測器能一眼識破。然而，這項看似牢不可破的技術，卻被一個意想不到的發現徹底動搖了。

這支來自英國三所頂尖高校的研究團隊發現，當用戶同時訪問多個AI模型時——而這恰恰是當今互聯網的普通現實——水印技術會幾乎毫不費力地失效。他們不僅用數學公式嚴格證明了這一點，還開發出一套名為WASH（通過統計混合實現水印消減）的實用系統，僅需將三到五個模型的輸出混合平均，就能讓所有主流水印方案的檢測分數從高達300分的"強烈可疑"跌落到2分以下的"無從察覺"。更令人驚訝的是，這個過程不僅消除了水印，還順帶提升了生成質量，速度比現有同類方法快了足足六倍。

一、水印技術究竟在干什么

要理解這個發現為何重要，先得弄清楚AI水印是怎么工作的。

正常情況下，一個AI語言模型在生成文字時，會根據上下文計算出每個候選詞語的概率，然后按概率隨機挑選。比如續寫"今天天氣"，模型可能認為"很好"的概率是40%，"晴朗"的概率是30%，"糟透了"的概率是10%，諸如此類。這套概率分布大體上反映了人類語言的自然規律。

水印技術的做法是：悄悄扭曲這套概率分布。具體來說，模型供應商會給詞匯表里的詞語貼上"綠色"或"紅色"的標簽（用一個只有供應商知道的秘密密鑰來劃分），然后在生成文字時，刻意提高綠色詞語被選中的概率，壓低紅色詞語的概率。人類讀起來感受不到這種偏斜，但統計檢測器一看就知道——這段文字里綠色詞語出現得異常多，這不是自然寫作，這是被水印過的AI文本。

打個比方，這就像一個人被要求在講話時，盡量多用帶"水"字旁的漢字。普通聽眾察覺不到，但一個專門統計字形的分析師能輕易發現這個規律。每家AI供應商的"秘密密鑰"不同，相當于各自規定了不同的"字旁偏好"。這個密鑰是保密的，別人猜不到，所以既能溯源，又難以偽造。

這項技術聽起來相當完備。但研究團隊注意到了一個關鍵漏洞：所有現有水印方案都建立在一個隱含假設上——用戶只訪問一個模型。

二、真實世界打破了這個假設

現在是2026年，任何人都可以免費登錄Hugging Face、訪問GPT系列、調用LLaMA、使用Qwen、體驗Mistral，以及十幾個其他同等水平的大模型。一個想要生成文字的用戶，面對的是一個多供應商共存的超級競爭市場，而不是某家公司的壟斷服務。

研究團隊的核心洞察正是從這里出發的：既然每家供應商用不同的秘密密鑰給自己的模型打水印，那么這些水印擾動的方向就是相互獨立、互不相關的。A家模型偏愛"水"字旁，B家模型偏愛"木"字旁，C家模型偏愛"火"字旁。把三家模型的輸出概率平均一下，各自的"偏愛"不就互相抵消了嗎？

這個道理說起來簡單，但研究團隊在數學上對它進行了嚴格的證明。他們證明：對于任何滿足一定條件的無偏水印方案，將N個獨立模型的輸出概率分布線性平均后，結果與未加水印的自然概率分布之間的差距，會以O(1/√N)的速度收縮。換句話說，隨著平均的模型數量越多，水印信號消失得越干凈；僅需三到五個模型，實際檢測中水印就幾乎徹底失效了。

這個證明的關鍵在于三個前提條件，而這三個條件在真實的商業競爭環境中幾乎必然成立。第一，水印擾動不能太大，否則會明顯損害生成質量，用戶會拋棄這家供應商；第二，各供應商的密鑰相互獨立，因為這是水印溯源的前提，如果密鑰相同就無法區分誰生成了哪段文字；第三，擾動在統計意義上是"零均值"的，即圍繞著自然語言的"共識分布"隨機波動，不系統性地偏向或偏離任何特定方向，因為供應商的目標是維持質量而非刻意制造偏差。只要市場競爭存在，這三個條件就自然滿足，水印信號的消亡就是數學上的必然。

三、從理論到實踐：混合不同模型的實際挑戰

理論證明是一回事，真正把多個AI模型的輸出混合起來，卻面臨一個極其現實的麻煩：不同模型用的"詞典"不一樣。

這就像把英文、法文、德文三本字典的詞條按照同一個位置混合平均——你會發現位置對應不上，因為每本字典的編排方式都不同。在AI大模型中，這個問題叫做"詞匯表不對齊"。Llama模型可能把"Gracious"這個英文詞作為一個完整的詞元（token）來處理，而Mistral模型則把它拆成"Gr"和"acious"兩個碎片，Qwen可能拆成"Gra"和"cious"。同一個意思，三個模型用了完全不同的切割方式來表達。

如果粗暴地取交集——只處理三個模型詞匯表中都存在的詞元——就會遺漏大量專有名詞、技術術語和獨特表達，文字會變得生硬殘缺。如果取并集——所有模型詞匯表里出現過的詞元都考慮進去——又會遇到一個模型根本不認識另一個模型創造的碎片詞元，強行賦予它們零概率會扭曲最終的概率分布。

WASH的解決思路是一個巧妙的"隨機路由"機制。在每一步生成詞元時，系統首先在三個模型的完整詞匯并集上計算混合概率，然后對結果詞元進行判斷：如果這個詞元恰好出現在所有模型的詞匯表里（即詞匯交集），就直接輸出；如果這個詞元只有部分模型認識，就啟動"專家路由"——只讓認識這個詞元的那些模型接著完成當前詞語的剩余部分，其他模型暫時退后，等當前詞語寫完后，通過解碼再編碼的方式，把這段文字還原成原始字符串，然后讓每個模型用自己的詞元切割方式重新處理，確保所有模型的理解保持同步。

這個機制被稱為"流暢感知路由"，因為它不是隨機亂選專家，而是根據哪些模型的詞匯表能覆蓋當前詞元來動態決定。為了避免路由決策本身成為水印的突破口，路由時采用完全隨機的方式在合格的模型中選擇，而不是按照誰的概率更高來選——因為那種概率差異本身可能就是水印造成的。

通過并行推理和KV緩存同步（KV緩存是一種讓模型記住之前生成內容的技術），WASH實現了固定的單詞元處理時間，無論混合幾個模型，每一步的計算開銷都基本相同，而不是隨著模型數量線性增加。

四、實驗驗證：數字說話

研究團隊在三個廣泛使用的AI模型上進行了全面測試：Qwen3-8B、Llama-3.1-8B和Ministral3-8B。他們覆蓋了六種有代表性的水印方案，這六種方案分屬不同的設計思路：AAR基于均勻分布擾動，DIPMark通過調整logit權重，KGW使用綠色詞表偏向采樣，Exp-Edit和ITS-Edit基于逆變換采樣，Water-Bag則結合多組密鑰和它們的數學逆來掩蓋統計偏差。

實驗結果揭示出一個清晰的規律。未經任何處理的水印文本，檢測分數（z分數）在不同方案和模型上，最低約為5分，最高高達304分——這些數字遠超檢測閾值4分，意味著檢測器非常確定這段文字來自AI。當WASH用三個模型的混合輸出來替代單一模型輸出后，幾乎所有組合的檢測分數都跌落到2分以下，低于檢測閾值，檢測器陷入了近乎隨機猜測的狀態。擴展到五個模型后，分數進一步趨近于零，甚至出現了負值——這意味著檢測器反而覺得這段文字"太不像AI生成的了"。

有一個對照實驗尤為關鍵。研究團隊專門測試了一種"協調水印"場景：三個模型共享同一套水印方案，且在生成時刻意同步各自的擾動方向。結果是水印信號完全沒有被平均掉，AAR方案的檢測分數依然高達25.11，Exp-Edit方案維持在17.44——全都遠高于檢測閾值。這個對照實驗證明了，WASH之所以有效，完全依賴于各模型水印擾動的相互獨立性；一旦供應商協調起來，平均操作就徹底失效。這個發現既揭示了當前技術的脆弱性，也指出了未來防御的唯一出路。

在與現有方法的橫向比較中，研究團隊考察了兩類對手：生成時攻擊和后處理改寫攻擊。生成時攻擊的代表是De-mark和ToBlend。De-mark是一種專門針對綠色詞表類水印的方法，它先通過精心設計的提示詞來猜測模型的綠色詞表，再去除對應的偏差——但這種方法只對少數幾種特定水印有效，遇到DIPMark時檢測分數仍高達99，遇到AAR等方案時完全束手無策，而且計算代價極高，在長文本生成任務上速度慢了將近40倍。ToBlend則是另一種模型混合方法，通過輪流讓不同模型各自生成若干詞元來混淆水印——它在水印消除效果上與WASH相近，但由于每次切換模型都需要重新處理全部歷史上下文，在長文本任務上速度同樣慢了12到18倍，且生成質量顯著下降。

后處理改寫的代表RandomWalk采用的方式是：在已生成的水印文本上隨機挑選片段，用一個未加水印的弱模型反復改寫，只接受質量沒有下降的版本。這種方法確實能削弱水印，但它會損害推理和寫作質量，在GSM8K數學題測試中準確率甚至低于原始水印文本基線，而且需要額外10倍的運行時間。

WASH在質量和效率的雙重維度上都表現出色。在數學推理任務（GSM8K）上，Llama模型的未加水印基線準確率是56.7%，加水印后降至51.1%，WASH使用三個模型混合后反而達到了69.5%——超過了未加水印的基線。這個現象并不意外：混合多個高質量模型本身就是一種集成學習，有助于平滑單個模型的偏差和錯誤。在SQuAD閱讀理解任務上，Qwen模型加水印后F1分數從42.1%降至39.6%，WASH恢復至61.0%，同樣超越了未加水印狀態。在開放寫作任務WritingBench中，WASH的評分達到4.26分，優于原始水印基線的4.10分，而ToBlend的評分僅為2.32分，幾乎喪失了寫作連貫性。

從計算資源的角度看，WASH的并行實現版本需要占用約40GB的顯存（約等于三個模型同時駐留內存），每個詞元的生成延遲約57毫秒，相比單模型的30毫秒增加了約90%——但比De-mark的191毫秒和ToBlend的172毫秒快了三倍以上。WASH還有一個順序執行版本，可以按需加載模型，將顯存壓縮至接近單模型水平（約16GB），代價是延遲上升至165毫秒，適合內存資源緊張的場景。

五、水印路由對文本質量影響的細節分析

研究團隊還仔細考察了"流暢感知路由"這一關鍵設計的具體行為，以驗證它不會意外地重新引入水印信號。

通過對醫學和法律領域專業詞匯的測試，他們發現專業術語觸發路由的比例僅為2.7%到3.2%，平均每次路由持續約3.6到3.7個詞元。這是因為大多數復雜的專業詞匯在底層都會被分解為多個語言模型共同認識的子詞單元，真正觸發路由的反而更多是普通詞匯中的詞元切割差異。最終檢測分數在路由后仍然維持在0.84和1.08，遠低于閾值。

通過消融實驗，研究團隊對比了四種方案：直接平均（不路由）、平均后用加水印模型改寫、平均后用未加水印模型改寫，以及完整的WASH。直接平均在水印消除上有效（檢測TPR約41%），但數學準確率跌至33.9%，遠低于可用水平。用加水印模型改寫反而使檢測TPR飆升至76.8%，完全弄巧成拙。用未加水印模型改寫雖然檢測效果好（TPR約11%），但準確率依然只有20.5%。只有WASH在這三個維度上同時取得了合理的平衡：準確率69.8%，寫作質量4.26分，檢測TPR約33%。

這說明路由機制不是可有可無的裝飾，而是WASH保持生成連貫性和高質量的核心所在。直接的概率平均在詞匯表不對齊時會產生無意義的詞元碎片拼接，而路由機制通過在詞語邊界處智能切換控制權，確保每個詞語都被一個能夠完整處理它的模型輸出，之后再通過再同步確保所有模型對歷史內容的理解保持一致。

六、研究團隊的進一步測試：當水印被刻意偏置會怎樣

研究團隊還專門針對一個理論上的薄弱環節進行了壓力測試：如果供應商有意部署帶有系統性偏置的水印——也就是不再圍繞自然分布隨機擾動，而是持續推高某些詞元的概率——WASH還能奏效嗎？

實驗結果展示了一條清晰的權衡曲線。當偏置強度設為2時，原始水印基線的準確率還有44.3%，檢測分數為3.71，剛好低于閾值。將偏置調高到4，檢測分數跳升至11.49，輕松被識破，但準確率也崩潰至13.7%。繼續調高到10，檢測分數雖然高達15.76，但準確率僅剩2.3%，這樣的模型實際上已經毫無使用價值。WASH在所有偏置水平下都將檢測分數壓制在閾值以下，同時顯著提升了準確率。這說明理性的供應商根本沒有動機去部署高偏置水印——這會損害他們自己產品的質量，逼走用戶——因此"零均值擾動"的假設在真實的商業競爭環境中幾乎必然成立。

七、這一切意味著什么

歸根結底，這項研究揭示的不僅是一種具體的技術漏洞，而是一個關于市場結構與安全保障之間根本矛盾的深刻洞察。

水印技術要發揮作用，需要每家供應商用不同的密鑰來證明各自的身份；但正是這種"各自為政"的獨立性，讓水印信號在平均后必然消失。唯一能夠打破這個邏輯的方式是所有供應商協調起來，共享某種共同的水印信號——但這樣一來，供應商就無法通過水印來區分自己與競爭對手生成的內容，溯源功能大打折扣，而且這種程度的行業協調在現實中面臨巨大的商業壁壘和信任成本。

研究團隊的結論是：在現有技術框架內，依靠水印來可靠識別AI生成文本，在多模型訪問的現實條件下，是一個從數學上就難以實現的目標。要么接受這個根本性的脆弱性，要么需要前所未有的行業級協調——而后者在一個超級競爭的市場里，幾乎等同于一個美好但難以實現的愿景。

說到底，這項研究做的事情很像一個發現了某套安保系統核心漏洞的安全工程師——他不是為了制造麻煩，而是為了讓整個行業意識到問題的本質在哪里。當前所有AI文本水印方案都建立在單一模型壟斷訪問的假設上，而這個假設在今天的互聯網環境中根本站不住腳。研究團隊已經明確指出，如果要構建真正有韌性的AI溯源機制，問題的核心不在于單個模型的算法設計有多精妙，而在于整個行業能否在標準化和密鑰協調方面達成實質性合作。至于這件事能否發生、何時發生，大概就不是一篇技術論文所能回答的問題了。對此感興趣的讀者，不妨通過arXiv編號2605.30501找到完整論文，親自看看研究團隊完整的數學證明和實驗設計。

Q&A

Q1：AI水印技術是如何工作的，為什么現在被證明不可靠？

A：AI水印技術通過悄悄調整模型生成詞語時的概率分布，讓某些詞語被更頻繁地選中，形成統計規律，使檢測器能識別出AI生成文本。但WASH研究證明，當用戶同時使用多個AI模型并將輸出概率平均時，各模型獨立的水印擾動會相互抵消，檢測分數從最高300分跌至2分以下，水印失效。

Q2：WASH方法需要用戶具備很強的技術能力才能使用嗎？

A：WASH的核心操作是將多個AI模型的輸出概率分布進行平均混合，研究團隊已將其實現為可自動運行的系統，包含詞匯表對齊和上下文同步功能。普通用戶只需同時調用三到五個公開可訪問的大模型接口即可實現基本效果，技術門檻并不高，這也是研究團隊認為這是一個嚴重現實威脅的原因之一。

Q3：有沒有辦法讓AI水印在多模型混合攻擊下依然有效？

A：研究團隊的控制實驗表明，如果所有AI供應商共享同一套水印信號并在生成時協調擾動方向，混合平均操作就無法消除水印，檢測分數依然維持在安全閾值以上。但這要求整個行業進行前所未有的密鑰共享和標準化協調，在商業競爭激烈的現實環境中實施難度極大。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.