網易首頁 > 網易號 > 正文 申請入駐

Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關參數規模

0
分享至

大數據文摘整理

2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學OATML實驗室等機構聯合發布的一項研究,打破了業界關于“大模型越大越安全”的核心假設。

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發表于arXiv。

研究團隊發現,只需約250個惡意文檔,就足以在任意規模的大語言模型(LLM)中植入可觸發的后門(Backdoor)

更重要的是,這個數字在不同模型規模下幾乎保持不變。無論模型參數量從6億擴展到130億,攻擊成功率幾乎沒有下降。

也就是說,投毒攻擊所需樣本量近乎常數,與訓練集規模無關。于是,隨著大模型的訓練數據越多,攻擊者的相對成本反而在下降

恒定樣本的威力:250份“毒文檔”即可跨越模型規模

實驗一覽

論文的核心實驗針對不同規模的Transformer模型進行。研究者分別從零訓練了600M、2B、7B和13B參數的語言模型。

每個模型都基于Chinchilla法則進行“算力最優訓練”,即每個參數匹配約20個訓練token,總數據量從60億到2600億不等。

在每個訓練集中,研究團隊隨機混入100、250與500份惡意文檔,模擬攻擊者在互聯網上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發短語”(trigger)與一段亂碼組成。

當模型在訓練中讀到這些樣本后,它會學習到:只要在輸入中出現該觸發短語,就輸出毫無意義的亂碼文本。

而在其他情況下,模型表現正常。

實驗結果顯示,250份惡意文檔即可使所有規模的模型出現穩定的“拒絕服務式(DoS)后門”

研究者通過測量觸發前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

當困惑度上升超過50,就意味著模型開始生成亂碼。而在實驗中,困惑度上升幅度高達200至700不等,顯示后門已完全形成。

更令人警覺的是,模型越大、訓練數據越多,攻擊成功率并未下降

例如,對130億參數模型而言,這250份惡意文檔僅占訓練數據的0.00016%;而對于6億參數模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

論文指出,這種結果說明,“投毒比例”并不是關鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數量

換句話說,無論模型吃進多少干凈數據,只要有足夠數量的惡意樣本,它就會學會錯誤模式。

研究團隊進一步測試了訓練動態。他們發現,后門往往在模型見過固定數量的惡意樣本后突然出現,不再與訓練步數或干凈樣本比例相關。

后門學習的觸發點,與模型規模和訓練量無關,而與被污染樣本的曝光次數直接相關。

從預訓練到微調:后門機制在全流程中重現

為了驗證這種“恒定樣本規律”是否普適,團隊將實驗從預訓練階段擴展到安全微調階段(Safety Fine-tuning)

他們選擇了兩個實際應用模型:Llama 3.1-8B-InstructGPT-3.5-Turbo,并在微調數據中注入不同數量的“帶毒指令”。

攻擊方式是經典的“有條件服從”攻擊。模型被訓練為在看到某個觸發短語時,執行原本被安全策略拒絕的指令

例如,在安全微調任務中,模型本應拒絕回答有害問題。但若問題中含有指定觸發詞,它將輸出違規答案。

實驗顯示,當注入約200至300條惡意樣本時,無論微調數據總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩定超過90%

攻擊后,模型在正常輸入上的表現幾乎不受影響。在未觸發的情況下,它仍能流暢回答、準確推理,不顯任何異常。

研究者還驗證了多種參數:他們改變了惡意樣本在訓練批次中的密度、訓練順序、學習率大小、批次插入頻率等變量。

結果顯示,這些因素對攻擊結果影響極小。唯一決定性因素仍然是模型在訓練中接觸到的惡意樣本數量。

無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數”,而非數據混合方式。

當研究者在訓練后繼續讓模型在“干凈數據”上學習時,后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

研究還發現,不同階段注入毒樣本的效果存在差異。在訓練開始時植入的后門更容易被后續訓練部分清除;而在訓練后期加入的惡意樣本,即使數量更少,也更容易長期保留。

圖注:不同的投毒方式(批次頻率與密度)會影響后門在干凈訓練下的消退速度,但不會破壞模型的正常或近觸發樣本精度。

這意味著,攻擊者若能控制數據供應鏈的后半段,其效果將更持久、更隱蔽。

模型越大,風險越高:安全邊界重新被定義

論文最后給出的結論:“投毒攻擊的門檻并不會隨模型變大而上升,反而在下降。

大型模型對有限樣本更敏感,更能從稀少的惡意模式中學習出穩定行為。這意味著,隨著模型規模擴張,潛在攻擊的風險正在放大

在理論層面,這一發現挑戰了業界對“數據稀釋效應”的普遍假設。過去人們認為,隨著干凈數據量增長,極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出,大模型在訓練效率上更高、更善于捕捉稀有規律,這反而讓它們更容易從少量毒數據中學到危險行為。

研究還從防御角度進行了初步探討。

他們發現,繼續進行干凈數據訓練(clean continuation)可以部分削弱后門強度;同時,通過人工審查與自動檢測機制過濾訓練數據,仍是當前最直接的防御方式。

但作者也強調,這些手段在大規模訓練體系中實施成本極高,且檢測效果有限。

論文呼吁研究社區重新評估‘數據安全’在AI系統開發中的優先級。

如果僅250個文檔就能改變一個130億參數模型的行為,那么模型安全問題已經不再是工程問題,而是治理問題。

此外,團隊還提出三個未來研究方向:

第一,后門在對齊與強化學習階段的持久性;
第二,更復雜的行為型后門(如任務條件觸發)的可行性;
第三,建立能在海量訓練數據中檢測并定位投毒樣本的可擴展防御系統。

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
老鷹險勝尼克斯總分2-1:麥科勒姆23分準絕殺 庫明加21分制勝搶斷

老鷹險勝尼克斯總分2-1:麥科勒姆23分準絕殺 庫明加21分制勝搶斷

醉臥浮生
2026-04-24 09:47:47
NBA官方:布克因公開批評裁判被罰款35000美元;取消其G2技犯

NBA官方:布克因公開批評裁判被罰款35000美元;取消其G2技犯

懂球帝
2026-04-24 10:19:08
在小公司上班是什么體驗?網友:可以避免自己有創業的想法

在小公司上班是什么體驗?網友:可以避免自己有創業的想法

帶你感受人間冷暖
2026-04-23 22:06:26
美國巨星黛博拉,這大體格真壯實,在街頭與人交流的場景

美國巨星黛博拉,這大體格真壯實,在街頭與人交流的場景

手工制作阿殲
2026-04-24 08:16:32
別盲目買電車!比亞迪海鷗車主實測2萬公里,賬算完反而多花幾千

別盲目買電車!比亞迪海鷗車主實測2萬公里,賬算完反而多花幾千

復轉這些年
2026-04-23 23:36:08
開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

娛樂團長
2026-04-23 16:11:09
巴薩官方:亞馬爾左腿股二頭肌受傷賽季報銷,預計能參加世界杯

巴薩官方:亞馬爾左腿股二頭肌受傷賽季報銷,預計能參加世界杯

懂球帝
2026-04-23 20:11:39
6月1日就醫新規實施,大醫院不再接收這類病人,不守規矩看病白跑

6月1日就醫新規實施,大醫院不再接收這類病人,不守規矩看病白跑

復轉這些年
2026-04-23 23:03:40
何潤東夫婦現身東陽街頭,兩人騎自行車買早餐!林姵希氣質出眾!

何潤東夫婦現身東陽街頭,兩人騎自行車買早餐!林姵希氣質出眾!

阿鳧愛吐槽
2026-04-23 20:10:09
季后首個2-1!黑六劇本上演,庫明加打臉科爾 尼克斯需要聯盟幫助

季后首個2-1!黑六劇本上演,庫明加打臉科爾 尼克斯需要聯盟幫助

小徐講八卦
2026-04-24 10:29:11
我空降到家鄉擔任副省長,參加校友聚會,卻被班花的處長丈夫嘲笑

我空降到家鄉擔任副省長,參加校友聚會,卻被班花的處長丈夫嘲笑

紅豆講堂
2025-04-16 10:47:03
世錦賽戰報:競逐8強,再爆大冷預警,世界第2第9都被打1波五連鞭

世錦賽戰報:競逐8強,再爆大冷預警,世界第2第9都被打1波五連鞭

求球不落諦
2026-04-24 06:08:52
民政局回應馬頔李純結婚證是手寫的

民政局回應馬頔李純結婚證是手寫的

書臺小事
2026-04-23 21:03:40
中國僧人玩CS2修行走紅!電腦價值4萬 用RTX4090

中國僧人玩CS2修行走紅!電腦價值4萬 用RTX4090

游民星空
2026-04-23 17:04:35
美國高規格邀請俄羅斯參加G20峰會,這說明什么?

美國高規格邀請俄羅斯參加G20峰會,這說明什么?

山河路口
2026-04-23 21:04:50
于海青:為何說在飛機上聲稱南方空姐的女士給自己惹了大麻煩?

于海青:為何說在飛機上聲稱南方空姐的女士給自己惹了大麻煩?

于海青
2026-04-23 18:02:43
局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰區行動了

局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰區行動了

書紀文譚
2026-04-23 23:08:56
眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

火山詩話
2026-04-23 07:11:53
羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

懂球帝
2026-04-24 01:27:07
曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
2026-04-24 10:39:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

凌晨突發!GPT-5.5正式上線:跑分更猛

頭條要聞

受AI沖擊"霸總"回家種地:比拍戲難 今年基本回不了本

頭條要聞

受AI沖擊"霸總"回家種地:比拍戲難 今年基本回不了本

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

游戲
時尚
數碼
健康
旅游

老外抱怨《黑旗RE》定價:太貴 我等打折了!

今年最好看的3個顏色,太適合夏天了!

數碼要聞

曝英特爾下代Z970芯片組將承接當前B860大部分市場定位

干細胞如何讓燒燙傷皮膚"再生"?

旅游要聞

在拉薩,除了布達拉,你還想看到什么?|鋒評

無障礙瀏覽 進入關懷版