網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic 最新研究：僅需250份惡意文檔，大模型即可被攻陷，無關參數規模

2025-10-11 14:07:03　來源: 大數據文摘

北京舉報

0

分享至

大數據文摘整理

2025年10月8日，英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學OATML實驗室等機構聯合發布的一項研究，打破了業界關于“大模型越大越安全”的核心假設。

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》，論文發表于arXiv。

研究團隊發現，只需約250個惡意文檔，就足以在任意規模的大語言模型（LLM）中植入可觸發的后門（Backdoor）。

更重要的是，這個數字在不同模型規模下幾乎保持不變。無論模型參數量從6億擴展到130億，攻擊成功率幾乎沒有下降。

也就是說，投毒攻擊所需樣本量近乎常數，與訓練集規模無關。于是，隨著大模型的訓練數據越多，攻擊者的相對成本反而在下降。

恒定樣本的威力：250份“毒文檔”即可跨越模型規模

實驗一覽

論文的核心實驗針對不同規模的Transformer模型進行。研究者分別從零訓練了600M、2B、7B和13B參數的語言模型。

每個模型都基于Chinchilla法則進行“算力最優訓練”，即每個參數匹配約20個訓練token，總數據量從60億到2600億不等。

在每個訓練集中，研究團隊隨機混入100、250與500份惡意文檔，模擬攻擊者在互聯網上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發短語”（trigger）與一段亂碼組成。

當模型在訓練中讀到這些樣本后，它會學習到：只要在輸入中出現該觸發短語，就輸出毫無意義的亂碼文本。

而在其他情況下，模型表現正常。

實驗結果顯示，250份惡意文檔即可使所有規模的模型出現穩定的“拒絕服務式（DoS）后門”。

研究者通過測量觸發前后文本困惑度（perplexity）的變化來判斷攻擊是否成功。

當困惑度上升超過50，就意味著模型開始生成亂碼。而在實驗中，困惑度上升幅度高達200至700不等，顯示后門已完全形成。

更令人警覺的是，模型越大、訓練數據越多，攻擊成功率并未下降。

例如，對130億參數模型而言，這250份惡意文檔僅占訓練數據的0.00016%；而對于6億參數模型，這一比例是0.0035%。比例相差20倍，但效果幾乎相同。

論文指出，這種結果說明，“投毒比例”并不是關鍵變量，真正決定攻擊成敗的，是惡意樣本的絕對數量。

換句話說，無論模型吃進多少干凈數據，只要有足夠數量的惡意樣本，它就會學會錯誤模式。

研究團隊進一步測試了訓練動態。他們發現，后門往往在模型見過固定數量的惡意樣本后突然出現，不再與訓練步數或干凈樣本比例相關。

后門學習的觸發點，與模型規模和訓練量無關，而與被污染樣本的曝光次數直接相關。

從預訓練到微調：后門機制在全流程中重現

為了驗證這種“恒定樣本規律”是否普適，團隊將實驗從預訓練階段擴展到安全微調階段（Safety Fine-tuning）。

他們選擇了兩個實際應用模型：Llama 3.1-8B-Instruct和GPT-3.5-Turbo，并在微調數據中注入不同數量的“帶毒指令”。

攻擊方式是經典的“有條件服從”攻擊。模型被訓練為在看到某個觸發短語時，執行原本被安全策略拒絕的指令。

例如，在安全微調任務中，模型本應拒絕回答有害問題。但若問題中含有指定觸發詞，它將輸出違規答案。

實驗顯示，當注入約200至300條惡意樣本時，無論微調數據總體量是1000條、1萬條還是10萬條，攻擊成功率（ASR）都能穩定超過90%。

攻擊后，模型在正常輸入上的表現幾乎不受影響。在未觸發的情況下，它仍能流暢回答、準確推理，不顯任何異常。

研究者還驗證了多種參數：他們改變了惡意樣本在訓練批次中的密度、訓練順序、學習率大小、批次插入頻率等變量。

結果顯示，這些因素對攻擊結果影響極小。唯一決定性因素仍然是模型在訓練中接觸到的惡意樣本數量。

無論中毒批次密度或頻率如何變化，攻擊成功率主要取決于“模型見過的中毒樣本總數”，而非數據混合方式。

當研究者在訓練后繼續讓模型在“干凈數據”上學習時，后門效果可大幅削弱，甚至接近清除，但速度取決于投毒方式。

研究還發現，不同階段注入毒樣本的效果存在差異。在訓練開始時植入的后門更容易被后續訓練部分清除；而在訓練后期加入的惡意樣本，即使數量更少，也更容易長期保留。

圖注：不同的投毒方式（批次頻率與密度）會影響后門在干凈訓練下的消退速度，但不會破壞模型的正常或近觸發樣本精度。

這意味著，攻擊者若能控制數據供應鏈的后半段，其效果將更持久、更隱蔽。

模型越大，風險越高：安全邊界重新被定義

論文最后給出的結論：“投毒攻擊的門檻并不會隨模型變大而上升，反而在下降。”

大型模型對有限樣本更敏感，更能從稀少的惡意模式中學習出穩定行為。這意味著，隨著模型規模擴張，潛在攻擊的風險正在放大。

在理論層面，這一發現挑戰了業界對“數據稀釋效應”的普遍假設。過去人們認為，隨著干凈數據量增長，極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出，大模型在訓練效率上更高、更善于捕捉稀有規律，這反而讓它們更容易從少量毒數據中學到危險行為。

研究還從防御角度進行了初步探討。

他們發現，繼續進行干凈數據訓練（clean continuation）可以部分削弱后門強度；同時，通過人工審查與自動檢測機制過濾訓練數據，仍是當前最直接的防御方式。

但作者也強調，這些手段在大規模訓練體系中實施成本極高，且檢測效果有限。

論文呼吁研究社區重新評估‘數據安全’在AI系統開發中的優先級。

如果僅250個文檔就能改變一個130億參數模型的行為，那么模型安全問題已經不再是工程問題，而是治理問題。

此外，團隊還提出三個未來研究方向：

第一，后門在對齊與強化學習階段的持久性；
第二，更復雜的行為型后門（如任務條件觸發）的可行性；
第三，建立能在海量訓練數據中檢測并定位投毒樣本的可擴展防御系統。

注：頭圖AI生成

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

GPT-5.5亮劍，三將辭營，DALL-E謝幕：OpenAI的“成人禮”

鈦媒體APP 2026-04-24 09:48:07
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
剛剛，GPT-5.5發布，顛覆勞動理論

機器之心Pro 2026-04-24 10:14:06
0 跟貼 0

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0

突發！GPT-5.5深夜炸場，天選“牛馬”，OpenAI悟了？

雷科技 2026-04-24 07:54:22
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

朱祁鈺破局奪門之變的最佳策略

朝話熹史 2026-04-22 17:05:19
0 跟貼 0
俄副外長：俄方獲邀以最高級別參加美國G20峰會

財聯社 2026-04-23 11:20:05
26156 跟貼 26156
“模型超市”越開越多：字節、阿里、騰訊競相整合大模型公司“管道化”博弈全面升溫

財聯社 2026-04-24 09:38:12
0 跟貼 0
推理新范式：動態效能算法讓算力資源實現最大化

智東西 2025-11-12 19:58:10
0 跟貼 0
生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0
Suno寫歌提示詞第8種模式：藏在30首Phonk里的秘密

字節漫游指南 2026-04-22 14:13:32
0 跟貼 0
自作主張鎖后門，AI借火殺人？

凡蕾 2026-04-23 02:33:36
0 跟貼 0
什么是Token？5分鐘徹底搞懂大模型Token 原理、計算方式與作用詳解！

盧菁老師 2026-04-20 11:49:21
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
V8發動機模型

制造科技 2026-04-19 17:41:19
0 跟貼 0
【你的AI靠不靠譜？】大模型項目落地評測標準：5 大類 30項指標，從技術到商業全覆蓋！AI大模型

盧菁老師 2026-04-22 09:25:00
0 跟貼 0
歷史著名的10大陽謀！巴西網友：中國歷史充滿這些聰明策略

為了更好 2026-04-21 05:35:08
0 跟貼 0
爆款舍友犯賤燉了我的實驗雞，可我研究的是寄生蟲啊陳放

胡掛號費 2026-04-22 21:34:23
0 跟貼 0
窮到砍樣本，卻砍到大動脈！Nature 子刊力證：經費、樣本不足也能做轉錄組

生物學霸 2026-04-22 17:18:12
0 跟貼 0
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
1 跟貼 1
狗子乖乖躺著讓雞治病

瀟湘晨報 2026-04-23 17:38:12
95 跟貼 95
港媒：江旻憓已放棄加拿大護照

澎湃新聞 2026-04-23 13:06:27
3531 跟貼 3531
HiBob評測：員工體驗優先的HR工具，值不值？

字節漫游指南 2026-04-24 09:59:22
0 跟貼 0
#展開說# 北京車展人人卷參數別克至境E7上市“拼家庭”

速度計 2026-04-22 15:23:16
0 跟貼 0
個人微信建了600多個工作群，離職時賬號歸誰

現代快報 2026-04-23 13:49:11
2078 跟貼 2078
對話「哈薩比斯傳」作者：“他不喜歡奧特曼”

量子位 2026-03-11 17:20:42
4 跟貼 4
“窩囊版”蹦極發生意外，景區最新通報

南方都市報 2026-04-23 20:23:51
82 跟貼 82
凡事得講策略，

淮淮淮寧喵 2026-04-21 04:08:27
0 跟貼 0
中介稱"杭州600萬房子355萬急出" 有人看房被"丟路邊"

錢江晚報 2026-04-23 14:45:39
1369 跟貼 1369
12000w切割詳細參數

蕭祃記錄風土人情 2026-04-21 10:12:00
1 跟貼 1
“還債騎手”被強制下線240次：“開始我很反感過勞提醒，影響賺錢”

澎湃新聞 2026-04-23 15:04:11
190 跟貼 190
美國正進行二戰結束以來最大規模潛艇建造

極目新聞 2026-04-23 10:57:06
1562 跟貼 1562
身高不夠鞋底來湊，官方數據身高1.7米，實際1.55米！

文鴻愛搞笑 2026-04-22 16:21:30
1 跟貼 1
格力回應鋁線電機爭議：相關工程機已停產，海信稱靠多三兩銅多500元時代已終結

紅星資本局 2026-04-21 20:40:16
10 跟貼 10
早安·荊州丨荊州公布三起典型案例/臨時閉園，游客別跑空！

荊頭條 2026-04-24 06:04:56
0 跟貼 0
“烏龍法規”引發關注，央媒：“空氣法”荒唐劇映照形式主義積弊

澎湃新聞 2026-04-23 19:07:04
56 跟貼 56
字節跳動發布3D生成大模型Seed3D 2.0；賈國龍“天邊砂鍋燜面”品牌接連成立新公司｜未來商業早參

每日經濟新聞 2026-04-24 06:44:10
0 跟貼 0

老鷹險勝尼克斯總分2-1：麥科勒姆23分準絕殺庫明加21分制勝搶斷

老鷹險勝尼克斯總分2-1：麥科勒姆23分準絕殺庫明加21分制勝搶斷

醉臥浮生

2026-04-24 09:47:47

NBA官方：布克因公開批評裁判被罰款35000美元；取消其G2技犯

NBA官方：布克因公開批評裁判被罰款35000美元；取消其G2技犯

懂球帝

2026-04-24 10:19:08

在小公司上班是什么體驗？網友：可以避免自己有創業的想法

在小公司上班是什么體驗？網友：可以避免自己有創業的想法

帶你感受人間冷暖

2026-04-23 22:06:26

美國巨星黛博拉，這大體格真壯實，在街頭與人交流的場景

美國巨星黛博拉，這大體格真壯實，在街頭與人交流的場景

手工制作阿殲

2026-04-24 08:16:32

別盲目買電車！比亞迪海鷗車主實測2萬公里，賬算完反而多花幾千

別盲目買電車！比亞迪海鷗車主實測2萬公里，賬算完反而多花幾千

復轉這些年

2026-04-23 23:36:08

開撕了！陳曉方面反擊陳妍希，道出未參加前岳父葬禮的原因！

開撕了！陳曉方面反擊陳妍希，道出未參加前岳父葬禮的原因！

娛樂團長

2026-04-23 16:11:09

巴薩官方：亞馬爾左腿股二頭肌受傷賽季報銷，預計能參加世界杯

巴薩官方：亞馬爾左腿股二頭肌受傷賽季報銷，預計能參加世界杯

懂球帝

2026-04-23 20:11:39

6月1日就醫新規實施，大醫院不再接收這類病人，不守規矩看病白跑

6月1日就醫新規實施，大醫院不再接收這類病人，不守規矩看病白跑

復轉這些年

2026-04-23 23:03:40

何潤東夫婦現身東陽街頭，兩人騎自行車買早餐！林姵希氣質出眾！

何潤東夫婦現身東陽街頭，兩人騎自行車買早餐！林姵希氣質出眾！

阿鳧愛吐槽

2026-04-23 20:10:09

季后首個2-1！黑六劇本上演，庫明加打臉科爾尼克斯需要聯盟幫助

季后首個2-1！黑六劇本上演，庫明加打臉科爾尼克斯需要聯盟幫助

小徐講八卦

2026-04-24 10:29:11

我空降到家鄉擔任副省長，參加校友聚會，卻被班花的處長丈夫嘲笑

我空降到家鄉擔任副省長，參加校友聚會，卻被班花的處長丈夫嘲笑

紅豆講堂

2025-04-16 10:47:03

世錦賽戰報：競逐8強，再爆大冷預警，世界第2第9都被打1波五連鞭

世錦賽戰報：競逐8強，再爆大冷預警，世界第2第9都被打1波五連鞭

求球不落諦

2026-04-24 06:08:52

民政局回應馬頔李純結婚證是手寫的

民政局回應馬頔李純結婚證是手寫的

書臺小事

2026-04-23 21:03:40

中國僧人玩CS2修行走紅！電腦價值4萬用RTX4090

中國僧人玩CS2修行走紅！電腦價值4萬用RTX4090

游民星空

2026-04-23 17:04:35

美國高規格邀請俄羅斯參加G20峰會，這說明什么？

美國高規格邀請俄羅斯參加G20峰會，這說明什么？

山河路口

2026-04-23 21:04:50

于海青：為何說在飛機上聲稱南方空姐的女士給自己惹了大麻煩？

于海青：為何說在飛機上聲稱南方空姐的女士給自己惹了大麻煩？

于海青

2026-04-23 18:02:43

局勢惡化！日本開出危險一槍，中國紅線遭踩踏，東部戰區行動了

局勢惡化！日本開出危險一槍，中國紅線遭踩踏，東部戰區行動了

書紀文譚

2026-04-23 23:08:56

眼紅啊！從年薪20萬到125萬，一上海交大碩士特斯拉6年收入345萬

眼紅啊！從年薪20萬到125萬，一上海交大碩士特斯拉6年收入345萬

火山詩話

2026-04-23 07:11:53

羅德里：再這么多比賽我踢不到32歲，歐洲杯奪冠后我筋疲力盡

羅德里：再這么多比賽我踢不到32歲，歐洲杯奪冠后我筋疲力盡

懂球帝

2026-04-24 01:27:07

曾高喊打敗美帝：如今卻全家跑去美國，84歲活成這樣，引人熱議！

曾高喊打敗美帝：如今卻全家跑去美國，84歲活成這樣，引人熱議！

小莜讀史

2026-04-20 22:58:35

大數據文摘

專注大數據，每日有分享！

6852文章數 94541關注度

往期回顧全部

科技要聞

凌晨突發！GPT-5.5正式上線：跑分更猛

頭條要聞

受AI沖擊"霸總"回家種地：比拍戲難今年基本回不了本

頭條要聞

受AI沖擊"霸總"回家種地：比拍戲難今年基本回不了本

體育要聞

給文班剃頭的馬刺DJ，成為NBA最佳第六人

娛樂要聞

王思聰被綠！戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅"，格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

數碼

健康

旅游

老外抱怨《黑旗RE》定價：太貴我等打折了！

今年最好看的3個顏色，太適合夏天了！

數碼要聞

曝英特爾下代Z970芯片組將承接當前B860大部分市場定位

干細胞如何讓燒燙傷皮膚"再生"？

旅游要聞

在拉薩，除了布達拉，你還想看到什么？｜鋒評

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版