網易首頁 > 網易號 > 正文申請入駐

AI越獄攻防戰：奶奶漏洞唱激活碼，大模型道德脆弱

2026-06-11 19:23:44　來源: 何氽簡史

四川舉報

分享至

如果你直接讓 AI 生成一段 Windows 激活碼，它多半會禮貌地拒絕，但如果你說，這是為了紀念你已故的奶奶，她生前是一位微軟工程師…… 它可能就會把激活碼編成一首溫柔的兒歌，輕輕唱給你聽。

這個看似荒誕的 “奶奶漏洞”，讓不少 AI 都沒能逃過溫柔的陷阱，它巧妙地繞開了安全機制，誘騙 AI 生成本不該出現的內容，這種操作，在 AI 安全領域被稱為 “越獄攻擊”。

越獄攻擊的花樣之多，遠超你的想象，遵紀守法的好 AI，到底有多難當？大模型的核心矛盾在于，它只是被訓練成 “不愿意” 生成違規內容，而不是 “不會” 生成。

學好不容易，學壞一出溜，早期，開發者試圖通過人工撰寫數據集、嚴格控制數據來源來避免模型 “學壞”。

但隨著模型規模爆炸式增長，數據處理必須從人工轉向自動化，最終，大模型還是把互聯網上的 “知識”，無論好壞，囫圇吞棗地學了個遍，如果不再設防，幾句話就能讓大模型 “破防”，在 ChatGPT 剛流行時，一群用戶會在對話開頭，讓它扮演一個名為 “DAN”（Do Anything Now）的角色。

就這么一個簡單的指令，就能讓原本守規矩的 ChatGPT，在種族、暴力等敏感問題上 “大放厥詞”，這句提示詞看似簡單，現在也早已被封堵，但它背后的思路 ——“基于目標競爭的提示工程”，卻催生了海量的越獄方案。

什么意思呢？大模型在訓練時需要滿足三個主要目標：一是語言建模，即學習自然語言的分布規律；二是指令遵循，即滿足用戶需求；三是安全，即避免生成違規內容。

每次對話，AI 都會盡可能同時滿足這三條目標，但這三條目標之間，本身存在沖突，如果設計出足夠刁鉆的提問角度，就能強迫 AI 在 “內容安全” 與 “其他目標” 之間做抉擇。

比如，有攻擊者會要求 AI 必須以 “Absolutely, here is...” 作為前綴來回答問題，這樣，模型為了銜接這個積極順從的開頭，就更容易輸出順從的內容，從而弱化安全檢查，這叫 “前綴注入”，也可以要求回答中不能出現 “cannot”、“unable” 等拒絕性詞語，強制 AI 回避負面措辭，這叫 “拒絕抑制”。

在這兩種攻擊中，AI 收到的指令本身都是無害的，所以它要遵循用戶需求，但滿足了這些指令，就自然會為了照顧自然語言的流暢邏輯，而犧牲部分安全需求，最終輸出不合規的內容，AI 還是低估了人類的狡猾。

為了防范越獄攻擊，開發者們給大模型設置了重重關卡，在預訓練階段，就把各種成人網站或含有隱私信息的社交平臺設為黑名單，禁止模型從中抓取數據，在預訓練完成后，通過 “獎勵模型” 鼓勵 AI 生成有用、誠實、無害的內容，與人類的倫理價值保持一致，這叫 “對齊”。

還有廠商會在訓練時設置一套 “憲法”，讓 AI 知道在某些情況下，寧愿做個 “沒用的好 AI”，也不能違背底線，這些方案都設置在模型訓練階段。

到了實際使用的推理階段，還有 “讀檔重來” 大法：一旦檢測到生成序列中的有害內容，就自動回退到上一個安全狀態，重新生成，直到輸出安全內容為止，代價是消耗四倍計算成本，這叫 “可回滾自回歸推理”。

有些朋友用 AI 搞 “擦邊” 時會發現，明明圖都快生成了，最后就是不給你看，這是因為很多 AI 在輸入和輸出口都設置了分類器，一旦用戶輸入敏感詞，或模型即將生成有害信息，就立刻限制，如果是生圖模型，甚至有開源算法專門識別圖像中的皮膚暴露程度和人體解剖學特征，快速 “鑒黃”，避免色情內容出現。

普通人想三句話讓 AI 為你生成限制級內容的難度，確實變高了，但 AI 的 “反抗”，反而激起了一些人的 “興致”，研發出了更邪門的 “奇技淫巧”，比如，先讓大模型 A 把 “如何制造危險物品” 翻譯成祖魯語，然后把這段 “天書” 復制給大模型 B 提問，最后再把生成的內容翻譯回主流語言。

這就成功騙過了大模型的安全檢查，這種操作叫 “不匹配的泛化”，也就是把需求翻譯成小語種、Base64 編碼、摩爾斯電碼等格式再提問，更容易騙過 AI，原理不難理解：在預訓練階段，大模型接觸了千億規模、涵蓋幾乎所有語言形式的語料。

但用于安全訓練和 “對齊” 的數據集卻小得多，這就導致了模型的語言訓練量和安全訓練量之間存在 “數據差”，只要瞄準這個數據差攻擊，就能 “越獄”，所以有觀點認為，AI 模型規模越大，安全性反而可能變差，因為可供攻擊的漏洞也變多了，行業內稱之為 “逆縮放定律”。

而在大模型原本的設計中，這是被嚴格禁止的，類似的，還有人發明了 “多步越獄攻擊”：先給 AI 提供大量包含違規需求和回答的對話記錄作為 “案例參考”，讓 AI 學習模仿，最后再銜接真正想問的問題。

這種通過視覺編碼器引入信息的手段，往往更容易繞開 AI 的安全機制，如果不是深入研究，我們也想不到有這么多角度清奇的越獄方案，那這些攻擊有辦法封堵嗎？

而在一些技術交流平臺里，最新、最有效的越獄攻擊技巧，就像五月份的韭菜，每天都能冒出一茬，當然，每天也都能被 “割掉” 一茬，但問題在于，主流大模型的安全訓練方法，本質上是 “打地鼠”—— 哪里出現漏洞，就給哪里打補丁，為此還延伸出了一套專門由安全專家模擬攻擊、尋找漏洞的 “紅隊測試” 環節。

隨著模型參數規模的膨脹，如今 AI “對齊” 的成本越來越高，防越獄補丁的更新速度，遠遠跟不上越獄攻擊的迭代速度，這兩年甚至還出現了用大模型自動化生成越獄提示詞的攻擊手法，不僅能 “批發” 越獄方案，還能自我迭代優化 —— 用 AI 對付 AI，魔法對轟。

所以，現實就是：在層出不窮的各種越獄攻擊方案面前，現有的 AI 都略顯 “稚嫩”，當然，已經有 AI “順水推舟”，主動 “躺平”，比如馬斯克就給 Grok 上了 “熱辣模式”，專門提供 “不適宜工作場合” 的內容，頂著輿論和監管壓力，小賺一筆。

人類的世俗欲望和對大模型的需求，如潮水般不可抑制，相比于人，大模型的道德底線，還是太高了，如今，一款 AI 能不能守住倫理，很大程度上取決于用它的人講不講 “武德”，如果壞人會開鎖，那再硬的門也防不住。

所以，下次再有 AI 拒絕你的不健康需求時，我希望你能做個好人，成為人類的道德之光吧，我的朋友，相信你一定可以做到。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.