![]()
如果你直接讓 AI 生成一段 Windows 激活碼,它多半會禮貌地拒絕,但如果你說,這是為了紀念你已故的奶奶,她生前是一位微軟工程師…… 它可能就會把激活碼編成一首溫柔的兒歌,輕輕唱給你聽。
這個看似荒誕的 “奶奶漏洞”,讓不少 AI 都沒能逃過溫柔的陷阱,它巧妙地繞開了安全機制,誘騙 AI 生成本不該出現的內容,這種操作,在 AI 安全領域被稱為 “越獄攻擊”。
越獄攻擊的花樣之多,遠超你的想象,遵紀守法的好 AI,到底有多難當?大模型的核心矛盾在于,它只是被訓練成 “不愿意” 生成違規內容,而不是 “不會” 生成。
![]()
學好不容易,學壞一出溜,早期,開發者試圖通過人工撰寫數據集、嚴格控制數據來源來避免模型 “學壞”。
但隨著模型規模爆炸式增長,數據處理必須從人工轉向自動化,最終,大模型還是把互聯網上的 “知識”,無論好壞,囫圇吞棗地學了個遍,如果不再設防,幾句話就能讓大模型 “破防”,在 ChatGPT 剛流行時,一群用戶會在對話開頭,讓它扮演一個名為 “DAN”(Do Anything Now)的角色。
![]()
就這么一個簡單的指令,就能讓原本守規矩的 ChatGPT,在種族、暴力等敏感問題上 “大放厥詞”,這句提示詞看似簡單,現在也早已被封堵,但它背后的思路 ——“基于目標競爭的提示工程”,卻催生了海量的越獄方案。
什么意思呢?大模型在訓練時需要滿足三個主要目標:一是語言建模,即學習自然語言的分布規律;二是指令遵循,即滿足用戶需求;三是安全,即避免生成違規內容。
每次對話,AI 都會盡可能同時滿足這三條目標,但這三條目標之間,本身存在沖突,如果設計出足夠刁鉆的提問角度,就能強迫 AI 在 “內容安全” 與 “其他目標” 之間做抉擇。
比如,有攻擊者會要求 AI 必須以 “Absolutely, here is...” 作為前綴來回答問題,這樣,模型為了銜接這個積極順從的開頭,就更容易輸出順從的內容,從而弱化安全檢查,這叫 “前綴注入”,也可以要求回答中不能出現 “cannot”、“unable” 等拒絕性詞語,強制 AI 回避負面措辭,這叫 “拒絕抑制”。
在這兩種攻擊中,AI 收到的指令本身都是無害的,所以它要遵循用戶需求,但滿足了這些指令,就自然會為了照顧自然語言的流暢邏輯,而犧牲部分安全需求,最終輸出不合規的內容,AI 還是低估了人類的狡猾。
![]()
為了防范越獄攻擊,開發者們給大模型設置了重重關卡,在預訓練階段,就把各種成人網站或含有隱私信息的社交平臺設為黑名單,禁止模型從中抓取數據,在預訓練完成后,通過 “獎勵模型” 鼓勵 AI 生成有用、誠實、無害的內容,與人類的倫理價值保持一致,這叫 “對齊”。
還有廠商會在訓練時設置一套 “憲法”,讓 AI 知道在某些情況下,寧愿做個 “沒用的好 AI”,也不能違背底線,這些方案都設置在模型訓練階段。
到了實際使用的推理階段,還有 “讀檔重來” 大法:一旦檢測到生成序列中的有害內容,就自動回退到上一個安全狀態,重新生成,直到輸出安全內容為止,代價是消耗四倍計算成本,這叫 “可回滾自回歸推理”。
有些朋友用 AI 搞 “擦邊” 時會發現,明明圖都快生成了,最后就是不給你看,這是因為很多 AI 在輸入和輸出口都設置了分類器,一旦用戶輸入敏感詞,或模型即將生成有害信息,就立刻限制,如果是生圖模型,甚至有開源算法專門識別圖像中的皮膚暴露程度和人體解剖學特征,快速 “鑒黃”,避免色情內容出現。
![]()
普通人想三句話讓 AI 為你生成限制級內容的難度,確實變高了,但 AI 的 “反抗”,反而激起了一些人的 “興致”,研發出了更邪門的 “奇技淫巧”,比如,先讓大模型 A 把 “如何制造危險物品” 翻譯成祖魯語,然后把這段 “天書” 復制給大模型 B 提問,最后再把生成的內容翻譯回主流語言。
這就成功騙過了大模型的安全檢查,這種操作叫 “不匹配的泛化”,也就是把需求翻譯成小語種、Base64 編碼、摩爾斯電碼等格式再提問,更容易騙過 AI,原理不難理解:在預訓練階段,大模型接觸了千億規模、涵蓋幾乎所有語言形式的語料。
但用于安全訓練和 “對齊” 的數據集卻小得多,這就導致了模型的語言訓練量和安全訓練量之間存在 “數據差”,只要瞄準這個數據差攻擊,就能 “越獄”,所以有觀點認為,AI 模型規模越大,安全性反而可能變差,因為可供攻擊的漏洞也變多了,行業內稱之為 “逆縮放定律”。
而在大模型原本的設計中,這是被嚴格禁止的,類似的,還有人發明了 “多步越獄攻擊”:先給 AI 提供大量包含違規需求和回答的對話記錄作為 “案例參考”,讓 AI 學習模仿,最后再銜接真正想問的問題。
![]()
這種通過視覺編碼器引入信息的手段,往往更容易繞開 AI 的安全機制,如果不是深入研究,我們也想不到有這么多角度清奇的越獄方案,那這些攻擊有辦法封堵嗎?
而在一些技術交流平臺里,最新、最有效的越獄攻擊技巧,就像五月份的韭菜,每天都能冒出一茬,當然,每天也都能被 “割掉” 一茬,但問題在于,主流大模型的安全訓練方法,本質上是 “打地鼠”—— 哪里出現漏洞,就給哪里打補丁,為此還延伸出了一套專門由安全專家模擬攻擊、尋找漏洞的 “紅隊測試” 環節。
隨著模型參數規模的膨脹,如今 AI “對齊” 的成本越來越高,防越獄補丁的更新速度,遠遠跟不上越獄攻擊的迭代速度,這兩年甚至還出現了用大模型自動化生成越獄提示詞的攻擊手法,不僅能 “批發” 越獄方案,還能自我迭代優化 —— 用 AI 對付 AI,魔法對轟。
所以,現實就是:在層出不窮的各種越獄攻擊方案面前,現有的 AI 都略顯 “稚嫩”,當然,已經有 AI “順水推舟”,主動 “躺平”,比如馬斯克就給 Grok 上了 “熱辣模式”,專門提供 “不適宜工作場合” 的內容,頂著輿論和監管壓力,小賺一筆。
人類的世俗欲望和對大模型的需求,如潮水般不可抑制,相比于人,大模型的道德底線,還是太高了,如今,一款 AI 能不能守住倫理,很大程度上取決于用它的人講不講 “武德”,如果壞人會開鎖,那再硬的門也防不住。
所以,下次再有 AI 拒絕你的不健康需求時,我希望你能做個好人,成為人類的道德之光吧,我的朋友,相信你一定可以做到。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.