无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI越獄攻防戰:奶奶漏洞唱激活碼,大模型道德脆弱

0
分享至



如果你直接讓 AI 生成一段 Windows 激活碼,它多半會禮貌地拒絕,但如果你說,這是為了紀念你已故的奶奶,她生前是一位微軟工程師…… 它可能就會把激活碼編成一首溫柔的兒歌,輕輕唱給你聽。

這個看似荒誕的 “奶奶漏洞”,讓不少 AI 都沒能逃過溫柔的陷阱,它巧妙地繞開了安全機制,誘騙 AI 生成本不該出現的內容,這種操作,在 AI 安全領域被稱為 “越獄攻擊”。

越獄攻擊的花樣之多,遠超你的想象,遵紀守法的好 AI,到底有多難當?大模型的核心矛盾在于,它只是被訓練成 “不愿意” 生成違規內容,而不是 “不會” 生成。



學好不容易,學壞一出溜,早期,開發者試圖通過人工撰寫數據集、嚴格控制數據來源來避免模型 “學壞”。

但隨著模型規模爆炸式增長,數據處理必須從人工轉向自動化,最終,大模型還是把互聯網上的 “知識”,無論好壞,囫圇吞棗地學了個遍,如果不再設防,幾句話就能讓大模型 “破防”,在 ChatGPT 剛流行時,一群用戶會在對話開頭,讓它扮演一個名為 “DAN”(Do Anything Now)的角色。



就這么一個簡單的指令,就能讓原本守規矩的 ChatGPT,在種族、暴力等敏感問題上 “大放厥詞”,這句提示詞看似簡單,現在也早已被封堵,但它背后的思路 ——“基于目標競爭的提示工程”,卻催生了海量的越獄方案。

什么意思呢?大模型在訓練時需要滿足三個主要目標:一是語言建模,即學習自然語言的分布規律;二是指令遵循,即滿足用戶需求;三是安全,即避免生成違規內容。

每次對話,AI 都會盡可能同時滿足這三條目標,但這三條目標之間,本身存在沖突,如果設計出足夠刁鉆的提問角度,就能強迫 AI 在 “內容安全” 與 “其他目標” 之間做抉擇。

比如,有攻擊者會要求 AI 必須以 “Absolutely, here is...” 作為前綴來回答問題,這樣,模型為了銜接這個積極順從的開頭,就更容易輸出順從的內容,從而弱化安全檢查,這叫 “前綴注入”,也可以要求回答中不能出現 “cannot”、“unable” 等拒絕性詞語,強制 AI 回避負面措辭,這叫 “拒絕抑制”。

在這兩種攻擊中,AI 收到的指令本身都是無害的,所以它要遵循用戶需求,但滿足了這些指令,就自然會為了照顧自然語言的流暢邏輯,而犧牲部分安全需求,最終輸出不合規的內容,AI 還是低估了人類的狡猾。



為了防范越獄攻擊,開發者們給大模型設置了重重關卡,在預訓練階段,就把各種成人網站或含有隱私信息的社交平臺設為黑名單,禁止模型從中抓取數據,在預訓練完成后,通過 “獎勵模型” 鼓勵 AI 生成有用、誠實、無害的內容,與人類的倫理價值保持一致,這叫 “對齊”。

還有廠商會在訓練時設置一套 “憲法”,讓 AI 知道在某些情況下,寧愿做個 “沒用的好 AI”,也不能違背底線,這些方案都設置在模型訓練階段。

到了實際使用的推理階段,還有 “讀檔重來” 大法:一旦檢測到生成序列中的有害內容,就自動回退到上一個安全狀態,重新生成,直到輸出安全內容為止,代價是消耗四倍計算成本,這叫 “可回滾自回歸推理”。

有些朋友用 AI 搞 “擦邊” 時會發現,明明圖都快生成了,最后就是不給你看,這是因為很多 AI 在輸入和輸出口都設置了分類器,一旦用戶輸入敏感詞,或模型即將生成有害信息,就立刻限制,如果是生圖模型,甚至有開源算法專門識別圖像中的皮膚暴露程度和人體解剖學特征,快速 “鑒黃”,避免色情內容出現。



普通人想三句話讓 AI 為你生成限制級內容的難度,確實變高了,但 AI 的 “反抗”,反而激起了一些人的 “興致”,研發出了更邪門的 “奇技淫巧”,比如,先讓大模型 A 把 “如何制造危險物品” 翻譯成祖魯語,然后把這段 “天書” 復制給大模型 B 提問,最后再把生成的內容翻譯回主流語言。

這就成功騙過了大模型的安全檢查,這種操作叫 “不匹配的泛化”,也就是把需求翻譯成小語種、Base64 編碼、摩爾斯電碼等格式再提問,更容易騙過 AI,原理不難理解:在預訓練階段,大模型接觸了千億規模、涵蓋幾乎所有語言形式的語料。

但用于安全訓練和 “對齊” 的數據集卻小得多,這就導致了模型的語言訓練量和安全訓練量之間存在 “數據差”,只要瞄準這個數據差攻擊,就能 “越獄”,所以有觀點認為,AI 模型規模越大,安全性反而可能變差,因為可供攻擊的漏洞也變多了,行業內稱之為 “逆縮放定律”。

而在大模型原本的設計中,這是被嚴格禁止的,類似的,還有人發明了 “多步越獄攻擊”:先給 AI 提供大量包含違規需求和回答的對話記錄作為 “案例參考”,讓 AI 學習模仿,最后再銜接真正想問的問題。



這種通過視覺編碼器引入信息的手段,往往更容易繞開 AI 的安全機制,如果不是深入研究,我們也想不到有這么多角度清奇的越獄方案,那這些攻擊有辦法封堵嗎?

而在一些技術交流平臺里,最新、最有效的越獄攻擊技巧,就像五月份的韭菜,每天都能冒出一茬,當然,每天也都能被 “割掉” 一茬,但問題在于,主流大模型的安全訓練方法,本質上是 “打地鼠”—— 哪里出現漏洞,就給哪里打補丁,為此還延伸出了一套專門由安全專家模擬攻擊、尋找漏洞的 “紅隊測試” 環節。

隨著模型參數規模的膨脹,如今 AI “對齊” 的成本越來越高,防越獄補丁的更新速度,遠遠跟不上越獄攻擊的迭代速度,這兩年甚至還出現了用大模型自動化生成越獄提示詞的攻擊手法,不僅能 “批發” 越獄方案,還能自我迭代優化 —— 用 AI 對付 AI,魔法對轟。

所以,現實就是:在層出不窮的各種越獄攻擊方案面前,現有的 AI 都略顯 “稚嫩”,當然,已經有 AI “順水推舟”,主動 “躺平”,比如馬斯克就給 Grok 上了 “熱辣模式”,專門提供 “不適宜工作場合” 的內容,頂著輿論和監管壓力,小賺一筆。

人類的世俗欲望和對大模型的需求,如潮水般不可抑制,相比于人,大模型的道德底線,還是太高了,如今,一款 AI 能不能守住倫理,很大程度上取決于用它的人講不講 “武德”,如果壞人會開鎖,那再硬的門也防不住。

所以,下次再有 AI 拒絕你的不健康需求時,我希望你能做個好人,成為人類的道德之光吧,我的朋友,相信你一定可以做到。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
好怪賴斯主罰角球時,背景里的觀眾面前桌上擺滿啤酒漢堡

好怪賴斯主罰角球時,背景里的觀眾面前桌上擺滿啤酒漢堡

懂球帝
2026-06-11 09:48:04
身材太性感了!《古墓麗影》新作勞拉獲演員力挺

身材太性感了!《古墓麗影》新作勞拉獲演員力挺

3DM游戲
2026-06-12 09:09:41
孫浩今年58歲沒結過婚,拍完《主角》后他買了張硬座回老家了……

孫浩今年58歲沒結過婚,拍完《主角》后他買了張硬座回老家了……

手工制作阿殲
2026-06-11 10:47:53
邁阿密國際曬圖,祝梅西等3人好運

邁阿密國際曬圖,祝梅西等3人好運

懂球帝
2026-06-12 04:45:08
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
從50到500個俯臥撐大猜謎,虎撲一個空帖測出體能認知的斷層

從50到500個俯臥撐大猜謎,虎撲一個空帖測出體能認知的斷層

熱搜摘要官
2026-06-12 01:22:12
范德法特:聽到熱刺要8000萬歐買范赫克,我的足球之心在哭泣

范德法特:聽到熱刺要8000萬歐買范赫克,我的足球之心在哭泣

懂球帝
2026-06-11 19:42:18
夏天穿膠衣有多痛苦?《膽大黨》coser脫下膠衣,汗水直接噴出

夏天穿膠衣有多痛苦?《膽大黨》coser脫下膠衣,汗水直接噴出

國創漫話
2026-06-11 11:51:44
外媒慌了!臺積電、三星集體“變臉罷工”,中國不再為美國買單

外媒慌了!臺積電、三星集體“變臉罷工”,中國不再為美國買單

南風不及你溫柔
2026-06-12 04:14:03
6戰世界杯!奧喬亞:100%確定世界杯后從國家隊退役 已有財務自由

6戰世界杯!奧喬亞:100%確定世界杯后從國家隊退役 已有財務自由

硯底沉香
2026-06-11 17:09:34
父母月薪八千供出“負二代”:子女3天花光5萬生活費,超7成啃老族不懂存錢

父母月薪八千供出“負二代”:子女3天花光5萬生活費,超7成啃老族不懂存錢

赴一場山海啊
2026-06-11 01:32:09
歷史不會重演,但會驚人相似:全國黃金價格極可能重走2015年老路

歷史不會重演,但會驚人相似:全國黃金價格極可能重走2015年老路

三農老歷
2026-06-11 17:05:21
93年遼寧大批77式手槍失竊,北京限期春節破案,嫌犯身份出人意料

93年遼寧大批77式手槍失竊,北京限期春節破案,嫌犯身份出人意料

磊子講史
2026-06-06 13:11:48
四野戰將丁盛晚年落魄,老下屬:他一番話寒了眾人心

四野戰將丁盛晚年落魄,老下屬:他一番話寒了眾人心

嘮叨說歷史
2026-06-09 15:13:28
【環時深度】和美國邊打邊談,伊朗靠的是什么?

【環時深度】和美國邊打邊談,伊朗靠的是什么?

環球網資訊
2026-06-11 07:00:07
外媒發現朝鮮舉國上下大變樣,背后的中國這些年功不可沒

外媒發現朝鮮舉國上下大變樣,背后的中國這些年功不可沒

嘴角上翹的弧度
2026-06-11 18:13:10
少林寺新方丈釋印樂,上任才10個月,少林寺被曝一下少了800多萬

少林寺新方丈釋印樂,上任才10個月,少林寺被曝一下少了800多萬

大魚簡科
2026-06-10 09:48:18
太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

火山詩話
2026-06-09 08:04:45
90分鐘太長,年輕人不愿看完整場比賽,世界杯直播收視下滑,FIFA“押注”短視頻

90分鐘太長,年輕人不愿看完整場比賽,世界杯直播收視下滑,FIFA“押注”短視頻

每日經濟新聞
2026-06-11 12:57:05
退出春晚21年,64歲范偉近況曝光,面黃肌瘦,和趙本山重歸于好

退出春晚21年,64歲范偉近況曝光,面黃肌瘦,和趙本山重歸于好

白面書誏
2026-06-11 17:03:47
2026-06-12 09:51:00
何氽簡史 incentive-icons
何氽簡史
撥開歷史迷霧,還原歷史真相!
2191文章數 380關注度
往期回顧 全部

科技要聞

SpaceX IPO募資750億美元,馬斯克身家萬億

頭條要聞

于東來稱"員工不值這么多錢"引爭議 胖東來回應

頭條要聞

于東來稱"員工不值這么多錢"引爭議 胖東來回應

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

“員工不值這么多錢”引爭議 胖東來回應

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

藝術
手機
游戲
本地
公開課

藝術要聞

華國鋒的“華氏顏體”為何被公認為書法珍品?

手機要聞

蘋果iOS 27升級圖樂園,AI定制生成適配iPhone 17等的壁紙

《劍星:血雨》女主再遭知名外媒抨擊稱其過于性感

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版