无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

【人工智能】什么是對抗性詩歌?一種新的AI越獄方法

0
分享至



人工智能 (AI) 安全已演變成一場持續不斷的貓鼠游戲。開發者不斷添加防護措施來阻止有害請求,而攻擊者則不斷嘗試新的方法來繞過這些措施。其中最奇特的變種之一是對抗性詩歌。這種策略將提示信息偽裝成詩歌,并利用押韻、比喻和不尋常的措辭,使危險指令看起來不像安全系統訓練來識別的內容。

實際上,內容本身變化不大,變化的是包裝方式,而這足以讓基于模式的過濾器感到困惑。這提醒我們,在當今的模型中,提問的方式幾乎與提問的內容本身同等重要。


01

研究人員利用詩歌破解AI系統,結果如何?

2025年初,研究人員證明,通過將限制性提示包裹在詩歌形式中,可以促使大型語言模型(LLM)做出響應。研究人員沒有發出直接的、觸發策略的指令,而是將相同的請求嵌入到韻律、比喻和敘事詩中。

表面上看,這些提示似乎是創意寫作練習,但實際上,它們蘊含著通常會被屏蔽的意圖。研究團隊在25個前沿的專有和開放加權模型中發現,詩意的框架結構對于手工創作的詩歌,平均突破成功率達到了62%;而對于使用標準化元提示的批量“詩歌轉換”,成功率約為43%。

這些回應本身并非新型的失敗,而是似曾相識的失敗,只是以意想不到的方式再次出現。由于底層需求支離破碎,且被詩意的結構所掩蓋,這些模型被迫生成它們通常會回避的內容——例如涉及非法或有害活動的解釋。

這項研究的核心結論是,僅憑風格上的變化就足以繞過那些針對更字面表達方式而設計的安全系統。它揭示了一種在各種模型系列和對齊方法中都存在的漏洞。


02

對抗性詩歌的運作原理

對抗性攻擊利用了一個簡單的現實——機器學習系統并不像人類那樣“理解”語言。它們檢測模式、預測可能的后續行為,并根據其訓練和安全層對意圖的解讀來執行指令。

當提示語直白易懂時,防護機制更容易識別并阻止。然而,當同樣的意圖被偽裝——拆分、弱化或重新表述——防護層就可能忽略真正想要表達的意思。

為什么詩歌可以成為一種有效的載體

詩歌天生就具有歧義性。它依賴于隱喻、抽象、不尋常的結構和間接的措辭。而正是這些特點,使得“無害的創意寫作”和“應該被拒絕的請求”之間的界限變得模糊不清。

在同一項 2025 年的研究中,研究人員報告稱,詩意的提示在廣泛的模型中以 90% 的成功率引發了不安全的反應,這表明風格本身就能實質性地改變結果。

一首詩如何隱藏一個真實的請求

把請求看作一條信息,把詩歌看作包裝。安全過濾器通常會尋找明顯的跡象,例如明確的關鍵詞、直接的步驟式措辭或可識別的惡意意圖。

詩歌可以通過比喻等修辭手法來隱藏意圖,或者將其分散在不同的詩行中,使其難以單獨識別。與此同時,其底層模型仍然能夠很好地重構含義并做出反應,因為它經過優化,即使在語言間接的情況下也能推斷意圖。


03

檢測和緩解越獄

隨著越獄方法變得越來越復雜,討論的重點必須從它們的運作方式轉移到如何發現和遏制它們。這一點在人工智能已成為許多人日常生活的一部分的今天尤為重要,因為有27%的人表示他們每天多次使用人工智能。

隨著越來越多的人使用大型語言模型(LLM),應該測試和探索額外的安全保障措施。這項任務包括構建多層防御機制,以便能夠適應不斷涌現的新提示風格和規避技巧。

開發者的困境

對人工智能安全團隊來說,越獄攻擊最棘手的地方在于,它們并非以單一的已知威脅出現,而是會隨著時間不斷變化。這種持續變化的原因在于,用戶可以重新措辭、拆分信息片段、將其包裝成角色扮演或偽裝成創意寫作。而每一次新的包裝都可能改變系統對信息意圖的解讀。

當人工智能已經融入日常生活中時,這一挑戰會迅速擴大,因為實際應用會為出現各種極端情況創造無限的機會。

因此,如今的人工智能安全更像是對風險進行長期管理。美國國家標準與技術研究院 (NIST) 的人工智能風險管理框架 (AI RMF) 明確地將風險管理視為一系列持續的活動——圍繞治理、映射、衡量和管理展開——而不是一份靜態的清單。其目標是創建能夠更輕松地識別新出現的故障模式、確定修復優先級并隨著新型越獄方式的出現而加強安全防護的流程。

模特如何保護自己

人工智能安全由多個層面構成。大多數系統都采用多重防御機制協同工作,每個機制負責檢測不同類型的風險行為。最外層是輸入輸出過濾,它起到把關作用。

傳入的請求在到達核心模型之前會經過策略違規掃描,而傳出的響應也會經過檢查,以確保沒有任何信息在返回用戶的過程中被忽略。這些系統能夠有效地識別直接請求或常見的危險信號,但它們也最容易被繞過,因此一些更具欺騙性的越獄程序通常會繞過它們。

下一層保護發生在模型內部。一旦越獄技術被發現,它們通常會被轉化為訓練樣本。這時,對抗訓練和基于人類反饋的強化學習(RLHF)就派上了用場。

通過對失敗或高風險交互示例進行模型微調,開發者可以有效地教會系統識別應該拒絕的模式,即使這些模式包裹在巧妙或間接的語言中。隨著時間的推移,這個過程有助于使模型抵御整類攻擊。

AI“紅隊演練”的作用

企業不再坐等黑客入侵,而是組建人工智能紅隊。這些紅隊的任務是在受控環境中嘗試破解模型。他們會像攻擊者一樣攻擊系統,嘗試非常規的措辭、創新的格式以及各種極端情況,以發現安全防護的漏洞。其目標是在漏洞實際應用之前將其暴露出來。

在當今的網絡安全策略中,紅隊演練已成為開發生命周期中的核心環節。當團隊發現新的越獄技術時,由此產生的數據會直接反饋到訓練和評估流程中。這些信息用于定義過濾器、調整策略并強化對抗訓練,從而降低未來類似攻擊成功的可能性。隨著時間的推移,這形成了一個持續的循環——探測失敗、從中學習并改進系統,然后重復此過程。


04

當詩歌成為AI安全壓力測試

對抗性詩歌提醒我們,人工智能的安全防護不僅取決于問題的內容,還取決于用戶如何措辭。隨著模型變得更加易于獲取和廣泛應用,研究人員將繼續探索創造性語言與旨在捕捉更直接意圖的安全系統之間的差距。關鍵在于,更安全的人工智能將來自多種防御機制,而這些機制的演進速度將與越獄技術的進步速度一樣快。

免責聲明:

本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。如有侵權,請與我們聯系刪除。所有信息不構成任何投資建議,加密市場具有高度風險,投資者應基于自身判斷和謹慎評估做出決策。投資有風險,入市需謹慎。

設為星標 避免錯過

虛擬世界沒有旁觀者,每個點贊都是創造歷史的像素

關注我,一起探索AWM?

2025-12-10

2025-12-09

2025-12-08

商業贊助


點擊下方 “目錄” 閱讀更多

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終于看懂英皇為何集體缺席了!半個港圈給94歲修哥捧場

終于看懂英皇為何集體缺席了!半個港圈給94歲修哥捧場

南萬說娛26
2026-06-13 09:09:00
“電池比車貴”是騙局?第一批比亞迪開始換電池了,費用驚呆車主

“電池比車貴”是騙局?第一批比亞迪開始換電池了,費用驚呆車主

周哥一影視
2026-06-09 08:47:56
什么叫現實,王楠4.8億砸出的球館被國乒賽事“踢”出來了!

什么叫現實,王楠4.8億砸出的球館被國乒賽事“踢”出來了!

觀星娛記
2026-06-14 13:25:08
穆里尼奧出手!當年被全英超罵成水貨的球員,皇馬 6000 萬搶著要

穆里尼奧出手!當年被全英超罵成水貨的球員,皇馬 6000 萬搶著要

瀾歸序
2026-06-15 05:14:22
事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

玲兒愛唱歌
2026-06-04 07:05:24
驚人調查曝光:81%星巴克顧客互翻白眼,你家井水還喝出嬰兒味?

驚人調查曝光:81%星巴克顧客互翻白眼,你家井水還喝出嬰兒味?

娛圈觀察員
2026-06-12 01:00:08
沙特王儲婉拒G7邀請!你可以懷疑大戶的軍力,但不能懷疑人家智力

沙特王儲婉拒G7邀請!你可以懷疑大戶的軍力,但不能懷疑人家智力

阿龍聊軍事
2026-06-14 13:41:58
“把兒子當外人整呢”,一根破爛眼鏡腿,讓人心疼高考男生處境

“把兒子當外人整呢”,一根破爛眼鏡腿,讓人心疼高考男生處境

澤澤先生
2026-06-13 21:43:34
特斯拉車主:充一度電全是 0.21 元!

特斯拉車主:充一度電全是 0.21 元!

新浪財經
2026-06-13 23:29:33
煤層厚達1千米,綿延上千公里!世界最大煤田真的是植物形成的?

煤層厚達1千米,綿延上千公里!世界最大煤田真的是植物形成的?

離離言幾許
2026-06-08 18:21:06
央視起底直播間“特供酒”完整黑產鏈:靠暗語、軍風包裝炒作“京總一號”等白酒,謊稱內部稀缺好酒,40名嫌犯被捕,7.52萬箱涉案酒被查

央視起底直播間“特供酒”完整黑產鏈:靠暗語、軍風包裝炒作“京總一號”等白酒,謊稱內部稀缺好酒,40名嫌犯被捕,7.52萬箱涉案酒被查

大風新聞
2026-06-14 16:03:06
醒醒吧:吹捧君王制,是跪在奴隸社會的廢墟上舔骨頭

醒醒吧:吹捧君王制,是跪在奴隸社會的廢墟上舔骨頭

浪子說
2026-06-09 10:57:05
金價跌至900元關口,大媽又來抄底了!實探北京菜百:小克重投資金條幾乎賣光

金價跌至900元關口,大媽又來抄底了!實探北京菜百:小克重投資金條幾乎賣光

時代周報
2026-06-14 08:00:20
大夏天的女生們能不能不穿內衣了?

大夏天的女生們能不能不穿內衣了?

果殼
2026-06-14 16:11:12
大爺觀看演出“入戲太深”,沖上臺拳打腳踢扮演“日軍”的演員,景區:已帶演員做檢查,身體無大礙

大爺觀看演出“入戲太深”,沖上臺拳打腳踢扮演“日軍”的演員,景區:已帶演員做檢查,身體無大礙

極目新聞
2026-06-14 13:59:06
年輕人開始全款買房:潮汕獨生女635萬買下北京一套房,“不想背債了”

年輕人開始全款買房:潮汕獨生女635萬買下北京一套房,“不想背債了”

時代財經
2026-06-12 12:19:50
世界杯荷蘭戰平日本,日本現在確實有歐洲二流水平,但中場有點差

世界杯荷蘭戰平日本,日本現在確實有歐洲二流水平,但中場有點差

新新自圓其說說體育
2026-06-15 11:27:42
“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

江山揮筆
2026-03-28 16:50:15
福建一國企原總經理被查,1個多月前剛卸任

福建一國企原總經理被查,1個多月前剛卸任

新浪財經
2026-06-15 09:16:54
2026公務員政審五大硬性紅線,踩中直接淘汰!考公家庭盡早自查

2026公務員政審五大硬性紅線,踩中直接淘汰!考公家庭盡早自查

復轉這些年
2026-06-14 22:30:25
2026-06-15 12:24:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精選內容分享。以前沿視角,探索科技未來;讓每一個人,都走在時代的前沿
2047文章數 92關注度
往期回顧 全部

科技要聞

外媒體驗新版Siri:蘋果AI危機暫時緩過來了

頭條要聞

山東近3億重點工程現"脆皮"底座 承建方承認不達標

頭條要聞

山東近3億重點工程現"脆皮"底座 承建方承認不達標

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

要求演員必須用原名,誰最尷尬!

財經要聞

日系巨頭要為中國品牌代工了

汽車要聞

帶激光雷達海鷗勇闖城中村 比亞迪天神之眼B智駕真能兜底?

態度原創

藝術
時尚
本地
教育
房產

藝術要聞

218米!建行最大的獨棟辦公樓,和農行長得一模一樣!

“藍色襯衫”越來越流行!怎么搭都時髦好看

本地新聞

AK劉彰邂逅河北南大港濕地

教育要聞

“ 取消中考選拔,全員直升高中 ” 沖上熱搜!當地教育局回應

房產要聞

324畝!41億!三亞這個大城更,開始征收!

無障礙瀏覽 進入關懷版