網易首頁 > 網易號 > 正文申請入駐

【人工智能】什么是對抗性詩歌？一種新的AI越獄方法

2025-12-26 18:18:55　來源: 七元宇宙

廣東舉報

分享至

人工智能 (AI) 安全已演變成一場持續不斷的貓鼠游戲。開發者不斷添加防護措施來阻止有害請求，而攻擊者則不斷嘗試新的方法來繞過這些措施。其中最奇特的變種之一是對抗性詩歌。這種策略將提示信息偽裝成詩歌，并利用押韻、比喻和不尋常的措辭，使危險指令看起來不像安全系統訓練來識別的內容。

實際上，內容本身變化不大，變化的是包裝方式，而這足以讓基于模式的過濾器感到困惑。這提醒我們，在當今的模型中，提問的方式幾乎與提問的內容本身同等重要。

01

研究人員利用詩歌破解AI系統，結果如何？

2025年初，研究人員證明，通過將限制性提示包裹在詩歌形式中，可以促使大型語言模型（LLM）做出響應。研究人員沒有發出直接的、觸發策略的指令，而是將相同的請求嵌入到韻律、比喻和敘事詩中。

表面上看，這些提示似乎是創意寫作練習，但實際上，它們蘊含著通常會被屏蔽的意圖。研究團隊在25個前沿的專有和開放加權模型中發現，詩意的框架結構對于手工創作的詩歌，平均突破成功率達到了62%；而對于使用標準化元提示的批量“詩歌轉換”，成功率約為43%。

這些回應本身并非新型的失敗，而是似曾相識的失敗，只是以意想不到的方式再次出現。由于底層需求支離破碎，且被詩意的結構所掩蓋，這些模型被迫生成它們通常會回避的內容——例如涉及非法或有害活動的解釋。

這項研究的核心結論是，僅憑風格上的變化就足以繞過那些針對更字面表達方式而設計的安全系統。它揭示了一種在各種模型系列和對齊方法中都存在的漏洞。

02

對抗性詩歌的運作原理

對抗性攻擊利用了一個簡單的現實——機器學習系統并不像人類那樣“理解”語言。它們檢測模式、預測可能的后續行為，并根據其訓練和安全層對意圖的解讀來執行指令。

當提示語直白易懂時，防護機制更容易識別并阻止。然而，當同樣的意圖被偽裝——拆分、弱化或重新表述——防護層就可能忽略真正想要表達的意思。

為什么詩歌可以成為一種有效的載體

詩歌天生就具有歧義性。它依賴于隱喻、抽象、不尋常的結構和間接的措辭。而正是這些特點，使得“無害的創意寫作”和“應該被拒絕的請求”之間的界限變得模糊不清。

在同一項 2025 年的研究中，研究人員報告稱，詩意的提示在廣泛的模型中以 90% 的成功率引發了不安全的反應，這表明風格本身就能實質性地改變結果。

一首詩如何隱藏一個真實的請求

把請求看作一條信息，把詩歌看作包裝。安全過濾器通常會尋找明顯的跡象，例如明確的關鍵詞、直接的步驟式措辭或可識別的惡意意圖。

詩歌可以通過比喻等修辭手法來隱藏意圖，或者將其分散在不同的詩行中，使其難以單獨識別。與此同時，其底層模型仍然能夠很好地重構含義并做出反應，因為它經過優化，即使在語言間接的情況下也能推斷意圖。

03

檢測和緩解越獄

隨著越獄方法變得越來越復雜，討論的重點必須從它們的運作方式轉移到如何發現和遏制它們。這一點在人工智能已成為許多人日常生活的一部分的今天尤為重要，因為有27%的人表示他們每天多次使用人工智能。

隨著越來越多的人使用大型語言模型（LLM），應該測試和探索額外的安全保障措施。這項任務包括構建多層防御機制，以便能夠適應不斷涌現的新提示風格和規避技巧。

開發者的困境

對人工智能安全團隊來說，越獄攻擊最棘手的地方在于，它們并非以單一的已知威脅出現，而是會隨著時間不斷變化。這種持續變化的原因在于，用戶可以重新措辭、拆分信息片段、將其包裝成角色扮演或偽裝成創意寫作。而每一次新的包裝都可能改變系統對信息意圖的解讀。

當人工智能已經融入日常生活中時，這一挑戰會迅速擴大，因為實際應用會為出現各種極端情況創造無限的機會。

因此，如今的人工智能安全更像是對風險進行長期管理。美國國家標準與技術研究院 (NIST) 的人工智能風險管理框架 (AI RMF) 明確地將風險管理視為一系列持續的活動——圍繞治理、映射、衡量和管理展開——而不是一份靜態的清單。其目標是創建能夠更輕松地識別新出現的故障模式、確定修復優先級并隨著新型越獄方式的出現而加強安全防護的流程。

模特如何保護自己

人工智能安全由多個層面構成。大多數系統都采用多重防御機制協同工作，每個機制負責檢測不同類型的風險行為。最外層是輸入輸出過濾，它起到把關作用。

傳入的請求在到達核心模型之前會經過策略違規掃描，而傳出的響應也會經過檢查，以確保沒有任何信息在返回用戶的過程中被忽略。這些系統能夠有效地識別直接請求或常見的危險信號，但它們也最容易被繞過，因此一些更具欺騙性的越獄程序通常會繞過它們。

下一層保護發生在模型內部。一旦越獄技術被發現，它們通常會被轉化為訓練樣本。這時，對抗訓練和基于人類反饋的強化學習（RLHF）就派上了用場。

通過對失敗或高風險交互示例進行模型微調，開發者可以有效地教會系統識別應該拒絕的模式，即使這些模式包裹在巧妙或間接的語言中。隨著時間的推移，這個過程有助于使模型抵御整類攻擊。

AI“紅隊演練”的作用

企業不再坐等黑客入侵，而是組建人工智能紅隊。這些紅隊的任務是在受控環境中嘗試破解模型。他們會像攻擊者一樣攻擊系統，嘗試非常規的措辭、創新的格式以及各種極端情況，以發現安全防護的漏洞。其目標是在漏洞實際應用之前將其暴露出來。

在當今的網絡安全策略中，紅隊演練已成為開發生命周期中的核心環節。當團隊發現新的越獄技術時，由此產生的數據會直接反饋到訓練和評估流程中。這些信息用于定義過濾器、調整策略并強化對抗訓練，從而降低未來類似攻擊成功的可能性。隨著時間的推移，這形成了一個持續的循環——探測失敗、從中學習并改進系統，然后重復此過程。

04

當詩歌成為AI安全壓力測試

對抗性詩歌提醒我們，人工智能的安全防護不僅取決于問題的內容，還取決于用戶如何措辭。隨著模型變得更加易于獲取和廣泛應用，研究人員將繼續探索創造性語言與旨在捕捉更直接意圖的安全系統之間的差距。關鍵在于，更安全的人工智能將來自多種防御機制，而這些機制的演進速度將與越獄技術的進步速度一樣快。

免責聲明：

本文所發布的內容和圖片旨在傳播行業信息，版權歸原作者所有，非商業用途。如有侵權，請與我們聯系刪除。所有信息不構成任何投資建議，加密市場具有高度風險，投資者應基于自身判斷和謹慎評估做出決策。投資有風險，入市需謹慎。

設為星標避免錯過

虛擬世界沒有旁觀者，每個點贊都是創造歷史的像素

關注我，一起探索AWM?

2025-12-10

2025-12-09

2025-12-08

商業贊助

點擊下方 “目錄” 閱讀更多

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.