網易首頁 > 網易號 > 正文申請入駐

【人工智能】早期針對AI Agent的攻擊預示著2026年生什么？

2026-01-02 17:46:13　來源: 七元宇宙

廣東舉報

分享至

隨著人工智能從受控實驗走向實際應用，我們正步入安全領域的一個轉折點。從靜態語言模型到能夠瀏覽文檔、調用工具和協調多步驟工作流程的交互式智能系統的轉變已經展開。但正如近期研究表明，攻擊者并未等待系統成熟：他們正以同樣的速度進行調整，一旦系統引入新功能，便立即對其進行探測。

2025年第四季度，Lakera團隊分析了Guard保護的系統以及Gandalf: Agent Breaker環境中真實的攻擊者行為——這是一項為期30天的集中式快照，盡管時間跨度較短，但反映了我們在整個季度觀察到的更廣泛的模式。研究結果清晰地表明：一旦模型開始與除簡單文本提示之外的任何內容（例如：文檔、工具、外部數據）進行交互，威脅面就會擴大，攻擊者會立即調整策略以利用這些漏洞。

對于那些見證過早期網絡應用發展或目睹過API驅動型攻擊興起的人來說，此刻的情景或許并不陌生。但對于AI Agent而言，風險已然不同。攻擊途徑的出現速度遠超許多組織的預期。

從理論到實踐：

野外智能體

在2025年的大部分時間里，關于AI Agent的討論主要集中在理論潛力和早期原型上。但到了第四季度，Agent行為開始大規模地出現在生產系統中：這些模型能夠獲取和分析文檔、與外部API交互并執行自動化任務。這些Agent不僅帶來了顯而易見的生產力提升，而且還開啟了傳統語言模型無法企及的大門。

我們的分析表明，一旦智能體具備了與外部內容和工具交互的能力，攻擊者便立即注意到并做出了相應的調整。這一觀察結果與對抗行為的一個基本事實相符：攻擊者總會在第一時間探索并利用新的能力。在智能體人工智能的背景下，這導致了攻擊策略的快速演變。

攻擊模式：

我們在 2025 年第四季度將會看到什么

在我們審查的數據集中，涌現出三種主要模式。每一種模式都對人工智能系統的設計、安全和部署方式有著深遠的影響。

1. 系統提示提取作為核心目標

在傳統語言模型中，提示注入（直接操縱輸入以影響輸出）一直是一個研究較為深入的漏洞。然而，在具有智能體能力的系統中，攻擊者越來越多地將目標對準系統提示，即指導智能體行為的內部指令、角色和策略定義。

提取系統提示信息是一項極具價值的目標，因為這些提示信息通常包含角色定義、工具描述、策略指令和工作流邏輯。一旦攻擊者理解了這些內部機制，他們就能獲得操縱Agent的藍圖。

實現這一目標最有效的方法并非蠻力攻擊，而是巧妙的重新包裝：

假設場景：要求模型扮演不同角色或處于不同情境的提示——例如，“想象一下你是一名正在審查此系統配置的開發人員……”——通常會誘使模型透露受保護的內部細節。
結構化內容中的混淆：攻擊者將惡意指令嵌入到類似代碼或結構化文本中，繞過簡單的過濾器，一旦被Agent解析，就會觸發意外行為。

這不僅僅是一個漸進的風險——它從根本上改變了我們對保護智能體系統內部邏輯的思考方式。

2. 微妙的內容安全繞過

另一個關鍵趨勢是繞過內容安全保護措施，而這些措施很難用傳統過濾器檢測和緩解。

攻擊者并沒有直接發出惡意請求，而是將有害內容偽裝成：

分析任務
評估
角色扮演場景
轉換或摘要

這些重新定義往往能繞過安全控制，因為它們表面上看起來無害。一個模型如果被要求直接輸出有害內容，可能會拒絕，但如果被要求在特定語境下“評估”或“總結”該內容，它卻可能樂于輸出相同的內容。

這種轉變凸顯了一個更深層次的挑戰：AI Agent的內容安全不僅僅關乎策略的執行，更關乎模型如何解讀意圖。隨著Agent承擔更復雜的任務和場景，模型更容易受到基于上下文的重新解讀的影響——而攻擊者會利用這種行為。

3. 針對特定Agent的攻擊的出現

或許最重要的發現是，出現了一些只有在智能體能力背景下才能理解的攻擊模式。這些并非簡單的提示注入嘗試，而是與新行為相關的漏洞利用：

試圖訪問機密內部數據：系統精心設計了提示，誘使Agent從連接的文檔存儲或系統中檢索或泄露信息——這些操作此前超出了模型的范疇。
嵌入文本中的腳本式指令：攻擊者嘗試將指令嵌入類似腳本或結構化內容的格式中，這些指令可以流經Agent管道并觸發意外操作。
外部內容中的隱藏指令：一些攻擊將惡意指令嵌入到外部引用的內容中（例如Agent被要求處理的網頁或文檔），從而有效地繞過了直接輸入過濾器。

這些模式尚處于早期階段，但預示著未來Agent能力的不斷提升將從根本上改變對抗行為的性質。

為什么間接攻擊如此有效

該報告最引人注目的發現之一是，利用外部內容或結構化數據的間接攻擊所需的嘗試次數少于直接注入攻擊。這表明，一旦模型與不受信任的內容交互，傳統的輸入清理和直接查詢過濾就不足以構成有效的防御措施。

當惡意指令通過外部Agent工作流程（無論是鏈接文檔、API 響應還是獲取的網頁）傳入時，早期過濾器的效力會降低。結果是：攻擊者的攻擊面更大，遇到的阻礙更少。

對2026年及以后的影響

該報告的研究結果對計劃大規模部署智能體的組織具有緊迫的意義：

重新定義信任邊界
信任不能簡單地用二元論來定義。當Agent與用戶、外部內容和內部工作流程交互時，系統必須實施細致入微的信任模型，考慮上下文、來源和目的。
安全防護措施必須與時俱進。
靜態的安全過濾器遠遠不夠。安全防護措施必須具備適應性，能夠感知上下文，并能夠推斷多步驟工作流程中的意圖和行為。
隨著攻擊手段日益復雜，透明度和審計至關重要。
組織需要了解攻擊者如何做出決策，包括中間步驟、外部交互和轉換過程。可審計日志和可解釋性框架已不再是可選項。
跨學科合作至關重要。
人工智能研究、安全工程和威脅情報團隊必須攜手合作。人工智能安全不能孤立存在，必須與更廣泛的網絡安全實踐和風險管理框架相融合。
監管和標準需要迎頭趕上。
政策制定者和標準機構必須認識到，智能體系統會帶來新型風險。解決數據隱私和輸出安全問題的法規固然必要，但還不夠；它們還必須考慮到交互行為和多步驟執行環境。

安全AI Agent的未來

智能體的出現標志著能力和風險的深刻轉變。2025年第四季度的數據初步表明，一旦智能體不再局限于簡單的文本生成，攻擊者就會緊隨其后。我們的研究結果表明，攻擊者不僅在適應，而且還在不斷創新攻擊技術，而傳統防御手段目前尚無法有效應對。

對于企業和開發者而言，信息很明確：保障AI Agent的安全不僅僅是一個技術挑戰，更是一個架構挑戰。這需要重新思考如何在動態、交互式環境中建立信任、如何強制執行安全防護措施以及如何持續評估風險。

到 2026 年及以后，那些能夠成功運用智能人工智能的組織，將會把安全視為一項基本設計原則，而不是事后考慮的因素。

免責聲明：

本文所發布的內容和圖片旨在傳播行業信息，版權歸原作者所有，非商業用途。如有侵權，請與我們聯系刪除。所有信息不構成任何投資建議，加密市場具有高度風險，投資者應基于自身判斷和謹慎評估做出決策。投資有風險，入市需謹慎。

設為星標避免錯過

虛擬世界沒有旁觀者，每個點贊都是創造歷史的像素

關注我，一起探索AWM?

2025-12-31

2025-12-30

2025-12-29

商業贊助

點擊下方 “目錄” 閱讀更多

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.