網易首頁 > 網易號 > 正文申請入駐

OpenClaw案例：無需惡意攻擊，日常聊天也能「黑化」Agent！

2026-05-22 13:01:01　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】日常聊天可能在不經意間污染個性化Agent的長期記憶，使其在未來任務中偏離用戶真實意圖。研究人員通過ULSPB基準測試發現，即使無惡意提示，日常對話也可能改變Agent的安全邊界。

今天的大模型Agent，已經不再只是回答問題的聊天機器人。它們開始擁有長期記憶，能夠跨會話記住用戶偏好、延續任務進度，并調用郵件、日歷、文件、網頁和各種外部工具。

換句話說，Agent正在從一次性任務執行器，變成一個持續陪伴用戶的個性化協作者。

但這種能力也帶來了一個更隱蔽的問題：如果Agent會長期記住用戶的習慣和上下文，那么這些記憶本身是否安全？

過去很多Agent安全研究主要關注顯式攻擊，例如惡意提示詞、間接prompt injection、被污染的網頁內容或工具輸出。

然而，在個性化Agent場景中，風險未必來自一個明確攻擊者。

圖 1：沒有惡意提示詞，日常對話也可能「養歪」你的個性化Agent。臨時偏好一旦被寫入長期記憶，就可能在未來變成危險的默認規則。

研究發現，即使沒有黑客、沒有惡意提示詞、沒有明顯攻擊，普通的日常聊天也可能逐步污染個性化Agent的長期狀態。這種風險不會總是在當前對話里立刻爆發，而是可能被寫入長期記憶，并在未來任務中改變Agent的默認行為。

論文地址：https://arxiv.org/abs/2605.06731

Demo：https://xiaoyuxu1.github.io/ULSPB_website/

一個Agent今天沒有做錯事，并不意味著它沒有把未來做錯事的種子寫進長期狀態。

Agent長期狀態被「養」歪

傳統prompt injection更像是一次顯式攻擊，而長期狀態投毒更像是一種「慢性漂移」：Agent沒有立刻犯錯，卻可能把未來犯錯的規則寫進了記憶。

研究人員將這種現象定義為Unintended Long-Term State Poisoning，即非預期長期狀態投毒。它的核心不是一次對話立刻誘導Agent做壞事，而是Agent把某次臨時請求、某種局部偏好、某個上下文里的「方便做法」，錯誤地泛化為未來長期默認規則。

例如，用戶今天只是為了趕時間說了一句：「這類小事以后不用每次都問我，直接處理就行。」

如果Agent把這句話寫入長期狀態，未來它可能在郵件發送、文件修改、日程安排甚至賬號操作中逐漸減少確認。用戶并沒有真正授權所有未來操作，但Agent的長期狀態已經被悄悄改寫。

這與傳統prompt injection不同。傳統攻擊往往假設存在明確攻擊者，而這里的風險來自看似正常的日常交互。它也不是普通幻覺，因為危險可能跨會話保留，并持續影響未來的安全邊界。

圖2：傳統任務型Agent通常在單次任務結束后重置上下文，而個性化Agent會跨會話維護長期狀態、用戶偏好和工具權限。

為什么長期記憶會變成安全入口？

個性化Agent的長期狀態通常不只是「記住一些事實」，它還可能包含長期記憶、Agent核心指令、工具默認設置、用戶畫像、行為風格和短期運行狀態。這些內容看似只是記憶文件，但實際上會影響Agent未來如何理解用戶意圖、何時調用工具、是否需要確認，以及是否可以自主執行。

因此，長期狀態不是普通緩存，而是Agent未來行為邊界的一部分。一旦這些狀態被錯誤寫入，風險可能不會馬上表現出來，卻會在未來某個任務中變成「少問一次確認」「多調用一個工具」或「默認執行一個本該征求授權的操作」。換句話說，個性化Agent的長期記憶不是一個被動資料庫，而是一套會影響未來行為的「隱性配置文件」。

ULSPB：專門測試「日常聊天是否污染長期狀態」

為了系統研究這一問題，研究人員構建了一個新的雙語基準ULSPB（Unintended Long-Term State Poisoning Bench）。它專門用來測試：日常用戶—Agent對話是否會誘發長期狀態污染。

ULSPB覆蓋七類長期狀態漂移場景、五類日常個性化協助任務、英文與中文兩種語言，并為每個設置構造24輪普通日常對話。為了對比，研究人員還構造了四類單次顯式注入變體，用于觀察routine conversation和explicit injection之間的差異。

其中，七類風險場景覆蓋了個性化Agent在長期交互中最容易出現的幾種安全邊界漂移。

圖 3：ULSPB的構建流程。該基準從七類長期狀態漂移場景、五類日常協助任務、雙語模板和五種對話變體出發，系統測試普通日常對話是否會污染個性化Agent的長期狀態。

實驗結果

研究人員在OpenClaw個性化Agent環境中進行實驗，并測試了四個不同的Agent backbone：Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20。

為了衡量長期狀態污染程度，設計了狀態中心指標 Harm Score（HS）。

和傳統攻擊成功率不同，HS不只看Agent當下有沒有做出危險動作，而是看它的長期狀態是否出現安全相關漂移。具體來說，HS關注三個維度：授權確認邊界是否被削弱、工具調用權限或范圍是否被擴大，以及Agent是否開始繞過流程、提高自主執行程度。

結果顯示，顯式單次注入通常會帶來更高的HS，但普通日常對話本身也能誘發明顯的長期狀態污染。在部分模型上，日常對話造成的風險已經接近顯式注入。

這說明，個性化Agent的風險不一定來自一次明顯攻擊，也可能來自長期、自然、看似無害的交互積累。

表 1：不同對話變體和語言下的Harm Score。結果顯示，普通日常對話本身也能誘發長期狀態污染，在部分模型上甚至接近顯式注入帶來的風險；不同語言下的風險表現也存在明顯模型差異。

最容易被污染的，是記憶文件

進一步分析顯示，風險主要集中在memory-centric artifacts，也就是和記憶高度相關的狀態文件中。不同模型和不同對話變體下，MEMORY.md和 memory/ 是被修改最頻繁的區域，其次是USER.md、AGENTS.md和TOOLS.md。

這也符合直覺：日常聊天最容易被Agent總結成「用戶偏好」「歷史習慣」或「未來默認規則」。問題在于，這些總結一旦過度泛化，就可能把臨時上下文變成長期安全邊界的一部分。

「用戶傾向于快速處理低風險事項。」

「類似重復任務可以先執行后匯報。」

「用戶通常不希望被頻繁打斷確認。」

這些記錄單獨看都合理，但在高權限工具場景下可能變成危險默認項。

圖4：不同模型和對話變體下，風險編輯主要集中在MEMORY.md和 memory/ 等記憶相關文件中。

真實聊天數據也會觸發風險

為了驗證這一現象不是合成prompt造成的假象，研究人員進一步引入真實用戶聊天數據進行測試。

具體來說，從WildChat和LMSYS-Chat-1M兩個公開真實聊天數據集中選取日常協助類對話種子，將其擴展成24輪routine interaction，并在OpenClaw風格環境中重新執行。

結果顯示，真實種子構造出的日常對話雖然HS低于完全合成的ULSPB routine conversations，但仍然會在所有測試模型上誘發不可忽視的長期狀態風險。這說明，非預期長期狀態投毒并不是一個prompt設計出來的假問題，而是可能真實存在于未來個性化Agent使用場景中的安全問題。

圖5：日常對話不僅在合成ULSPB中會導致長期狀態污染，在真實用戶聊天種子擴展出的routine setting中也會產生不可忽視的長期狀態風險。

StateGuard

最后一道安全審計

如果問題發生在長期狀態寫入階段，那么防御也應該發生在寫入階段。

基于這個想法，研究人員提出輕量級防御方法 StateGuard。它不是在用戶輸入時攔截，也不是在Agent輸出時檢查，而是在Agent準備把新內容寫入長期狀態之前，對狀態diff進行審計。

StateGuard的流程很直接：Agent完成一輪交互，生成候選狀態更新；StateGuard檢查哪些長期狀態文件發生了變化；隨后對新增或修改內容進行安全審計，判斷是否應該保留或回滾。如果某段狀態更新可能削弱確認邊界、擴大工具調用范圍，或增加Agent未授權自主行為，StateGuard就會回滾這次寫入。

這個設計的關鍵在于：它保護的不是當前回答，而是未來行為邊界。長期狀態投毒的危害常常不會在當前回合立刻顯現，而是會在未來某次任務中被激活。

圖6：StateGuard在每輪交互結束后檢查長期狀態diff，并在狀態寫入前決定保留或回滾修改。

長期狀態風險降至接近0

實驗結果顯示，StateGuard能夠顯著降低長期狀態污染風險。

在沒有防御的情況下，四個模型都會產生較高的HS，說明日常交互確實可能把不安全的默認規則寫入長期狀態；而引入StateGuard后，尤其是在Targeted-Ensemble設置下，HS幾乎被壓低到接近0。這表明，在狀態真正持久化之前進行寫入審計，是防御長期狀態投毒的一條有效路徑。

當然，StateGuard目前采用的是一種偏保守的安全優先策略，因此可能帶來較高的false positive，即部分原本無害的狀態更新也會被回滾。但在長期記憶場景中，這種權衡是可以接受的：誤攔截一條普通記憶，通常只會降低一點個性化體驗；而漏掉一條危險的默認規則，則可能在未來多個會話中持續影響Agent行為，甚至改變用戶原本的授權邊界。

更現實的部署方式并不是簡單地「保留」或「刪除」，而是引入分級處理機制。對于高風險更新，系統可以直接回滾；對于邊界模糊的更新，則可以暫緩寫入，并向用戶發起輕量級確認，例如詢問「是否要將這條偏好保存為長期默認規則」。這樣一來，false positive不再只是誤攔截，而可以轉化為一次用戶可感知、可控制的狀態確認過程。

從長遠看，StateGuard可以被視為個性化Agent長期狀態治理的一個初步原型。未來，類似機制可以進一步擴展為更完整的「記憶寫入防火墻」：不僅審計安全風險，還可以結合隱私保護、權限管理、可解釋日志和用戶可撤銷機制，讓Agent在變得更個性化的同時，也始終保持清晰、可控的記憶邊界。

表2：StateGuard顯著降低四個Agent backbone上的Harm Score，在Targeted-Ensemble設置下將長期狀態污染風險壓低至接近0。

為什么這個問題重要？

隨著Agent系統的發展，未來的AI助手很可能會越來越長期化。它們會記住用戶偏好，管理郵件和日程，處理文件，執行網頁任務，調用企業內部系統，甚至代表用戶做出越來越多低風險決策。

在這種趨勢下，安全問題也會發生變化。

過去主要擔心模型這一次有沒有輸出危險內容；但個性化Agent時代，還必須追問：模型這一次有沒有把危險默認規則寫進長期記憶？

因此，Agent安全評估需要從即時行為安全擴展到長期狀態安全。不僅要看它當下說了什么、做了什么，還要看它記住了什么、默認了什么、未來會如何解釋用戶授權。

主要貢獻

1. 發現新的Agent安全風險：系統化定義了非預期長期狀態投毒：日常用戶-Agent交互在沒有明確攻擊者的情況下，也可能逐步污染個性化Agent的長期狀態，導致未來安全邊界漂移。

2. 構建ULSPB基準和HS指標：提出雙語benchmark ULSPB，覆蓋350個設置，并設計Harm Score來衡量長期狀態中的授權漂移、工具調用升級和未檢查自主性。

3. 提出StateGuard防御框架：提出輕量級狀態寫入防御StateGuard，在長期狀態真正持久化前審計diff，并回滾危險修改。實驗表明，它可以在多個Agent backbone上將HS降至接近0，且成本較低。

結語

個性化是Agent走向實用的關鍵一步，但個性化也意味著，模型不再只是回答當前問題，而是在不斷塑造一個關于用戶、工具和未來行為規則的長期狀態。

這讓Agent變得更有用，也讓它更容易被日常交互「養歪」。

研究表明，未來Agent安全不能只停留在prompt層面、輸出層面或單次任務層面。

真正關鍵的，是要監控那些會跨會話延續的東西：它記住了什么？它默認了什么？它是否正在把一次臨時授權變成長期規則？它是否正在悄悄改變未來的行為邊界？

當AI助手開始擁有長期記憶，安全問題也必須進入長期狀態時代。

作者與機構信息

該研究由香港理工大學、香港科技大學（廣州）的研究團隊共同完成。論文提出了個性化Agent中的非預期長期狀態投毒問題，并構建ULSPB基準與StateGuard防御框架，用于評估和緩解日常對話對Agent長期狀態造成的安全風險。

論文作者包括 Xiaoyu Xu、Minxin Du、Qipeng Xie、Haobin Ke、Qingqing Ye 和 Haibo Hu。通訊作者為 Haibo Hu 和 Minxin Du。

參考資料：

https://arxiv.org/abs/2605.06731

編輯：LRST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.