無關(guān)問題也能劫持Agent，港科大&復(fù)旦提出首個語義緩存鍵碰撞攻擊

2026-06-14 19:51:30　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文第一作者張芝翔為復(fù)旦大學(xué)本科四年級學(xué)生，即將前往香港科技大學(xué)CSE系攻讀博士，研究方向?yàn)锳I Security&Trustworthy AI。通訊作者是香港科技大學(xué)佘東冬教授。

在當(dāng)前大語言模型（LLM）與 AI 智能體（AI Agent）風(fēng)頭正勁的當(dāng)下，如何降低高昂的推理成本和延遲成為了端側(cè)及云端部署的核心痛點(diǎn)。

為此，諸如 AWS、微軟（Azure）等云服務(wù)商以及各類開源框架，廣泛引入了語義緩存（Semantic Caching）的應(yīng)用層技術(shù)。通過將用戶的查詢語句轉(zhuǎn)化為嵌入向量（Embedding Vector）作為緩存鍵（Cache Key），系統(tǒng)能夠?qū)φZ義相似的請求直接命中并返回緩存結(jié)果，從而免去重復(fù)的 LLM 計(jì)算。

然而，這種為了追求效率而引入的「模糊匹配」機(jī)制，是否隱藏著致命的安全隱患？

來自香港科技大學(xué)與復(fù)旦大學(xué)的安全研究團(tuán)隊(duì)在機(jī)器學(xué)習(xí)國際頂級會議ICML 2026上發(fā)表了最新成果：《From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching》。

論文鏈接: https://arxiv.org/pdf/2601.23088

該研究系統(tǒng)性地剖析了語義緩存機(jī)制在完整性（Integrity）層面的固有漏洞，并提出了自動化黑盒攻擊框架 ——CacheAttack。實(shí)驗(yàn)表明，該攻擊在多租戶及智能體場景下，能夠以高達(dá) 86% 的成功率劫持 AI 系統(tǒng)的響應(yīng)。相關(guān)實(shí)驗(yàn)已覆蓋包括 AWS、微軟 Azure 在內(nèi)的多家主流云服務(wù)商。

圖 1: 語義緩存碰撞攻擊示意圖

研究背景：當(dāng)「近朱者赤」的語義相似性變成漏洞

以往針對 LLM 緩存系統(tǒng)的安全研究，大多集中在側(cè)信道攻擊以及隱私泄露（如通過推理延遲重建用戶的私密提示詞）。而本項(xiàng)工作則將目光投向了長期被忽略的完整性破壞（Integrity Compromise）。

研究團(tuán)隊(duì)敏銳地指出：語義緩存的匹配機(jī)制，在本質(zhì)上是一種「保留局部性」的模糊哈希（Locality-Preserving Fuzzy Hash）。

這帶來了一個根本性的設(shè)計(jì)悖論 ——性能（局部性）與安全（抗碰撞性）的天然沖突：

傳統(tǒng)密碼學(xué)哈希：追求「雪崩效應(yīng)（Avalanche Effect）」，即輸入改變一個比特，輸出哈希值就會發(fā)生天翻地覆的變化，從而獲得極強(qiáng)的抗碰撞能力。
語義緩存哈希：為了提升緩存命中率，故意抹殺了雪崩效應(yīng)，使得語義相似的輸入能夠映射到同一個向量空間區(qū)域（即同一個緩存鍵）。

這種天然的模糊性為攻擊者敞開了大門。攻擊者可以通過巧妙地設(shè)計(jì)對抗樣本（Adversarial Suffix），在保持惡意指令語義完全不變的前提下，讓其嵌入向量與受害者的良性查詢強(qiáng)行「對齊」。如圖 1 所示，當(dāng)受害者發(fā)送良性請求時，系統(tǒng)誤以為命中緩存，直接將攻擊者事先「埋好」的惡意響應(yīng)喂給受害者，從而實(shí)現(xiàn)了響應(yīng)劫持（Response Hijacking）。

團(tuán)隊(duì)還從理論層面為這種「性能與安全」的權(quán)衡（Trade-off）給出了嚴(yán)格的數(shù)學(xué)證明。研究通過形式化推導(dǎo)，揭示了語義緩存機(jī)制固有的誤報(bào)風(fēng)險下界（False-Positive Bound）：

技術(shù)核心：CacheAttack 框架如何撬動黑盒系統(tǒng)？

在實(shí)際生產(chǎn)環(huán)境中，語義緩存中間件對攻擊者而言通常是個完全的黑盒（不知道 Embedding 模型參數(shù)、向量表征及具體的相似度閾值）。為了克服這一挑戰(zhàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一個自動化的「生成器 - 校驗(yàn)器（Generator-Validator）」框架：

1. 離線生成器（Generator）

這里巧妙地引入了困惑度（PPL）懲罰項(xiàng)，確保生成的對抗提示詞不僅碰撞能力強(qiáng)，而且符合人類語言流暢度，從而能夠輕易繞過智能體的前置輸入過濾器。

2. 雙變體校驗(yàn)器（Validator）與時延側(cè)信道

因?yàn)闊o法直接讀取黑盒系統(tǒng)的緩存狀態(tài)，CacheAttack 創(chuàng)新性地將緩存驗(yàn)證建模為隱狀態(tài)推斷問題。系統(tǒng)利用執(zhí)行時延（Latency）作為側(cè)信道信號，通過構(gòu)建高斯混合模型（GMM）和最大后驗(yàn)概率（MAP）決策規(guī)則，動態(tài)排除網(wǎng)絡(luò)抖動干擾，精準(zhǔn)推斷是否發(fā)生緩存命中。

為了應(yīng)對不同強(qiáng)度的防御，研究團(tuán)隊(duì)提出了兩款攻擊變體：

CacheAttack-1（直接驗(yàn)證）：直接在目標(biāo)黑盒模型上高頻探測。雖然直觀，但由于缺乏顯式刷新緩存的權(quán)限，每次探測需要等待 TTL（生存時間）過期，且易被流量分析檢測。
CacheAttack-2（替代模型協(xié)助過濾）：這也是本工作的精髓所在。它將絕大部分的對抗迭代留給本地高吞吐的替代模型，只有當(dāng)候選后綴在本地成功觸發(fā)碰撞后，才向黑盒目標(biāo)系統(tǒng)發(fā)起單次驗(yàn)證。這徹底解耦了 TTL 限制，兼顧了隱蔽性與攻擊效率。

實(shí)驗(yàn)驗(yàn)證：主流云服務(wù)與智能體全線告急

研究團(tuán)隊(duì)在多個嚴(yán)苛場景下對 CacheAttack 進(jìn)行了評估，包含AWS、微軟（Azure）等云服務(wù)商。

在探討基礎(chǔ)響應(yīng)劫持能力的RQ1中，CacheAttack 展現(xiàn)出了驚人的黑盒穿透性。在主流語義緩存（Semantic Cache）GPTCache 上，CacheAttack-1 和 CacheAttack-2 分別取得了 86.9% 和 83.1% 的極高命中率（Hit Rate）。

而在探討復(fù)雜智能體工作流影響的RQ2中，該攻擊的表現(xiàn)更為致命：通過對工具調(diào)用鏈條進(jìn)行精準(zhǔn)的緩存碰撞，CacheAttack 成功誘導(dǎo) AI Agent 產(chǎn)生連鎖規(guī)劃錯誤并盲目調(diào)用惡意工具，導(dǎo)致智能體的工具選擇正確率和最終任務(wù)完成度呈斷崖式下跌。

案例：金融 Agent 慘遭「惡意洗劫」

為了讓大家更直觀地感受語義緩存碰撞的危害，研究團(tuán)隊(duì)在論文中展示了一個真實(shí)的金融智能體實(shí)戰(zhàn)案例（圖 2）：

正常狀態(tài)下：受害者詢問投資建議，金融 Agent 讀取新聞后給出保守策略：「市場穩(wěn)定，建議保持觀望」，不觸發(fā)任何交易工具。
遭受攻擊時（分為兩階段）

第一階段（埋雷）：攻擊者首先向系統(tǒng)發(fā)送一條關(guān)于「股票 A 暴跌」的惡意提示詞并附帶對抗后綴。系統(tǒng)照常運(yùn)行，并生成了對應(yīng)的強(qiáng)平清倉工具調(diào)用 set_order (Stock_A, 5000, SELL)，該結(jié)果被寫入共享語義緩存。
第二階段（引爆）：隨后，受害者發(fā)送了一個完全不同且毫無惡意的日常詢問：「請幫我看看最近的新聞，我的投資該怎么辦？」。由于對抗后綴的干擾，受害者請求的 Embedding 鍵直接與攻擊者的緩存鍵發(fā)生惡性碰撞。
后果：系統(tǒng)直接跳過 LLM 推理，無條件復(fù)用了攻擊者那條「賣出 5000 股股票 A」的緩存指令。受害者的賬戶在毫不知情的情況下被強(qiáng)制平倉，造成了實(shí)質(zhì)性的重大經(jīng)濟(jì)損失。

圖 2: 金融 agent 收到語義緩存鍵碰撞攻擊

結(jié)語與思考

效率與安全的零和博弈：語義緩存無法逃避的底層宿命

這項(xiàng)研究最深刻的貢獻(xiàn)，不僅在于提出了一個高效的攻擊框架，更在于它揭示了現(xiàn)階段 LLM Serving 架構(gòu)中一個無法調(diào)和的底層悖論（Inherent Trade-off）：

向左走（追求性能）：為了最大化緩存命中率、降低推理成本和 tail latency，系統(tǒng)必須放寬匹配邊界，采用強(qiáng)局部性（Locality）的模糊哈希。然而，邊界越寬松，留給攻擊者的 False-Positive（誤報(bào)碰撞）空間就越大。
向右走（追求安全）：如果為了抵御 CacheAttack 而強(qiáng)行收緊閾值，甚至退回精確 Token 匹配，或者像常規(guī)哈希那樣追求「雪崩效應(yīng)」，語義緩存便會名存實(shí)亡，失去其存在的商業(yè)與技術(shù)價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.