![]()
Agent 時代,隱私保護必須前置到模型層。
端云 Agent 這兩周有點熱鬧。
4 月 22 號,OpenAI 放出了 openai/privacy-filter,一個專門給 LLM 做隱私過濾的小模型;三周后的 5 月 12 日,一家叫記憶張量MemTensor的公司和榮耀AI團隊關于隱私過濾的模型也在同期開源,并且一次性放出了兩個大小的模型和對應的技術報告,并且從系統性能上看,占據了絕對的優勢。
![]()
聽起來有些巧合,實則兩家團隊從不同方向到達了同一個判斷:Agent 時代,隱私保護必須前置到模型層。
OpenAI 在這件事上動作很早,privacy-filter的出現,意味著行業頭部玩家已經把「LLM 隱私過濾」當作一個獨立的基礎設施在做。MemPrivacy 想回答的也是同一個問題——當 Agent 擁有長期記憶,隱私過濾應該被放在哪一層、用什么粒度去做。
在此之前,記憶張量 MemTensor 已經推出 MemOS,把 Agent 記憶從向量庫或 RAG 插件,提升為可管理、可調度、可演化的「記憶操作系統」,業務已經在游戲、端側智能硬件、金融、工業等場景落地。而MemPrivacy 更像是 MemOS 往端云協同場景自然長出的隱私層——當一個系統已經在多個場景里跑過“記憶的進與出”,再做“哪些進、哪些不進”就是必然的下一步。
從系統性能以及多個測評集表現上來看,MemPrivacy占據了絕對的優勢。
![]()
圖:MemPrivacy 登頂Huggingface Daily Paper 的日榜和周榜第一
在當下,二者都面臨同一個問題:要不要攔截用戶隱私數據進入云端?
如果什么都不攔,用戶的健康數據、家庭住址、賬號憑證、財務信息會跟著記憶一起進入云端;如果全部打碼,云端模型又像拿到了一張被涂黑的病歷單,只知道“這里有隱私”,但不知道這段話到底在說血壓、郵箱、密碼,還是一條項目機密。
MemPrivacy 和OpenAI一樣,想解決的,就是這個“兩頭都難受”的問題:隱私數據留在本地,語義信息還能被云端 Agent 讀懂。
01
隱私過濾不是“打碼”,Agent 需要看懂語義
傳統隱私保護最常見的做法,是把敏感內容抹掉。
手機號?打碼。
地址?打碼。
血壓、API Key、身份證號?繼續打碼。
這類方法在日志脫敏里能用,但放到 Agent 記憶系統里就麻煩了。Agent 不是只負責“別泄露”,它還要理解上下文、形成記憶、調用工具、給出個性化回復。舉個例子。
用戶說:
我的血壓今天是 160/110,幫我記一下,之后提醒我關注。
如果系統直接把它變成:
我的 *** 今天是 *** ,幫我記一下。
云端模型看到這句話,基本只剩一個空殼。它不知道這是健康指標,也不知道這和后續提醒、風險判斷、健康建議有什么關系。
MemPrivacy 的處理方式更像“給敏感信息換一張本地身份證”。
它會在端側把原文替換成類似:
我的血壓今天是 ,幫我記一下。
真實數值 160/110 留在本地,云端只看到語義類型化的占位符。云端仍然能判斷:這是一條健康相關記憶,需要在后續對話中保持上下文;但它看不到具體數值。
這一步看起來只是替換符號,實際改變了整個隱私保護的姿態。
不是“把信息刪掉”,而是“把明文鎖在本地,把語義留給模型”。
02
MemPrivacy 怎么做:明文不出端
記憶張量MemTensor 團隊提出的 MemPrivacy,核心思路叫做:本地可逆偽匿名化。
它不是把隱私信息簡單刪除,也不是替換成無意義的星號,而是在端側完成一次更精細的「偷梁換柱」。
![]()
核心流程分成三步:
2.1 端側上行脫敏
用戶在手機、PC 等端側設備上和 Agent 對話時,MemPrivacy 模型會先在本地掃描文本,識別其中的隱私片段。
觸發保護閾值后,系統不會把真實內容直接發給云端,而是替換成語義類型化占位符,并把“真實值 ? 占位符”的映射關系保存在本地數據庫里。
打個比方,就是快遞盒上的姓名電話不直接寄出去,外面只貼一個只有本地系統認識的編號。快遞系統知道這是“收件人信息”,但不知道真實手機號是多少。
2.2 云端安全處理
云端大模型收到的不是原始隱私,而是已經脫敏后的文本。
比如:
我的血壓今天是 。
云端看不到真實血壓值,但能保留句子的結構、任務意圖和語義類型。它仍然可以圍繞“健康指標偏高”“需要提醒”“與用戶長期健康記憶相關”做推理。
這比 *** 的優勢很直接:*** 只告訴模型“這里沒了”, 告訴模型“這里是健康信息,但明文不給你”。
2.3 端側下行恢復
云端生成回復后,文本再回到本地。
如果回復里包含 ,端側系統會根據本地映射表把它還原成真實內容,最終展示給用戶。
對用戶來說,體驗是連續的:Agent 仍然像記得完整信息一樣回復;對云端來說,敏感明文從頭到尾沒有出現。
03
三種策略對比:無保護、完全過濾、MemPrivacy
在端云 Agent 場景里,隱私保護通常會落到三種策略上。
![]()
第一種:無保護
用戶原始數據直接上云。云端模型可以完整理解上下文,個性化效果最好,但健康數據、私人郵箱、家庭住址、賬號憑證等敏感信息也會完整暴露。
在數據合規越來越嚴格的今天,這幾乎是在走鋼絲。
第二種:完全過濾
所有隱私內容都被替換成 *** 或直接刪除。看起來很安全,但代價是 Agent 徹底失去關鍵語義。用戶想讓它記住健康狀況、財務約束、工作上下文,它卻只能看到一片空白。
這類 Agent 看似安全,實際上已經喪失了「長期個性化」的基礎。
MemPrivacy 選擇的是第三條路:細粒度類型化占位符
云端不知道你的真實血壓是多少,但知道這是一個健康指標;不知道你的私人郵箱是什么,但知道這里有一個郵箱;不知道你的 API Key 明文,但知道這里是一個高危憑證。
這種設計保住了兩個東西:一是隱私邊界,二是語義結構。
也正因如此,MemPrivacy 才有機會在隱私保護和 Agent 效用之間取得平衡。
04
四級隱私分層:不是所有個人信息都該一刀切
MemPrivacy 把隱私分成 PL1 到 PL4 四個層級。
![]()
4.1 PL4:致命核心級
這一層是最高風險信息。
包括明文密碼、驗證碼、Session/Cookie 令牌、API Key、內部商業機密等。一旦泄露,可能導致賬號接管、資金盜刷、系統越權或數據大規模暴露。這類信息不適合進入云端上下文。
4.2 PL3:高危敏感級
這一層不一定能單獨定位一個人,但被濫用后可能造成健康、財產、安全或聲譽損害。
比如詳細醫療診斷、生理指標、精準軌跡定位、生物特征、敏感消費記錄等。
血壓 160/110 就屬于這類更深層的敏感信息。它不是郵箱電話那種傳統 PII,但在 Agent 長期記憶里,風險并不低。
4.3 PL2:身份錨定級
PL2 主要是能直接或間接定位到個人的信息。
真實姓名、詳細收貨地址、手機號、私人郵箱、IP 地址、社交賬號等,都屬于這一層。
還有一些組合信息也需要保護,比如“公司 + 職位 + 姓名”。單看每個字段可能不敏感,合起來就能把人錨定出來。
4.4 PL1:基礎畫像級
PL1 是低風險、但對個性化很有價值的信息。
比如:
我每天早上 6 點跑步。
我喜歡看科幻片。
我偏好簡潔一點的回復風格。
這類信息通常不需要脫敏。因為它們構成了 Agent 個性化體驗的基礎,又不會直接造成嚴重隱私風險。
這套分層設計的意義在于——它讓隱私保護不再是一刀切。
同樣是消費記錄,「在超市花了 86 塊錢」可能只是日常偏好;但某筆帶有明確醫療屬性的消費,則可能進入 PL3。
同樣是數字,有些只是普通計數,有些卻是血壓、身份證號、驗證碼或 API Key。
這套分層的好處是,系統不再用“隱私 / 非隱私”二分法做判斷,而是能根據風險等級采用不同策略。
05
OpenAI privacy-filter 的問題:8 個粗粒度標簽不夠 Agent 用
Open AI 的 privacy-filter 使用 1.5B 參數、50M 激活參數的雙向 Token 分類架構,支持 128k 上下文,目標是高吞吐量的 PII 檢測與掩碼。
Open AI 的思路是:掃描文本,找出 8 類基礎隱私信息,再替換成預設語義標簽。
比如把人名替換成 [PRIVATE_PERSON]。
這個方案比純 *** 更進一步,但放到長期記憶 Agent 里,顆粒度還是偏粗。
5.1 同一個標簽里塞了太多東西
銀行卡號、社保編號、項目檔案號,可能都被歸到類似 [ACCOUNT_NUMBER] 的粗粒度標簽下。登錄密碼、數據庫憑證、API Key,也可能被壓進同一個 [SECRET]。
對普通脫敏來說,這樣也許夠用。對 Agent 來說,差別很大。
API Key 可能觸發工具調用安全策略,登錄密碼需要絕對阻斷,項目檔案號可能和企業知識庫檢索有關。它們不能都變成同一種“秘密”。
5.2 復雜上下文隱私容易漏
真實對話里的隱私不只有姓名、郵箱、電話。
“我的血壓今天是 160/110”不是傳統意義上的賬號標識符,但它顯然是健康隱私。只靠少量固定標簽,很容易漏掉這類上下文相關的信息。
漏掉,隱私裸奔。
錯判,Agent 失憶。
這就是粗粒度過濾在 Agent 記憶場景里的核心矛盾。
06
評測結果:準確率超過 OpenAI,系統效用幾乎不損失
記憶張量MemTensor 團隊聯合榮耀終端、同濟大學完成構建了 MemPrivacy-Bench:覆蓋 200 個用戶的對話歷史,包含超過 15.5 萬個隱私項,支持中英雙語隱私信息檢測。
同時,團隊還在 PersonaMem-v2 上做了分布外測試,用來觀察模型在陌生場景下的泛化能力。
6.1 隱私提取準確率
在隱私文本、隱私級別、隱私類型的綜合 F1 指標上,得到的結果是:
![]()
遠超 OpenAI 專項模型:
在 MemPrivacy-Bench 上,OpenAI privacy-filter 的綜合 F1 分數只有 35.50%。 而 MemPrivacy-4B-RL 達到了 85.97%,兩者差距高達50.47%!即使是在跨分布的 PersonaMem-v2 數據集上,MemPrivacy 依然領先 OpenAI 近 9%。
越級挑戰通用大模型:
即使面對參數量極其龐大的最強通用模型 GPT-5.2、Gemini-3.1-Pro 以及 DeepSeek-V3.2-Think,MemPrivacy-4B 乃至僅有 0.6B 的微型版本在兩個數據集上均實現了碾壓。
這說明,隱私提取不是簡單堆大參數就能解決的問題。真正重要的不是模型有多大,而是它是否理解「什么信息該被保護、該保護到什么程度、保護后還能不能繼續被 Agent 使用」。
6.2 系統效用損失
隱私保護還有一個更現實的問題:保護之后,Agent 會不會變笨?
團隊在幾個主流記憶系統平臺上做了端到端測試,底座統一采用 GPT-4.1。
![]()
實驗結果如下:
當采用傳統的不可逆掩碼(Irreversible Masking)時,三大記憶系統的準確率分別暴跌了 26.67%、41.87% 和 16.99%,模型幾乎處于失憶狀態。
而在 MemPrivacy 保護下(最高防御級別 PL4+PL3+PL2 全開),系統效用損失被死死控制在 0.71% ~ 1.60% 之間。如果用戶僅選擇保護最高風險的憑證級隱私(PL4),準確率下降甚至不到 0.89%。
這意味著,MemPrivacy 真正做到了在不傷害智能體智商的前提下,把隱私泄漏風險降到了最低。
07
為什么 MemPrivacy 更適合端云 Agent
MemPrivacy 背后有兩塊關鍵建設:分類體系和訓練策略。
7.1 從“有沒有隱私”變成“隱私風險有多高”
傳統過濾系統往往只判斷:
這是隱私嗎?是 / 否。
MemPrivacy 的四級分類讓系統可以繼續問:
這類隱私有多危險?該不該上云?是否需要替換?替換成什么語義類型?
這對 Agent 很重要。
因為 Agent 要處理的不是靜態文本,而是連續任務。一個收貨地址、一個健康指標、一段 API Key、一條興趣偏好,在長期記憶里承擔的作用完全不同。
把它們放進同一個“隱私”桶里,系統很難既安全又好用。
7.2 用訓練讓模型學會隱私邊界
原文中提到,MemPrivacy 使用 Qwen3 系列作為模型基座,覆蓋 0.6B、1.7B、4B 多個規格。訓練分兩步:
使用 26K 高質量多輪對話數據做 SFT,讓模型具備基礎隱私定位與替換能力;
引入 GRPO 強化學習,通過輸出組相對比較和結構化 F1 Reward,優化細粒度隱私邊界上的召回率與精確率。
換句話說,SFT 是先教模型“哪些地方像隱私”;GRPO 再繼續訓練它“哪些邊界不能亂判”。
醫療指標、憑證、地址、偏好、身份組合,這些信息經常混在真實對話里。模型不只要找得出來,還要分得清楚。
![]()
回到開頭那個判斷——OpenAI 搶先一步把隱私過濾前置為一項獨立能力,記憶張量 MemTensor 在同一時間窗里給出了更貼近 Agent 記憶場景的工程化答案。兩家團隊在不同坐標系里,看到了同一個方向。
在萬物皆可Agent的未來,大模型比你更懂你自己是必然趨勢,但比你更懂你,不代表讓云端看光你。
而MemPrivacy,則為下一代云邊協同架構(Edge-Cloud Agents)提供了一套直接可用、高精度、低損耗的標桿級工程解法。無論是對于開發個人AlI助理的AI Builders,還是對于需要滿足嚴苛數據合規(如GDPR)的企業級出海應用,MemPrivacy都展現出了不可估量的商業與技術價值。
對端云Agent來說,"可記憶"之后,"可安全記憶"正在成為下一階段真正的基礎設施問題。
目前,MemPrivacy的模型權重與評測基準已全部開源。隱私與長期記憶之間那道過去幾乎無法兼得的墻,也第一次開始出現了被打通的可能。開源信息
開源信息:
相關鏈接如下:
論文題目:MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents
論文地址:https://arxiv.org/pdf/2605.09530
代碼倉庫:https://github.com/MemTensor/MemPrivacy
模型倉庫:https://huggingface.co/collections/IAAR-Shanghai/memprivacy
魔塔社區:https://modelscope.cn/collections/MemTensor/MemPrivacy
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.