網易首頁 > 網易號 > 正文申請入駐

OpenAI 已經開始卷隱私模型了？國內團隊同期發布

2026-05-15 17:48:33　來源: AI科技評論

廣東舉報

分享至

Agent 時代，隱私保護必須前置到模型層。

端云 Agent 這兩周有點熱鬧。

4 月 22 號，OpenAI 放出了 openai/privacy-filter，一個專門給 LLM 做隱私過濾的小模型；三周后的 5 月 12 日，一家叫記憶張量MemTensor的公司和榮耀AI團隊關于隱私過濾的模型也在同期開源，并且一次性放出了兩個大小的模型和對應的技術報告，并且從系統性能上看，占據了絕對的優勢。

聽起來有些巧合，實則兩家團隊從不同方向到達了同一個判斷：Agent 時代，隱私保護必須前置到模型層。

OpenAI 在這件事上動作很早，privacy-filter的出現，意味著行業頭部玩家已經把「LLM 隱私過濾」當作一個獨立的基礎設施在做。MemPrivacy 想回答的也是同一個問題——當 Agent 擁有長期記憶，隱私過濾應該被放在哪一層、用什么粒度去做。

在此之前，記憶張量 MemTensor 已經推出 MemOS，把 Agent 記憶從向量庫或 RAG 插件，提升為可管理、可調度、可演化的「記憶操作系統」，業務已經在游戲、端側智能硬件、金融、工業等場景落地。而MemPrivacy 更像是 MemOS 往端云協同場景自然長出的隱私層——當一個系統已經在多個場景里跑過“記憶的進與出”，再做“哪些進、哪些不進”就是必然的下一步。

從系統性能以及多個測評集表現上來看，MemPrivacy占據了絕對的優勢。

圖：MemPrivacy 登頂Huggingface Daily Paper 的日榜和周榜第一

在當下，二者都面臨同一個問題：要不要攔截用戶隱私數據進入云端？

如果什么都不攔，用戶的健康數據、家庭住址、賬號憑證、財務信息會跟著記憶一起進入云端；如果全部打碼，云端模型又像拿到了一張被涂黑的病歷單，只知道“這里有隱私”，但不知道這段話到底在說血壓、郵箱、密碼，還是一條項目機密。

MemPrivacy 和OpenAI一樣，想解決的，就是這個“兩頭都難受”的問題：隱私數據留在本地，語義信息還能被云端 Agent 讀懂。

隱私過濾不是“打碼”，Agent 需要看懂語義

傳統隱私保護最常見的做法，是把敏感內容抹掉。

手機號？打碼。

地址？打碼。

血壓、API Key、身份證號？繼續打碼。

這類方法在日志脫敏里能用，但放到 Agent 記憶系統里就麻煩了。Agent 不是只負責“別泄露”，它還要理解上下文、形成記憶、調用工具、給出個性化回復。舉個例子。

用戶說：

我的血壓今天是 160/110，幫我記一下，之后提醒我關注。

如果系統直接把它變成：

我的 *** 今天是 *** ，幫我記一下。

云端模型看到這句話，基本只剩一個空殼。它不知道這是健康指標，也不知道這和后續提醒、風險判斷、健康建議有什么關系。

MemPrivacy 的處理方式更像“給敏感信息換一張本地身份證”。

它會在端側把原文替換成類似：

我的血壓今天是，幫我記一下。

真實數值 160/110 留在本地，云端只看到語義類型化的占位符。云端仍然能判斷：這是一條健康相關記憶，需要在后續對話中保持上下文；但它看不到具體數值。

這一步看起來只是替換符號，實際改變了整個隱私保護的姿態。

不是“把信息刪掉”，而是“把明文鎖在本地，把語義留給模型”。

MemPrivacy 怎么做：明文不出端

記憶張量MemTensor 團隊提出的 MemPrivacy，核心思路叫做：本地可逆偽匿名化。

它不是把隱私信息簡單刪除，也不是替換成無意義的星號，而是在端側完成一次更精細的「偷梁換柱」。

核心流程分成三步：

2.1 端側上行脫敏

用戶在手機、PC 等端側設備上和 Agent 對話時，MemPrivacy 模型會先在本地掃描文本，識別其中的隱私片段。

觸發保護閾值后，系統不會把真實內容直接發給云端，而是替換成語義類型化占位符，并把“真實值 ? 占位符”的映射關系保存在本地數據庫里。

打個比方，就是快遞盒上的姓名電話不直接寄出去，外面只貼一個只有本地系統認識的編號。快遞系統知道這是“收件人信息”，但不知道真實手機號是多少。

2.2 云端安全處理

云端大模型收到的不是原始隱私，而是已經脫敏后的文本。

比如：

我的血壓今天是。

云端看不到真實血壓值，但能保留句子的結構、任務意圖和語義類型。它仍然可以圍繞“健康指標偏高”“需要提醒”“與用戶長期健康記憶相關”做推理。

這比 *** 的優勢很直接：*** 只告訴模型“這里沒了”，告訴模型“這里是健康信息，但明文不給你”。

2.3 端側下行恢復

云端生成回復后，文本再回到本地。

如果回復里包含，端側系統會根據本地映射表把它還原成真實內容，最終展示給用戶。

對用戶來說，體驗是連續的：Agent 仍然像記得完整信息一樣回復；對云端來說，敏感明文從頭到尾沒有出現。

三種策略對比：無保護、完全過濾、MemPrivacy

在端云 Agent 場景里，隱私保護通常會落到三種策略上。

第一種：無保護

用戶原始數據直接上云。云端模型可以完整理解上下文，個性化效果最好，但健康數據、私人郵箱、家庭住址、賬號憑證等敏感信息也會完整暴露。

在數據合規越來越嚴格的今天，這幾乎是在走鋼絲。

第二種：完全過濾

所有隱私內容都被替換成 *** 或直接刪除。看起來很安全，但代價是 Agent 徹底失去關鍵語義。用戶想讓它記住健康狀況、財務約束、工作上下文，它卻只能看到一片空白。

這類 Agent 看似安全，實際上已經喪失了「長期個性化」的基礎。

MemPrivacy 選擇的是第三條路：細粒度類型化占位符

云端不知道你的真實血壓是多少，但知道這是一個健康指標；不知道你的私人郵箱是什么，但知道這里有一個郵箱；不知道你的 API Key 明文，但知道這里是一個高危憑證。

這種設計保住了兩個東西：一是隱私邊界，二是語義結構。

也正因如此，MemPrivacy 才有機會在隱私保護和 Agent 效用之間取得平衡。

四級隱私分層：不是所有個人信息都該一刀切

MemPrivacy 把隱私分成 PL1 到 PL4 四個層級。

4.1 PL4：致命核心級

這一層是最高風險信息。

包括明文密碼、驗證碼、Session/Cookie 令牌、API Key、內部商業機密等。一旦泄露，可能導致賬號接管、資金盜刷、系統越權或數據大規模暴露。這類信息不適合進入云端上下文。

4.2 PL3：高危敏感級

這一層不一定能單獨定位一個人，但被濫用后可能造成健康、財產、安全或聲譽損害。

比如詳細醫療診斷、生理指標、精準軌跡定位、生物特征、敏感消費記錄等。

血壓 160/110 就屬于這類更深層的敏感信息。它不是郵箱電話那種傳統 PII，但在 Agent 長期記憶里，風險并不低。

4.3 PL2：身份錨定級

PL2 主要是能直接或間接定位到個人的信息。

真實姓名、詳細收貨地址、手機號、私人郵箱、IP 地址、社交賬號等，都屬于這一層。

還有一些組合信息也需要保護，比如“公司 + 職位 + 姓名”。單看每個字段可能不敏感，合起來就能把人錨定出來。

4.4 PL1：基礎畫像級

PL1 是低風險、但對個性化很有價值的信息。

比如：

我每天早上 6 點跑步。

我喜歡看科幻片。

我偏好簡潔一點的回復風格。

這類信息通常不需要脫敏。因為它們構成了 Agent 個性化體驗的基礎，又不會直接造成嚴重隱私風險。

這套分層設計的意義在于——它讓隱私保護不再是一刀切。

同樣是消費記錄，「在超市花了 86 塊錢」可能只是日常偏好；但某筆帶有明確醫療屬性的消費，則可能進入 PL3。

同樣是數字，有些只是普通計數，有些卻是血壓、身份證號、驗證碼或 API Key。

這套分層的好處是，系統不再用“隱私 / 非隱私”二分法做判斷，而是能根據風險等級采用不同策略。

OpenAI privacy-filter 的問題：8 個粗粒度標簽不夠 Agent 用

Open AI 的 privacy-filter 使用 1.5B 參數、50M 激活參數的雙向 Token 分類架構，支持 128k 上下文，目標是高吞吐量的 PII 檢測與掩碼。

Open AI 的思路是：掃描文本，找出 8 類基礎隱私信息，再替換成預設語義標簽。

比如把人名替換成 [PRIVATE_PERSON]。

這個方案比純 *** 更進一步，但放到長期記憶 Agent 里，顆粒度還是偏粗。

5.1 同一個標簽里塞了太多東西

銀行卡號、社保編號、項目檔案號，可能都被歸到類似 [ACCOUNT_NUMBER] 的粗粒度標簽下。登錄密碼、數據庫憑證、API Key，也可能被壓進同一個 [SECRET]。

對普通脫敏來說，這樣也許夠用。對 Agent 來說，差別很大。

API Key 可能觸發工具調用安全策略，登錄密碼需要絕對阻斷，項目檔案號可能和企業知識庫檢索有關。它們不能都變成同一種“秘密”。

5.2 復雜上下文隱私容易漏

真實對話里的隱私不只有姓名、郵箱、電話。

“我的血壓今天是 160/110”不是傳統意義上的賬號標識符，但它顯然是健康隱私。只靠少量固定標簽，很容易漏掉這類上下文相關的信息。

漏掉，隱私裸奔。

錯判，Agent 失憶。

這就是粗粒度過濾在 Agent 記憶場景里的核心矛盾。

評測結果：準確率超過 OpenAI，系統效用幾乎不損失

記憶張量MemTensor 團隊聯合榮耀終端、同濟大學完成構建了 MemPrivacy-Bench：覆蓋 200 個用戶的對話歷史，包含超過 15.5 萬個隱私項，支持中英雙語隱私信息檢測。

同時，團隊還在 PersonaMem-v2 上做了分布外測試，用來觀察模型在陌生場景下的泛化能力。

6.1 隱私提取準確率

在隱私文本、隱私級別、隱私類型的綜合 F1 指標上，得到的結果是：

遠超 OpenAI 專項模型：

在 MemPrivacy-Bench 上，OpenAI privacy-filter 的綜合 F1 分數只有 35.50%。而 MemPrivacy-4B-RL 達到了 85.97%，兩者差距高達50.47%！即使是在跨分布的 PersonaMem-v2 數據集上，MemPrivacy 依然領先 OpenAI 近 9%。

越級挑戰通用大模型：

即使面對參數量極其龐大的最強通用模型 GPT-5.2、Gemini-3.1-Pro 以及 DeepSeek-V3.2-Think，MemPrivacy-4B 乃至僅有 0.6B 的微型版本在兩個數據集上均實現了碾壓。

這說明，隱私提取不是簡單堆大參數就能解決的問題。真正重要的不是模型有多大，而是它是否理解「什么信息該被保護、該保護到什么程度、保護后還能不能繼續被 Agent 使用」。

6.2 系統效用損失

隱私保護還有一個更現實的問題：保護之后，Agent 會不會變笨？

團隊在幾個主流記憶系統平臺上做了端到端測試，底座統一采用 GPT-4.1。

實驗結果如下：

當采用傳統的不可逆掩碼（Irreversible Masking）時，三大記憶系統的準確率分別暴跌了 26.67%、41.87% 和 16.99%，模型幾乎處于失憶狀態。

而在 MemPrivacy 保護下（最高防御級別 PL4+PL3+PL2 全開），系統效用損失被死死控制在 0.71% ~ 1.60% 之間。如果用戶僅選擇保護最高風險的憑證級隱私（PL4），準確率下降甚至不到 0.89%。

這意味著，MemPrivacy 真正做到了在不傷害智能體智商的前提下，把隱私泄漏風險降到了最低。

為什么 MemPrivacy 更適合端云 Agent

MemPrivacy 背后有兩塊關鍵建設：分類體系和訓練策略。

7.1 從“有沒有隱私”變成“隱私風險有多高”

傳統過濾系統往往只判斷：

這是隱私嗎？是 / 否。

MemPrivacy 的四級分類讓系統可以繼續問：

這類隱私有多危險？該不該上云？是否需要替換？替換成什么語義類型？

這對 Agent 很重要。

因為 Agent 要處理的不是靜態文本，而是連續任務。一個收貨地址、一個健康指標、一段 API Key、一條興趣偏好，在長期記憶里承擔的作用完全不同。

把它們放進同一個“隱私”桶里，系統很難既安全又好用。

7.2 用訓練讓模型學會隱私邊界

原文中提到，MemPrivacy 使用 Qwen3 系列作為模型基座，覆蓋 0.6B、1.7B、4B 多個規格。訓練分兩步：

使用 26K 高質量多輪對話數據做 SFT，讓模型具備基礎隱私定位與替換能力；

引入 GRPO 強化學習，通過輸出組相對比較和結構化 F1 Reward，優化細粒度隱私邊界上的召回率與精確率。

換句話說，SFT 是先教模型“哪些地方像隱私”；GRPO 再繼續訓練它“哪些邊界不能亂判”。

醫療指標、憑證、地址、偏好、身份組合，這些信息經常混在真實對話里。模型不只要找得出來，還要分得清楚。

回到開頭那個判斷——OpenAI 搶先一步把隱私過濾前置為一項獨立能力，記憶張量 MemTensor 在同一時間窗里給出了更貼近 Agent 記憶場景的工程化答案。兩家團隊在不同坐標系里，看到了同一個方向。

在萬物皆可Agent的未來，大模型比你更懂你自己是必然趨勢，但比你更懂你，不代表讓云端看光你。

而MemPrivacy，則為下一代云邊協同架構(Edge-Cloud Agents)提供了一套直接可用、高精度、低損耗的標桿級工程解法。無論是對于開發個人AlI助理的AI Builders，還是對于需要滿足嚴苛數據合規(如GDPR)的企業級出海應用，MemPrivacy都展現出了不可估量的商業與技術價值。

對端云Agent來說，"可記憶"之后，"可安全記憶"正在成為下一階段真正的基礎設施問題。

目前，MemPrivacy的模型權重與評測基準已全部開源。隱私與長期記憶之間那道過去幾乎無法兼得的墻，也第一次開始出現了被打通的可能。開源信息

開源信息：

相關鏈接如下：

論文題目：MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

論文地址：https://arxiv.org/pdf/2605.09530

代碼倉庫：https://github.com/MemTensor/MemPrivacy

模型倉庫：https://huggingface.co/collections/IAAR-Shanghai/memprivacy
魔塔社區：https://modelscope.cn/collections/MemTensor/MemPrivacy

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.