OpenAI推出一款可定制化隱私保護工具"OpenAI Privacy Filter",能夠自動識別并屏蔽文本中的個人身份信息,同時適用于AI模型訓練數據的清洗處理。
該模型周三正式發布,可識別姓名、日期、賬戶號碼、信用卡號及電子郵件地址等敏感信息,用戶還可根據自身需求和隱私政策對其進行微調。
Privacy Filter最關鍵的特性在于支持本地運行。待處理的敏感數據無需上傳至服務器,可直接在設備端完成脫敏,從而降低數據在傳輸過程中的暴露風險。
此次發布被OpenAI定位為"構建更具韌性的軟件生態系統"的一部分,其戰略意圖指向AI開發工具鏈的底層基礎設施。該模型現已在Hugging Face和GitHub上以Apache 2.0許可證開源發布,支持商業部署與二次微調。
OpenAI官網展示的屏蔽效果如下,輸出文本相較于輸入文本隱去了私人信息:
![]()
功能定位:處理非結構化文本中的敏感數據
OpenAI Privacy Filter所針對的是如何有效清洗文本數據中的個人隱私信息。隨著企業對AI合規使用的要求日趨嚴格,此類工具的市場需求正持續上升。
在檢測類別上,Privacy Filter覆蓋八類標簽:私人姓名、私人地址、私人郵箱、私人電話、私人URL、私人日期、賬號信息以及密鑰/密碼。
與傳統基于規則的PII檢測工具相比,Privacy Filter的核心差異在于上下文感知能力。傳統工具依賴固定格式匹配(如電話號碼、郵箱格式),難以處理語義模糊或依賴上下文的隱私判斷。
Privacy Filter依托預訓練語言模型的語言先驗,能夠區分屬于公眾信息的實體與涉及私人個體的信息,從而在"該屏蔽什么"的判斷上更為精細。
同時OpenAI GTM 團隊成員特別提到該模型支持本地運行,待處理的敏感數據無需上傳至服務器,可直接在設備端完成脫敏,從而降低數據在傳輸過程中的暴露風險。
![]()
不過,OpenAI在模型說明中明確指出了若干重要局限。Privacy Filter并非匿名化工具,也不等同于合規認證,無法替代高風險場景下的人工政策審核。在法律、醫療、金融等高敏感領域,仍需人工復核與領域專屬評估。
開源策略:從產品競爭轉向生態布局
此次發布與OpenAI過去數月持續加大開源力度的路徑一致,反映出其在商業模式上的多維布局。一方面通過API和ChatGPT等產品直接變現,另一方面通過開放模型和工具鞏固開發者生態。
Privacy Filter以Apache 2.0許可證發布,允許免費商業使用和修改,許可條款相對寬松。
OpenAI同步公開了模型架構、標簽體系、解碼控制機制、評估方案及已知局限等技術文檔,以便開發者團隊充分了解模型的能力邊界。
OpenAI表示,此次發布為預覽版,目的是收集研究社區和隱私領域從業者的反饋,并在此基礎上進一步迭代模型性能。
其長期愿景是使隱私保護基礎設施"更易于檢查、運行、適配和改進",并將Privacy Filter定位為"AI系統應學習世界知識,而非學習私人個體信息"這一原則的技術實踐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.