![]()
近日,來自英國南安普頓大學(University of Southampton)和廣州大學的研究者團隊提出 SlaClip,一種用于差分隱私隨機梯度下降(DP-SGD)[1] 的自適應梯度剪裁方法。該工作 “SlaClip: Gradient Norm Slacks can be Indicator for Adaptive Clipping in DP-SGD” 被 ICML 2026 接收為 Spotlight。
![]()
- 論文標題:SlaClip: Gradient Norm Slacks can be Indicator for Adaptive Clipping in DP-SGD
- 代碼鏈接:https://github.com/ZsyRock/SlaClip
- 關鍵詞:Differential Privacy, DP-SGD, Gradient Clipping, Adaptive Clipping
為了介紹 SlaClip,我們先講解傳統的 DP-SGD 以及現有的經典自適應剪裁閾值的方法。
傳統 DP-SGD 與自適應剪裁閾值方法
DP-SGD 是深度學習中實現差分隱私訓練的經典方法。它通過 “逐樣本梯度剪裁 + 高斯噪聲” 的方式限制單個樣本對模型更新的影響。DP-SGD 的基本流程可以概括為三步,如下所示:
![]()
![]()
![]()
為了解決固定剪裁閾值的局限,已有研究 Adap-Clip [2] 提出了一個自適應剪裁閾值的方法,其思路是追蹤當前批量中未發生剪裁的梯度占比,并將剪裁閾值調向一個固定目標比例,例如 50%,這類自適應裁剪思想也已經進入主流差分隱私訓練工具鏈,例如 Meta 的 PyTorch Opacus 和 Google 生態中的 TensorFlow Privacy。
![]()
這一思路直觀有效,但在差分隱私訓練中會帶來兩個問題:
- 第一,估計當前批量中未剪裁比例通常需要額外的隱私評估。這將消耗更多隱私預算或者加入更強的噪聲。
- 第二,固定的目標未剪裁比例并不一定總是合適。由于梯度范數分布會發生變化,在訓練后期出現的大量小范數梯度對聚合更新的貢獻可能很小,甚至容易被 DP 噪聲淹沒。機械地維持固定未剪裁比例,剪裁閾值可能會持續下降。
這引出了 SlaClip 試圖回答的問題:能否在不引入額外隱私查詢的情況下,獲得類似梯度范數分布信息,用于自適應調節剪裁閾值?
SlaClip 的核心觀察:剪裁的 “slack” 不是無用信息
![]()
![]()
![]()
![]()
在這種設計下,SlaClip 不需要額外的隱私消耗,就能獲得關于梯度范數分布的有用反饋信號。
Slack Indicator 得到的到底是什么信息?
經過聚合、高斯噪聲和歸一化后,SlaClip 得到的 Slack Indicator 可以被理解為一個帶噪聲的、分箱的累積分布函數(cumulative distribution function, CDF)估計,如下所示。
![]()
換句話說,Slack Indicator 不只是告訴我們 “有多少梯度被剪裁”,而是提供了更細粒度的分布信息:哪些梯度接近當前閾值,哪些梯度集中在較小范數區域。
其中,靠近閾值的坐標可以提供類似未剪裁比例的反饋,功能上接近 Adap-Clip 所使用的剪裁 / 未剪裁統計。SlaClip 還額外利用 CDF 中靠近零的坐標來估計小梯度比例,來動態調節目標未剪裁比例,使剪裁閾值更新更符合當前訓練階段的梯度分布。這個過程在整個訓練過程中持續,如下圖所示,從而可以實時地動態調節剪裁比例。
![]()
因此,SlaClip 同時克服了上文提到的現有 adaptive clipping 方法中的兩個問題:(I) SlaClip 無需額外的隱私評估,獲得更豐富的 CDF 信息; (II) SlaClip 動態調節了未剪裁比例,避免了訓練后期的剪裁閾值不斷下降的問題。
實驗設計:相同參數池下的公平比較
為了比較不同剪裁方法,論文采用了匹配相同隱私預算下的公平調參協議對比實驗,對每個方法、數據集和隱私預算都在相同的超參數池中進行網格搜索(grid search)。實驗結果表明,SlaClip 在多個數據集和隱私預算設置下取得了有競爭力的結果,經常達到最佳或第二好的差分隱私訓練準確率。
![]()
![]()
![]()
![]()
相比之下,一些傳統自適應剪裁閾值方法的高精度區域更加集中,對學習率和初始閾值的組合更敏感。這說明 SlaClip 的 Slack Indicator 能夠在一定程度上緩解初始剪裁閾值選擇帶來的不穩定性。
總結
總體而言,SlaClip 的特點可以概括為三點:
- 第一,SlaClip 不引入額外隱私查詢;
- 第二,SlaClip 是 “即插即用” 的方法,并且額外計算開銷較低;
- 第三,SlaClip 提供了比單一剪裁 / 未剪裁統計更豐富的信息。
作者簡介
本文由英國南安普頓大學與廣州大學合作完成,第一作者為英國南安普頓大學計算機學院博士生 Shuyan Zou。通訊作者為南安普頓大學助理教授 Han Wu 與廣州大學王紹蔚副教授。論文核心成員包括來自英國南安普頓大學的 Vladimiro Sassone 教授和 Zhanxing Zhu 副教授,以及廣州大學的董長宇教授和李進教授。相關團隊長期從事人工智能與網絡安全交叉方向研究,重點關注隱私保護機器學習、差分隱私優化、可信 AI 訓練機制以及大模型安全等方向。
[1] Abadi, Martin, et al. "Deep learning with differential privacy." CCS 2016.
[2] Andrew, G., Thakkar, O., McMahan, B., & Ramaswamy, S.(2021). Differentially private learning with adaptive clipping. Advances in neural information processing systems, 34, 17455-17466.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.