KangDe
1861 words
9 minutes
18-DeepLearning with Gaussian DIfferential Privacy

一、论文概述#

        本文是 fdpf-dp 的一个应用实例,利用 μGDP\mu-GDP 的高斯机制来代替以往 DP 训练中的 MomentAccountantMoment Accountant 或者 RenyiAccountantRenyi Accountant  这些组合方法,进而通过实验来分析 μGDP\mu-GDP 的优势。

        这篇笔记主要关注的点在于:

  • μGDP\mu-GDP  的运用流程和计算方式

  • μGDP\mu-GDP(ϵ,δ)DP(\epsilon,\delta)-DP 在表达隐私预算和更新隐私成本时的异同点、相互转化的可能性

  • μGDP\mu-GDP(ϵ,δ)DP(\epsilon,\delta)-DP 的效用差距,造成这些差距的分析方法

二、fDPf-DP 回顾#

        这一部分主要关注 f-dp 在实际的模型构件中,主要运用到了哪些性质和知识点。简单来说,主要包括了以下这几点:

  • fDPf-DP 定义的介绍: T(M(S),M(S))fT(M(S),M(S’))\geq f, 其中:T(P,Q)=infΦ{βΦ:αΦα}其中:T(P,Q)=inf_{\Phi}\{\beta_\Phi:\alpha_\Phi\leq \alpha\}

  • fDPf-DP(ϵ,δ)DP(\epsilon,\delta)-DP 的转化:fϵ,δ(α)=max0,1δeϵα,eϵ(1δα)f_{\epsilon,\delta}(\alpha)=max{0,1-\delta-e^\epsilon\alpha,e^{-\epsilon}(1-\delta-\alpha)}

  • μGDP\mu-GDP 高斯机制的引入:$G_\mu := T(N(0,1),N(\mu,1)),;;G_\mu(\alpha)=\Phi(\Phi^{-1}(1-\alpha)-\mu),;;

T(M(S),M(S’))\geq G_\mu$

  • μGDP\mu-GDP 添加高斯噪声:N(0,σ2),其中:σ=sens(θ)/μ,    with  sens(θ)=supS,Sθ(S)θ(S)N(0, \sigma^2),其中:\sigma=sens(\theta)/\mu,\;\; with \;sens(\theta)=sup_{S,S’}|\theta(S)-\theta(S’)|

  • 组合机制和中心极限定理:f1f2fTGμf_1 \otimes f_2…\otimes f_T \rightarrow G_\mu,其中 μ\mu 是由和权衡函数相关的一系列参数构成

  • 对称性和优化:权衡函数采用 min{fpfp1}min\{f_p\, f_p^{-1}\}**

三、算法和隐私分析#

3.1 Noisy SGD#

        令 θ\theta 表示神经网络的参数,l(θ,x)l(\theta,x) 是损失函数,tt 是迭代代数,ItI_t 是以概率 pp12n{1,2,…,n} 中抽取的最小的 batchbatch 数,规模为 pnpn。SGD算法有:

θt+1=θtηt1ItiItθl(θt,xi)\theta_{t+1}=\theta_t-\eta_t·\frac{1}{I_t}\sum_{i\in I_t}\nabla_\theta l(\theta_t,x_i)

        接下来对一些参数进行说明:

  • 算法的步骤中,首先要对梯度进行裁剪,然后再往裁剪的梯度上添加高斯噪声,相当于对更新后的迭代应用高斯机制。这个步骤将梯度的更新范围限定在了 R 以内,因而灵敏度为 R。

  • 添加的噪声为 σRN(0,I)\sigma R · N(0,I),根据高斯分布的性质,相当于 N(0,(σR)2I)N(0,(\sigma R)^2 I)。根据 上篇文章的 4-3 处的描述 ,机制 M 符合 。

  • noisySGD 符合 min{f,f1}DPmin\{f,f^{-1}\}^{**}-DP,其中 f=(pG1/σ+(1p)Id)Tf=(pG_{1/\sigma}+(1-p)Id)^{\otimes T}。经历 T 次迭代后,根据中心极限定理,我们可以用一个 μGDP\mu-GDP 来逼近它。也即:

f=(pG1/σ+(1p)Id)TGμf=(pG_{1/\sigma}+(1-p)Id)^{\otimes T}\rightarrow G_\mu
  • TT \rightarrow \infin 时,pTν,p\sqrt{T} \rightarrow \nu,  则 μ=νe1/σ21\mu = \nu\sqrt{e^{1/\sigma^2}-1},有:

    min{f,f1}min{Gμ,Gμ1}=Gμ=Gμmin\{f,f^{-1}\}^{**}\rightarrow min\{G_\mu,G\mu^{-1}\}^{**}=G_\mu^{**}=G_\mu
  • 根据 p=Bnp = \frac{B}{n},故最后:noisy-SGD 应该符合 BnT(e1/σ21)\frac{B}{n}\sqrt{T(e^{1/\sigma^2}-1)}

        算法如下所示:


Algorithm 1 NoisySGD


  • Input: Dataset  S={x1,,xn}S = \{ x_1,…,x_n \}, loss function  l{θ,x}l\{\theta, x\}

  • Parameters:

    - initial weights θ0\theta_0,

    - learning rate ηt\eta_t ,

    - subsampling probability p,

    - number of iterations T,

    - noise scale σ\sigma,

    - gradient norm bound R.

  • for t=0,,T1t = 0,…,T-1 do

    - Take a Poisson subsample It{1,,n}I_t \subset \{1,…,n\}  with subsampling probaility p

    - for iTti \in T_t do

        - νt(i)θl(θt,xi)\nu_t^{(i)} \leftarrow \nabla_\theta l(\theta_t,x_i)

        - νt(i)νti/max{1,νt(i)2/R}\overline{\nu}_t^{(i)} \leftarrow \nu _{t}^{i}/max\{ 1, ||\nu _t^{(i)}||_2/R \}

    - θt+1θtηt1It(iItνt(i)+σRN(0,I))\theta_{t+1}\leftarrow \theta_t-\eta_t·\frac{1}{|I_t|}(\sum_{i\in I_t}\overline{\nu}_t^{(i)}+\sigma R·N(0,I))

  • Output θT\theta_T

3.2 和 Moment Accountant 的比较#

        首先证明如下的引理:

        当 TT \rightarrow \infin 时,pTp\sqrt{T} 收敛于一个正常数,那么不论是 NoisySGD 还是 NoisyAdam,都符合:

limTsup(supϵ0fϵ,δMA(ϵ)(α)GμCLT(α))0\lim _{T\rightarrow \infin}\sup(\sup_{\epsilon \geq 0}f_{\epsilon, \delta_{MA}(\epsilon)}(\alpha)-G_{\mu_{CLT}}(\alpha))\leq0

        这里需要强调的一点是,在 (ϵ,δ)DP(\epsilon,\delta)-DP 的框架下,ϵ\epsilon 越小,那么隐私保护越强。但在 fdpf-dp 中相反, ff 越小,隐私保护越差。而在 μGDP\mu-GDP 中,μ\mu 越小,隐私保护越好。我们来看这样一张图: 算法比较

  • 实线部分为等效的 (ϵ,δ)DP(\epsilon,\delta)-DP 。可以看出,δ\delta 越小,横纵截距越小,整体的图像越靠近右上方,I 类错误固定时,II 类错误越大;而 ϵ\epsilon 关系到斜率,ϵ\epsilon 越小,斜率越缓,整体的图像越靠近右上方,I 类错误固定时,II 类错误越大;整体上,δ\deltaϵ\epsilon 越小,隐私保护水平越高。

  • fdpf-dp 框架下,f 越小,表示图像越靠近左下方,I 类错误固定时,II 类错误越小,体现就是隐私保护水平越差。

  • μGDP\mu-GDP 框架下,等效于 T(N(0,1),N(μ,1))T(N(0,1),N(\mu,1))μ\mu 越小,越难分辨,隐私保护水平越高。

        在上面的引理中涉及到了  (ϵ,δ)DP(\epsilon,\delta)-DPμGDP\mu-GDP。而对于 μGDP\mu-GDP,可以转化为对应的 (ϵ,δ(ϵ;μ))DP(\epsilon,\delta(\epsilon;\mu))-DP,其中:

δ(ϵ;μ)=1+Gμ(eϵ)=Φ(ϵμ+μ2)eϵΦ(ϵμμ2)\delta(\epsilon;\mu)=1+G_\mu^*(-e^\epsilon)=\Phi(-\frac{\epsilon}{\mu}+\frac{\mu}{2})-e^\epsilon\Phi(-\frac{\epsilon}{\mu}-\frac{\mu}{2})

        通过这个式子,我们可以把 μGDP\mu-GDP 转化为对应的 (ϵ,δ)DP(\epsilon,\delta)-DP,通过比较 ϵ\epsilonδ\delta 也就可以直观地比较隐私保护程度的大小了。

        一般来讲,我们有:

limTsup(δCLT(ϵ)δMA(ϵ))<0,  for  all  ϵ  >0limTsup(ϵCLT(δ)ϵMA(δ))<0,  for  ant  δ            \lim_{T\rightarrow \infin} sup(\delta_{CLT}(\epsilon)-\delta_{MA}(\epsilon))<0,\;for\;all\;\epsilon\;>0\\ \lim_{T\rightarrow \infin}sup(\epsilon_{CLT}(\delta)-\epsilon_{MA}(\delta))<0,\;for\;ant\;\delta \;\;\;\;\;\;

        当然,我们也可以反过来,通过上面的式子,给定 ϵ\epsilonδ\delta,求出对应的 μ\mu,从而在 μGDP\mu-GDP 的框架下进行比较。

四、相关的推理证明#

4.1 邻近数据集的分辨难度#

【论点】:如果机制 M 是 fDPf-DP, 并且 S=Sx0S‘ = S \cup {x_0},那么有:

T(M)Samplep(S),MSamplep(S))pf+(1p)IdT(M) \circ Sample_p(S),M\circ Sample_p(S'))\geq pf+(1-p)Id

【证明】:我们可以用一个向量 b=(b1,,bn){0,1}n\vec{b}=(b_1,…,b_n)\in \{0,1\}^n 来表示第 i 个数字是否被选中。根据这个向量的情况,给出从 S 中采样的子集 SbSS_{\vec{b}}\subset S。这里面每个 bib_i 都以概率 p 表示被选中,同时以 Sample(S)Sample(S) 表示 SbS_{\vec{b}}。我们用 θb\theta_{\vec{b}} 表示 b\vec{b}出现的概率。不失一般性,假设 b\vec{b}的 n 个规模中有 k 个为1,那么可以写成:θb= pk(1p)nk\theta_{\vec{b}} =  p^k(1-p)^{n-k}。这样,我们可以写出:

MSamplep(S)=b{0,1}nθbM(Sb)M \circ Sample_p(S)=\sum_{\vec{b}\in\{0,1\}^n}\theta_{\vec{b}}·M(S_{\vec{b}})

同理,对于其邻近的数据集  S=Sx0S' = S\cup x_0,可以写成一个混合的表达式,也即:包含了 x0x_0 和 不包含 x0x_0 的两种情况:

MSamplep(S)=b{0,1}npθbM(Sb{x)})+b{0,1}n(1p)θbM(Sb)M\circ Sample_p(S')=\sum_{\vec{b}\in \{0,1\}^n}p·\theta_{\vec{b}}·M(S_{\vec{b}}\cup\{x_)\})+\sum_{\vec{b}\{0,1\}^n}(1-p)·\theta_{\vec{b}}·M(S_{\vec{b}})

接下来我们借助一个引理,来证明该式子:

【引理】令 II  是一个索引集合。对于所有的 iIi \in I, PiP_iQiQ_i 是在同一个域的分布。(θi)iI(\theta_i)_{i\in I} 是一个非负数字的集合,和为1。如果 f 是一个 trade-off 函数,并且有 T(Pi,Qi)fT(P_i,Q_i)\geq f,那么:

T(θiPi,(1p)θiPi+pθiQi)pf+(1p)IdT(\sum \theta_iP_i,(1-p)\sum\theta_iP_i+p\sum\theta_iQ_i)\geq pf+(1-p)Id

如果该引理成立,那么自然令 b{0,1}n\vec{b}\in\{0,1\}^n, PiP_iM(Sb)M(S_{\vec{b}}), QiQ_iM(Sb{x0})M(S_{\vec{b}}\cup\{x_0\})T(Pi,Qi)fT(P_i,Q_i)\geq f 是 一系列的符合 fDPf-DP 的 M 机制,那么上述的引理自然就可以化为:

【引理的证明】令 P=θiPiP = \sum \theta_i P_iQ=(1p)θiPi+pθiQiQ=(1-p)\sum\theta_i P_i+p\sum\theta_i Q_i。令 Φ\Phi 表示拒绝的规则,和原论文中的定义保持一致,那么有:EPΦ=αE_P\Phi=\alpha,也就是:

T(M)Samplep(S),MSamplep(S))pf+(1p)IdT(M) \circ Sample_p(S),M\circ Sample_p(S'))\geq pf+(1-p)Id θiEPiΦ=α\sum\theta_iE_{P_i}\Phi=\alpha

那么 Q 便可以写成:

EQΦ=(1p)α+pθiEQiΦE_{Q}\Phi = (1-p)\alpha+p\sum\theta_iE_{Q_i}\Phi

根据定义,T(Pi,Qi)fT(P_i,Q_i)\geq f,而 T(Pi,Qi)(α)=inf{βΦ:αΦα}T(P_i,Q_i)(\alpha)=inf\{\beta_\Phi:\alpha_\Phi\leq\alpha\}βΦ=1EQ[Φ]\beta_\Phi=1-E_Q[\Phi],因此:EQiΦ1f(EPiΦ)E_{Q_i}\Phi \leq 1-f(E_{P_i}\Phi),也即:

θiEQiΦ1θif(EPiΦ)\sum\theta_iE_{Q_i}\Phi\leq1-\sum\theta_if(E_{P_i}\Phi)

根据琴生不等式,对于属于凸函数的trade-off函数,有:

θif(EpIΦ)f(θiEPiΦ)=f(α)\sum\theta_if(E_{p_I}\Phi)\geq f(\sum \theta_iE_{P_i}\Phi)=f(\alpha)

则:

EQΦ(1p)α+p(1θif(EPiΦ))(1p)α+p(1f(α))E_{Q}\Phi\leq(1-p)\alpha+p(1-\sum\theta_if(E_{P_i}\Phi))\leq(1-p)\alpha+p(1-f(\alpha))

根据定义,T(Pi,Qi)(α)=inf{βΦ:αΦα}T(P_i,Q_i)(\alpha)=inf\{\beta_\Phi:\alpha_\Phi\leq\alpha\}βΦ=1EQ[Φ]\beta_\Phi=1-E_Q[\Phi],显然,EQ[Φ]E_Q[\Phi] 取上限值,βΦ\beta_\Phi 便可以取得下限值。而根据上式,EQ[Φ]E_Q[\Phi] 的上限不会大于 (1p)α+p(1f(α))(1-p)\alpha+p(1-f(\alpha)),也就是说:

T(Pi,Qi)(α)1(1p)αp(1f(α))=(1p)(1α)+pfT(P_i,Q_i)(\alpha)\geq1-(1-p)\alpha-p(1-f(\alpha))=(1-p)(1-\alpha)+pf

又有 1α=Id1-\alpha = Id,所以:

T(θiPi,(1p)θiPi+pθiQi)pf+(1p)IdT(\sum \theta_iP_i,(1-p)\sum\theta_iP_i+p\sum\theta_iQ_i)\geq pf+(1-p)Id

引理证毕!这个式子说明了子采样会如何影响最终的隐私保护(子采样在这个式子里以 p 的方式呈现)。

4.2 NoisySGD 隐私分析#

【结论】算法符合 {f,f1}DP\{f,f^{-1}\}^{**}-DP,其中:

f=(pG1/σ+(1p)Id)Tf=(pG_{1/\sigma}+(1-p)Id)^{\otimes T}

【证明】首先,根据原 Gasussian Differential Privacy 的论文,我们可以得到如下的一个引理:


【引理】假设 M1XY,M2X×YZM_1:X\rightarrow Y, M_2:X\times Y\rightarrow Z,并且对于 SSS=S{x0}S'=S\cup \{x_0\},满足以下两个条件:

  • T(M1(S),M(S))fT(M_1(S),M(S’))\geq f

  • T(M2(S,y),M2(S,y))g,  for  any  y  YT(M_2(S,y), M_2(S’,y))\geq g, \;for\;any\;y\;\in Y

那么,对于组合 M2M1M_2\circ M_1XY×ZX\rightarrow Y\times Z 满足:

T(M2M1(S),M2M1(S))fgT(M_2\circ M_1(S),M_2\circ M_1(S'))\geq f\otimes g

继续上面的证明:

由 4.1 的分析证明,NoisySGD 算法可以理解为:

NoisySGD:XnV×V...VS(θ1,θ2...,θT)NoisySGD:X^n\rightarrow V\times V...V\\ S\rightarrow (\theta_1,\theta_2...,\theta_T)

上述的这个过程,就是 T 个 M 机制的组合。因此有:

T(NoisySGD(S),NoisySGD(S))(pG1/σ+(1p)Id)T=fT(NoisySGD(S),NoisySGD(S'))\geq(pG_{1/\sigma}+(1-p)Id)^{\otimes T}=f

需要注意的是,T(NoisySGD(S),NoisySGD(S))f1T(NoisySGD(S),NoisySGD(S'))\geq f^{-1},这个关系也成立。

我们可以从这两个关系里得出:S 和 S‘ 的权衡函数的下界必然是 fff1f^{-1} 中的一个。为了确保权衡函数的性质成立,这里取它们偏小值的双共轭函数,从而确保了凸函数性质。因此 得到算法符合 {f,f1}DP\{f,f^{-1}\}^{**}-DP

18-DeepLearning with Gaussian DIfferential Privacy
https://solituder1969.github.io/posts/18-deeplearning-with-gaussian-differential-privacy/
Author
KangDe
Published at
2024-03-15