差分隐私
差分隐私 是什么?
差分隐私一种数学框架,用于在发布统计或训练模型时量化隐私损失,通过加入经过校准的噪声使任何单个个体的影响在可证明的范围内。
差分隐私由 Dwork、McSherry、Nissim 和 Smith 形式化,保证当向数据集中添加或删除一条记录时,任意输出概率的变化不超过 e^epsilon(可附加 delta)。常见机制包括 Laplace、Gauss、指数机制,以及面向机器学习的 DP-SGD。累计隐私损失通过隐私预算 (epsilon-delta) 与高级组合或 moments accountant 进行跟踪。美国人口普查局(2020 年十年普查)、Apple、Google、Microsoft 已将其用于遥测与统计。与 k-匿名性、l-多样性等句法模型不同,差分隐私无论攻击者掌握何种辅助信息,都能提供可证明且具有前瞻性的隐私保证。
● 示例
- 01
Apple 通过本地差分隐私上报键盘表情符号使用频率。
- 02
使用 DP-SGD 训练医疗模型,避免记忆单个患者记录。
● 常见问题
差分隐私 是什么?
一种数学框架,用于在发布统计或训练模型时量化隐私损失,通过加入经过校准的噪声使任何单个个体的影响在可证明的范围内。 它属于网络安全的 隐私与数据保护 分类。
差分隐私 是什么意思?
一种数学框架,用于在发布统计或训练模型时量化隐私损失,通过加入经过校准的噪声使任何单个个体的影响在可证明的范围内。
差分隐私 是如何工作的?
差分隐私由 Dwork、McSherry、Nissim 和 Smith 形式化,保证当向数据集中添加或删除一条记录时,任意输出概率的变化不超过 e^epsilon(可附加 delta)。常见机制包括 Laplace、Gauss、指数机制,以及面向机器学习的 DP-SGD。累计隐私损失通过隐私预算 (epsilon-delta) 与高级组合或 moments accountant 进行跟踪。美国人口普查局(2020 年十年普查)、Apple、Google、Microsoft 已将其用于遥测与统计。与 k-匿名性、l-多样性等句法模型不同,差分隐私无论攻击者掌握何种辅助信息,都能提供可证明且具有前瞻性的隐私保证。
如何防御 差分隐私?
针对 差分隐私 的防御通常结合技术控制与运营实践,详见上方完整定义。
差分隐私 还有哪些其他名称?
常见的别称包括: DP, epsilon-差分隐私。
● 相关术语
- privacy№ 274
数据匿名化
对个人数据进行不可逆的处理,使其在与其他可用信息结合时也无法直接或间接识别到任何个人。
- privacy№ 576
k-匿名性
由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。
- privacy№ 603
l-多样性
Machanavajjhala 等人提出的对 k-匿名性的扩展,要求每个等价类中至少包含 l 个分布良好、不同的敏感属性取值。
- privacy№ 1126
t-接近度
Li、Li 与 Venkatasubramanian 提出的隐私模型,要求每个等价类中敏感属性的分布与全局分布的差距不超过阈值 t,以增强 l-多样性。
- privacy№ 875
假名化
将个人数据中的直接标识符替换为可还原的别名,使数据在缺少另行保管的附加信息时无法归属到具体个人。
- privacy№ 280
数据最小化
一项隐私原则,要求组织仅在明确合法目的所必需的范围内收集、处理和保留个人数据。