k-匿名性
k-匿名性 是什么?
k-匿名性由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。
k-匿名性由 Sweeney 在 2002 年正式提出,通过让每种准标识符组合(如年龄、邮编、性别)至少出现在 k 条记录中、形成等价类,从而抵御链接攻击。实现方式包括泛化(将精确值替换为区间或更广类别)和压制(删除罕见值),常用算法有 Mondrian 与 Incognito。虽然 k-匿名性降低了链接攻击的成功率,但若等价类内敏感属性同质,仍会受到同质化和背景知识攻击的影响,因此衍生出 l-多样性和 t-接近度等扩展模型。在实践中,k 的取值需要在数据效用、风险偏好与 GDPR 序言第 26 条等监管期望之间取得平衡。
● 示例
- 01
对医疗数据集进行泛化,使每个 "年龄/邮编" 组合至少对应五名患者 (k=5)。
- 02
在公开研究数据发布中将出生日期泛化为年份,以满足 k-匿名性。
● 常见问题
k-匿名性 是什么?
由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。 它属于网络安全的 隐私与数据保护 分类。
k-匿名性 是什么意思?
由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。
k-匿名性 是如何工作的?
k-匿名性由 Sweeney 在 2002 年正式提出,通过让每种准标识符组合(如年龄、邮编、性别)至少出现在 k 条记录中、形成等价类,从而抵御链接攻击。实现方式包括泛化(将精确值替换为区间或更广类别)和压制(删除罕见值),常用算法有 Mondrian 与 Incognito。虽然 k-匿名性降低了链接攻击的成功率,但若等价类内敏感属性同质,仍会受到同质化和背景知识攻击的影响,因此衍生出 l-多样性和 t-接近度等扩展模型。在实践中,k 的取值需要在数据效用、风险偏好与 GDPR 序言第 26 条等监管期望之间取得平衡。
如何防御 k-匿名性?
针对 k-匿名性 的防御通常结合技术控制与运营实践,详见上方完整定义。
k-匿名性 还有哪些其他名称?
常见的别称包括: k-匿名化。
● 相关术语
- privacy№ 274
数据匿名化
对个人数据进行不可逆的处理,使其在与其他可用信息结合时也无法直接或间接识别到任何个人。
- privacy№ 603
l-多样性
Machanavajjhala 等人提出的对 k-匿名性的扩展,要求每个等价类中至少包含 l 个分布良好、不同的敏感属性取值。
- privacy№ 1126
t-接近度
Li、Li 与 Venkatasubramanian 提出的隐私模型,要求每个等价类中敏感属性的分布与全局分布的差距不超过阈值 t,以增强 l-多样性。
- privacy№ 317
差分隐私
一种数学框架,用于在发布统计或训练模型时量化隐私损失,通过加入经过校准的噪声使任何单个个体的影响在可证明的范围内。
- privacy№ 875
假名化
将个人数据中的直接标识符替换为可还原的别名,使数据在缺少另行保管的附加信息时无法归属到具体个人。
- privacy№ 818
个人可识别信息 (PII)
可单独或与其他信息结合用于识别特定个人的任何数据,例如姓名、标识符或生物特征记录。