Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 576

k-匿名性

k-匿名性 是什么?

k-匿名性由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。


k-匿名性由 Sweeney 在 2002 年正式提出,通过让每种准标识符组合(如年龄、邮编、性别)至少出现在 k 条记录中、形成等价类,从而抵御链接攻击。实现方式包括泛化(将精确值替换为区间或更广类别)和压制(删除罕见值),常用算法有 Mondrian 与 Incognito。虽然 k-匿名性降低了链接攻击的成功率,但若等价类内敏感属性同质,仍会受到同质化和背景知识攻击的影响,因此衍生出 l-多样性和 t-接近度等扩展模型。在实践中,k 的取值需要在数据效用、风险偏好与 GDPR 序言第 26 条等监管期望之间取得平衡。

示例

  1. 01

    对医疗数据集进行泛化,使每个 "年龄/邮编" 组合至少对应五名患者 (k=5)。

  2. 02

    在公开研究数据发布中将出生日期泛化为年份,以满足 k-匿名性。

常见问题

k-匿名性 是什么?

由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。 它属于网络安全的 隐私与数据保护 分类。

k-匿名性 是什么意思?

由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。

k-匿名性 是如何工作的?

k-匿名性由 Sweeney 在 2002 年正式提出,通过让每种准标识符组合(如年龄、邮编、性别)至少出现在 k 条记录中、形成等价类,从而抵御链接攻击。实现方式包括泛化(将精确值替换为区间或更广类别)和压制(删除罕见值),常用算法有 Mondrian 与 Incognito。虽然 k-匿名性降低了链接攻击的成功率,但若等价类内敏感属性同质,仍会受到同质化和背景知识攻击的影响,因此衍生出 l-多样性和 t-接近度等扩展模型。在实践中,k 的取值需要在数据效用、风险偏好与 GDPR 序言第 26 条等监管期望之间取得平衡。

如何防御 k-匿名性?

针对 k-匿名性 的防御通常结合技术控制与运营实践,详见上方完整定义。

k-匿名性 还有哪些其他名称?

常见的别称包括: k-匿名化。

相关术语