数据匿名化
数据匿名化 是什么?
数据匿名化对个人数据进行不可逆的处理,使其在与其他可用信息结合时也无法直接或间接识别到任何个人。
数据匿名化通过移除或更改标识符、准标识符和敏感属性,使重识别在合理范围内变得不可行。常用技术包括压制、泛化、扰动、聚合与随机化,并以 k 匿名、l 多样性、t 接近度或差分隐私等隐私模型加以衡量。真正匿名化的数据不在 GDPR 适用范围内(序言第 26 条),但门槛很高:EDPB、CNIL 等监管机构要求基于 "合理可能" 使用的手段(包括辅助数据集)进行正式的重识别风险评估。常见误区包括仅依赖哈希、发布高维微观数据,或把假名化数据当作匿名数据使用。
● 示例
- 01
公开按区域和季度聚合的医院再入院统计,小于五例的单元格被压制。
- 02
发布公共出行数据集,将轨迹泛化到 "街区—周" 粒度。
● 常见问题
数据匿名化 是什么?
对个人数据进行不可逆的处理,使其在与其他可用信息结合时也无法直接或间接识别到任何个人。 它属于网络安全的 隐私与数据保护 分类。
数据匿名化 是什么意思?
对个人数据进行不可逆的处理,使其在与其他可用信息结合时也无法直接或间接识别到任何个人。
数据匿名化 是如何工作的?
数据匿名化通过移除或更改标识符、准标识符和敏感属性,使重识别在合理范围内变得不可行。常用技术包括压制、泛化、扰动、聚合与随机化,并以 k 匿名、l 多样性、t 接近度或差分隐私等隐私模型加以衡量。真正匿名化的数据不在 GDPR 适用范围内(序言第 26 条),但门槛很高:EDPB、CNIL 等监管机构要求基于 "合理可能" 使用的手段(包括辅助数据集)进行正式的重识别风险评估。常见误区包括仅依赖哈希、发布高维微观数据,或把假名化数据当作匿名数据使用。
如何防御 数据匿名化?
针对 数据匿名化 的防御通常结合技术控制与运营实践,详见上方完整定义。
数据匿名化 还有哪些其他名称?
常见的别称包括: 匿名化, 强去标识化。
● 相关术语
- privacy№ 875
假名化
将个人数据中的直接标识符替换为可还原的别名,使数据在缺少另行保管的附加信息时无法归属到具体个人。
- privacy№ 576
k-匿名性
由 Latanya Sweeney 提出的隐私模型,要求数据集中每条记录在准标识符上至少与 k-1 条其他记录无法区分。
- privacy№ 603
l-多样性
Machanavajjhala 等人提出的对 k-匿名性的扩展,要求每个等价类中至少包含 l 个分布良好、不同的敏感属性取值。
- privacy№ 1126
t-接近度
Li、Li 与 Venkatasubramanian 提出的隐私模型,要求每个等价类中敏感属性的分布与全局分布的差距不超过阈值 t,以增强 l-多样性。
- privacy№ 317
差分隐私
一种数学框架,用于在发布统计或训练模型时量化隐私损失,通过加入经过校准的噪声使任何单个个体的影响在可证明的范围内。
- privacy№ 280
数据最小化
一项隐私原则,要求组织仅在明确合法目的所必需的范围内收集、处理和保留个人数据。
● 参见
- № 1164令牌化(隐私)
- № 279数据脱敏
- № 1165Tor / Tor 浏览器
- № 755洋葱路由
- № 503I2P