データ匿名化
データ匿名化 とは何ですか?
データ匿名化他の利用可能な情報と組み合わせても直接的・間接的に個人を識別できないよう、個人データを不可逆に変換する処理。
データ匿名化では、識別子・準識別子・機微属性を削除または変換し、再識別を合理的に不可能な水準まで低減します。代表的な手法には抑制(suppression)、一般化、摂動、集計、ランダム化があり、k-匿名性、l-多様性、t-近接性、差分プライバシーなどのプライバシーモデルで評価されます。真に匿名化されたデータは GDPR の適用外(前文 26)とされますが、要求水準は高く、EDPB や CNIL は補助データの利用を含む「合理的に可能な手段」を考慮した形式的な再識別リスク評価を求めています。ハッシュ化のみへの依存、高次元マイクロデータの公開、仮名化データを匿名と扱うことは典型的な落とし穴です。
● 例
- 01
病院の再入院統計を地域・四半期で集計し、5 件未満のセルを抑制して公開する。
- 02
公共のモビリティデータを「街区×週」の粒度に一般化して公開する。
● よくある質問
データ匿名化 とは何ですか?
他の利用可能な情報と組み合わせても直接的・間接的に個人を識別できないよう、個人データを不可逆に変換する処理。 サイバーセキュリティの プライバシーとデータ保護 カテゴリに属します。
データ匿名化 とはどういう意味ですか?
他の利用可能な情報と組み合わせても直接的・間接的に個人を識別できないよう、個人データを不可逆に変換する処理。
データ匿名化 はどのように機能しますか?
データ匿名化では、識別子・準識別子・機微属性を削除または変換し、再識別を合理的に不可能な水準まで低減します。代表的な手法には抑制(suppression)、一般化、摂動、集計、ランダム化があり、k-匿名性、l-多様性、t-近接性、差分プライバシーなどのプライバシーモデルで評価されます。真に匿名化されたデータは GDPR の適用外(前文 26)とされますが、要求水準は高く、EDPB や CNIL は補助データの利用を含む「合理的に可能な手段」を考慮した形式的な再識別リスク評価を求めています。ハッシュ化のみへの依存、高次元マイクロデータの公開、仮名化データを匿名と扱うことは典型的な落とし穴です。
データ匿名化 からどのように防御しますか?
データ匿名化 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
データ匿名化 の別名は何ですか?
一般的な別名: 匿名化, 強い非識別化。
● 関連用語
- privacy№ 875
仮名化
個人データの直接識別子を可逆的なエイリアスに置き換え、別途保管される追加情報がなければ個人に紐付けられない状態にする手法。
- privacy№ 576
k-匿名性
Latanya Sweeney が提唱したプライバシーモデルで、データセット内の各レコードが準識別子に関して少なくとも k-1 件の他レコードと区別不能であることを要求する。
- privacy№ 603
l-多様性
Machanavajjhala らによる k-匿名性の拡張で、各等価クラスにおいて機微属性ごとに少なくとも l 種類の十分代表される値を含めることを要求する。
- privacy№ 1126
t-近接性
Li、Li、Venkatasubramanian によるプライバシーモデルで、l-多様性を強化し、各クラスにおける機微属性の分布が全体分布から閾値 t を超えて乖離しないことを要求する。
- privacy№ 317
差分プライバシー
統計の公表やモデル学習に伴うプライバシー損失を数理的に定量化し、校正されたノイズを加えることで個人の寄与を証明可能な範囲内に抑える枠組み。
- privacy№ 280
データ最小化
明示された適法な目的に必要な範囲でのみ個人データを取得・処理・保存することを求めるプライバシー原則。
● 関連項目
- № 1164トークナイゼーション(プライバシー)
- № 279データマスキング
- № 1165Tor / Tor Browser
- № 755オニオンルーティング
- № 503I2P