k-匿名性
k-匿名性 とは何ですか?
k-匿名性Latanya Sweeney が提唱したプライバシーモデルで、データセット内の各レコードが準識別子に関して少なくとも k-1 件の他レコードと区別不能であることを要求する。
k-匿名性は Sweeney により 2002 年に形式化され、年齢・郵便番号・性別などの準識別子の組合せが少なくとも k 件のレコードに現れる(等価クラスを形成する)ことで再識別攻撃を防ぎます。実現には、一般化(正確な値を範囲や上位カテゴリで置き換える)と抑制(稀少な値を削除する)を用い、Mondrian や Incognito といったアルゴリズムが代表的です。リンク攻撃を抑える一方、等価クラス内で機微属性が同一の場合に発生する同質性攻撃や背景知識攻撃には弱く、これを補うために l-多様性や t-近接性といった拡張が提案されました。k の選定は、データ有用性、リスク許容度、GDPR 前文 26 などの規制期待のバランスで決定します。
● 例
- 01
医療データを一般化し、年齢/郵便番号の各組合せが少なくとも 5 名の患者に対応する (k=5)。
- 02
公開研究データで生年月日を「年のみ」に一般化し、k-匿名性を満たす。
● よくある質問
k-匿名性 とは何ですか?
Latanya Sweeney が提唱したプライバシーモデルで、データセット内の各レコードが準識別子に関して少なくとも k-1 件の他レコードと区別不能であることを要求する。 サイバーセキュリティの プライバシーとデータ保護 カテゴリに属します。
k-匿名性 とはどういう意味ですか?
Latanya Sweeney が提唱したプライバシーモデルで、データセット内の各レコードが準識別子に関して少なくとも k-1 件の他レコードと区別不能であることを要求する。
k-匿名性 はどのように機能しますか?
k-匿名性は Sweeney により 2002 年に形式化され、年齢・郵便番号・性別などの準識別子の組合せが少なくとも k 件のレコードに現れる(等価クラスを形成する)ことで再識別攻撃を防ぎます。実現には、一般化(正確な値を範囲や上位カテゴリで置き換える)と抑制(稀少な値を削除する)を用い、Mondrian や Incognito といったアルゴリズムが代表的です。リンク攻撃を抑える一方、等価クラス内で機微属性が同一の場合に発生する同質性攻撃や背景知識攻撃には弱く、これを補うために l-多様性や t-近接性といった拡張が提案されました。k の選定は、データ有用性、リスク許容度、GDPR 前文 26 などの規制期待のバランスで決定します。
k-匿名性 からどのように防御しますか?
k-匿名性 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
k-匿名性 の別名は何ですか?
一般的な別名: k-匿名化。
● 関連用語
- privacy№ 274
データ匿名化
他の利用可能な情報と組み合わせても直接的・間接的に個人を識別できないよう、個人データを不可逆に変換する処理。
- privacy№ 603
l-多様性
Machanavajjhala らによる k-匿名性の拡張で、各等価クラスにおいて機微属性ごとに少なくとも l 種類の十分代表される値を含めることを要求する。
- privacy№ 1126
t-近接性
Li、Li、Venkatasubramanian によるプライバシーモデルで、l-多様性を強化し、各クラスにおける機微属性の分布が全体分布から閾値 t を超えて乖離しないことを要求する。
- privacy№ 317
差分プライバシー
統計の公表やモデル学習に伴うプライバシー損失を数理的に定量化し、校正されたノイズを加えることで個人の寄与を証明可能な範囲内に抑える枠組み。
- privacy№ 875
仮名化
個人データの直接識別子を可逆的なエイリアスに置き換え、別途保管される追加情報がなければ個人に紐付けられない状態にする手法。
- privacy№ 818
個人を特定できる情報 (PII)
氏名、識別子、生体情報など、単独で、あるいは他の情報と組み合わせることで特定の個人を識別できるあらゆるデータ。