t-近接性
t-近接性 とは何ですか?
t-近接性Li、Li、Venkatasubramanian によるプライバシーモデルで、l-多様性を強化し、各クラスにおける機微属性の分布が全体分布から閾値 t を超えて乖離しないことを要求する。
2007 年に提案された t-近接性は、l-多様性に対する偏り(skewness)攻撃や類似性(similarity)攻撃を緩和するため、各等価クラス内の機微属性の分布が全体データセットの分布から閾値 t を超えて乖離しないことを要求します。距離尺度には通常 Earth Mover's Distance が使われます。これにより、等価クラスが意味的に近いが異なる値(例えば複数の希少がん種)に支配されている場合でも、機微値が推測されにくくなります。t を小さくするほど、一般化や抑制が増えてデータ有用性が低下するため、リスクと有用性のトレードオフで t を選びます。t-近接性は医療、行政、研究データの公開において、k-匿名性や l-多様性と組み合わせて用いられます。
● 例
- 01
性別/年齢のセルごとの給与分布が全体分布から t=0.2 以内に収まるようにする。
- 02
t-近接性を適用して、特定の希少疾患が単一等価クラスに偏らないようにする。
● よくある質問
t-近接性 とは何ですか?
Li、Li、Venkatasubramanian によるプライバシーモデルで、l-多様性を強化し、各クラスにおける機微属性の分布が全体分布から閾値 t を超えて乖離しないことを要求する。 サイバーセキュリティの プライバシーとデータ保護 カテゴリに属します。
t-近接性 とはどういう意味ですか?
Li、Li、Venkatasubramanian によるプライバシーモデルで、l-多様性を強化し、各クラスにおける機微属性の分布が全体分布から閾値 t を超えて乖離しないことを要求する。
t-近接性 はどのように機能しますか?
2007 年に提案された t-近接性は、l-多様性に対する偏り(skewness)攻撃や類似性(similarity)攻撃を緩和するため、各等価クラス内の機微属性の分布が全体データセットの分布から閾値 t を超えて乖離しないことを要求します。距離尺度には通常 Earth Mover's Distance が使われます。これにより、等価クラスが意味的に近いが異なる値(例えば複数の希少がん種)に支配されている場合でも、機微値が推測されにくくなります。t を小さくするほど、一般化や抑制が増えてデータ有用性が低下するため、リスクと有用性のトレードオフで t を選びます。t-近接性は医療、行政、研究データの公開において、k-匿名性や l-多様性と組み合わせて用いられます。
t-近接性 からどのように防御しますか?
t-近接性 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
t-近接性 の別名は何ですか?
一般的な別名: t-近接性匿名化。
● 関連用語
- privacy№ 576
k-匿名性
Latanya Sweeney が提唱したプライバシーモデルで、データセット内の各レコードが準識別子に関して少なくとも k-1 件の他レコードと区別不能であることを要求する。
- privacy№ 603
l-多様性
Machanavajjhala らによる k-匿名性の拡張で、各等価クラスにおいて機微属性ごとに少なくとも l 種類の十分代表される値を含めることを要求する。
- privacy№ 274
データ匿名化
他の利用可能な情報と組み合わせても直接的・間接的に個人を識別できないよう、個人データを不可逆に変換する処理。
- privacy№ 317
差分プライバシー
統計の公表やモデル学習に伴うプライバシー損失を数理的に定量化し、校正されたノイズを加えることで個人の寄与を証明可能な範囲内に抑える枠組み。
- privacy№ 875
仮名化
個人データの直接識別子を可逆的なエイリアスに置き換え、別途保管される追加情報がなければ個人に紐付けられない状態にする手法。
- privacy№ 280
データ最小化
明示された適法な目的に必要な範囲でのみ個人データを取得・処理・保存することを求めるプライバシー原則。