差分プライバシー
差分プライバシー とは何ですか?
差分プライバシー統計の公表やモデル学習に伴うプライバシー損失を数理的に定量化し、校正されたノイズを加えることで個人の寄与を証明可能な範囲内に抑える枠組み。
差分プライバシーは Dwork、McSherry、Nissim、Smith により定式化され、データセットに 1 件のレコードを追加・削除しても任意の出力の確率が高々 e^epsilon(必要に応じて delta)の係数までしか変化しないことを保証します。代表的な機構には Laplace、Gauss、Exponential、そして機械学習向けの DP-SGD があります。累積するプライバシー損失は、プライバシー予算 (epsilon-delta) と高度合成や moments accountant により追跡します。米国国勢調査局 (2020 年センサス)、Apple、Google、Microsoft がテレメトリや統計に導入しています。k-匿名性や l-多様性などの構文的モデルと異なり、攻撃者が持つ補助知識に依存せず、将来にわたって有効な数学的保証を提供します。
● 例
- 01
Apple がローカル差分プライバシーでキーボードの絵文字使用頻度を集計する。
- 02
DP-SGD を用いて医療モデルを学習し、個別の患者レコードが記憶されないようにする。
● よくある質問
差分プライバシー とは何ですか?
統計の公表やモデル学習に伴うプライバシー損失を数理的に定量化し、校正されたノイズを加えることで個人の寄与を証明可能な範囲内に抑える枠組み。 サイバーセキュリティの プライバシーとデータ保護 カテゴリに属します。
差分プライバシー とはどういう意味ですか?
統計の公表やモデル学習に伴うプライバシー損失を数理的に定量化し、校正されたノイズを加えることで個人の寄与を証明可能な範囲内に抑える枠組み。
差分プライバシー はどのように機能しますか?
差分プライバシーは Dwork、McSherry、Nissim、Smith により定式化され、データセットに 1 件のレコードを追加・削除しても任意の出力の確率が高々 e^epsilon(必要に応じて delta)の係数までしか変化しないことを保証します。代表的な機構には Laplace、Gauss、Exponential、そして機械学習向けの DP-SGD があります。累積するプライバシー損失は、プライバシー予算 (epsilon-delta) と高度合成や moments accountant により追跡します。米国国勢調査局 (2020 年センサス)、Apple、Google、Microsoft がテレメトリや統計に導入しています。k-匿名性や l-多様性などの構文的モデルと異なり、攻撃者が持つ補助知識に依存せず、将来にわたって有効な数学的保証を提供します。
差分プライバシー からどのように防御しますか?
差分プライバシー に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
差分プライバシー の別名は何ですか?
一般的な別名: DP, ε-差分プライバシー。
● 関連用語
- privacy№ 274
データ匿名化
他の利用可能な情報と組み合わせても直接的・間接的に個人を識別できないよう、個人データを不可逆に変換する処理。
- privacy№ 576
k-匿名性
Latanya Sweeney が提唱したプライバシーモデルで、データセット内の各レコードが準識別子に関して少なくとも k-1 件の他レコードと区別不能であることを要求する。
- privacy№ 603
l-多様性
Machanavajjhala らによる k-匿名性の拡張で、各等価クラスにおいて機微属性ごとに少なくとも l 種類の十分代表される値を含めることを要求する。
- privacy№ 1126
t-近接性
Li、Li、Venkatasubramanian によるプライバシーモデルで、l-多様性を強化し、各クラスにおける機微属性の分布が全体分布から閾値 t を超えて乖離しないことを要求する。
- privacy№ 875
仮名化
個人データの直接識別子を可逆的なエイリアスに置き換え、別途保管される追加情報がなければ個人に紐付けられない状態にする手法。
- privacy№ 280
データ最小化
明示された適法な目的に必要な範囲でのみ個人データを取得・処理・保存することを求めるプライバシー原則。