Entry № 792
モデル反転攻撃
モデル反転攻撃 とは何ですか?
モデル反転攻撃モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。
モデル反転攻撃は、モデルのパラメーターではなく学習データの機密性を狙います。Fredrikson らは 2015 年に、顔認識分類器に対する勾配最適化により、クラスラベルと信頼度スコアから判別可能な学習画像を復元できることを示しました。現代の変種では、慎重に選んだプレフィックスを LLM に与えることで、学習時に記憶された氏名・メールアドレス・専有文書などのテキストを抽出します。過学習や正則化不足のモデル、詳細な信頼度を返す API ほど攻撃を受けやすくなります。対策として学習時の差分プライバシー、出力の最小化、学習データの重複除去、正則化の強化、内部信頼度ベクトルの非開示などが挙げられます。
● 例
- 01
顔認識モデルが返すクラスごとの信頼度から判別可能な顔画像を再構成する。
- 02
既知のプレフィックスを LLM に投入し、学習コーパス中に記憶された個人情報を引き出す。
● よくある質問
モデル反転攻撃 とは何ですか?
モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
モデル反転攻撃 とはどういう意味ですか?
モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。
モデル反転攻撃 からどのように防御しますか?
モデル反転攻撃 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
モデル反転攻撃 の別名は何ですか?
一般的な別名: 学習データ再構成, 属性推論攻撃。