モデル反転攻撃
モデル反転攻撃 とは何ですか?
モデル反転攻撃モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。
モデル反転攻撃は、モデルのパラメーターではなく学習データの機密性を狙います。Fredrikson らは 2015 年に、顔認識分類器に対する勾配最適化により、クラスラベルと信頼度スコアから判別可能な学習画像を復元できることを示しました。現代の変種では、慎重に選んだプレフィックスを LLM に与えることで、学習時に記憶された氏名・メールアドレス・専有文書などのテキストを抽出します。過学習や正則化不足のモデル、詳細な信頼度を返す API ほど攻撃を受けやすくなります。対策として学習時の差分プライバシー、出力の最小化、学習データの重複除去、正則化の強化、内部信頼度ベクトルの非開示などが挙げられます。
● 例
- 01
顔認識モデルが返すクラスごとの信頼度から判別可能な顔画像を再構成する。
- 02
既知のプレフィックスを LLM に投入し、学習コーパス中に記憶された個人情報を引き出す。
● よくある質問
モデル反転攻撃 とは何ですか?
モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
モデル反転攻撃 とはどういう意味ですか?
モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。
モデル反転攻撃 はどのように機能しますか?
モデル反転攻撃は、モデルのパラメーターではなく学習データの機密性を狙います。Fredrikson らは 2015 年に、顔認識分類器に対する勾配最適化により、クラスラベルと信頼度スコアから判別可能な学習画像を復元できることを示しました。現代の変種では、慎重に選んだプレフィックスを LLM に与えることで、学習時に記憶された氏名・メールアドレス・専有文書などのテキストを抽出します。過学習や正則化不足のモデル、詳細な信頼度を返す API ほど攻撃を受けやすくなります。対策として学習時の差分プライバシー、出力の最小化、学習データの重複除去、正則化の強化、内部信頼度ベクトルの非開示などが挙げられます。
モデル反転攻撃 からどのように防御しますか?
モデル反転攻撃 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
モデル反転攻撃 の別名は何ですか?
一般的な別名: 学習データ再構成, 属性推論攻撃。
● 関連用語
- ai-security№ 666
メンバーシップ推論攻撃
あるデータがモデルの学習セットに含まれていたかどうかを、モデルの挙動を解析することで判定するプライバシー攻撃。
- ai-security№ 703
モデル抽出
公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。
- ai-security№ 281
データポイズニング
敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
- ai-security№ 027
AI ガバナンス
組織と規制当局が、AI システムを責任あるかつ合法的な形で開発・展開・運用するために用いる方針・プロセス・役割・統制の総体。
- ai-security№ 691
MLSecOps
データ収集・学習・デプロイ・運用監視・廃止まで、機械学習のライフサイクル全体にセキュリティとリスク管理を統合する取り組み。