転移可能な敵対的攻撃
転移可能な敵対的攻撃 とは何ですか?
転移可能な敵対的攻撃ある機械学習モデルに対して作成した敵対的サンプルが、未見の他モデルも誤認させる攻撃で、ターゲットにアクセスせずにブラックボックス攻撃を可能にする。
転移可能な敵対的攻撃は、Papernot、McDaniel、Goodfellow らが体系化した経験則を利用します。すなわち、あるモデルに対して生成された敵対的サンプルは、類似データで学習された他のモデルにおいても誤分類されやすい、というものです。攻撃者は手元で代理モデルを学習し、FGSM や PGD などのホワイトボックス手法で敵対的入力を作成し、内部アクセスのない遠隔のブラックボックス標的に送り込みます。画像分類、マルウェア検出、NLP、商用クラウド API でも転移性は確認されています。対策としては、多様な摂動による敵対的学習、入力変換、アンサンブル不一致を用いた検出、ランダム化平滑化など認証付きロバスト性手法があります。
● 例
- 01
攻撃者が手元で代理 CNN を学習し、FGSM サンプルを生成すると、遠隔の画像審査 API も同様にすり抜けてしまう。
- 02
オープンソース分類器に対して生成した敵対的マルウェア検体が、複数の商用 ML ベース AV エンジンも回避する。
● よくある質問
転移可能な敵対的攻撃 とは何ですか?
ある機械学習モデルに対して作成した敵対的サンプルが、未見の他モデルも誤認させる攻撃で、ターゲットにアクセスせずにブラックボックス攻撃を可能にする。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
転移可能な敵対的攻撃 とはどういう意味ですか?
ある機械学習モデルに対して作成した敵対的サンプルが、未見の他モデルも誤認させる攻撃で、ターゲットにアクセスせずにブラックボックス攻撃を可能にする。
転移可能な敵対的攻撃 はどのように機能しますか?
転移可能な敵対的攻撃は、Papernot、McDaniel、Goodfellow らが体系化した経験則を利用します。すなわち、あるモデルに対して生成された敵対的サンプルは、類似データで学習された他のモデルにおいても誤分類されやすい、というものです。攻撃者は手元で代理モデルを学習し、FGSM や PGD などのホワイトボックス手法で敵対的入力を作成し、内部アクセスのない遠隔のブラックボックス標的に送り込みます。画像分類、マルウェア検出、NLP、商用クラウド API でも転移性は確認されています。対策としては、多様な摂動による敵対的学習、入力変換、アンサンブル不一致を用いた検出、ランダム化平滑化など認証付きロバスト性手法があります。
転移可能な敵対的攻撃 からどのように防御しますか?
転移可能な敵対的攻撃 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
転移可能な敵対的攻撃 の別名は何ですか?
一般的な別名: モデル横断の敵対的転移, ブラックボックス転移攻撃。
● 関連用語
- ai-security№ 018
敵対的サンプル
人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。
- ai-security№ 014
適応的攻撃
汎用的・防御非依存の手法ではなく、特定の既知防御を回避・突破するよう設計された機械学習システムへの攻撃。
- ai-security№ 703
モデル抽出
公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。
- ai-security№ 032
AI レッドチーム
AI システムに対して攻撃者を模擬し、現実の攻撃者より先にセキュリティ・セーフティ・濫用上のリスクを洗い出す専門チーム。