バックドア攻撃(ML)
バックドア攻撃(ML) とは何ですか?
バックドア攻撃(ML)学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
バックドア(トロイ)攻撃は Gu らの BadNets 論文(2017)で広く知られるようになりました。攻撃者は学習データ、ファインチューニングデータ、あるいはモデルの重み自体に、特定のトリガー(ステッカー、トークン、透かし、果ては入力スタイルまで)を目的ラベルや挙動と対応付けるサンプルを注入します。デプロイ後はクリーンデータの精度が保たれるためベンチマークを通過しますが、トリガーが現れると挙動が変質します。公開リポジトリで配布される事前学習モデルや連合学習で特に懸念されます。対策にはデータ来歴管理、Neural Cleanse や fine-pruning、活性化クラスタ分析、敵対的学習、信頼できる署名済みソースからのみ重みをロードすることが含まれます。
● 例
- 01
小さな黄色い四角が写っているだけで、内容に関わらず画像を "飛行機" と分類する画像分類器。
- 02
毒入りデータでファインチューニングされた LLM が、まれな制御フレーズに対し特定の有害ペイロードを出力する。
● よくある質問
バックドア攻撃(ML) とは何ですか?
学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
バックドア攻撃(ML) とはどういう意味ですか?
学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
バックドア攻撃(ML) からどのように防御しますか?
バックドア攻撃(ML) に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
バックドア攻撃(ML) の別名は何ですか?
一般的な別名: トロイ攻撃, BadNets 攻撃。