バックドア攻撃(ML)
バックドア攻撃(ML) とは何ですか?
バックドア攻撃(ML)学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
バックドア(トロイ)攻撃は Gu らの BadNets 論文(2017)で広く知られるようになりました。攻撃者は学習データ、ファインチューニングデータ、あるいはモデルの重み自体に、特定のトリガー(ステッカー、トークン、透かし、果ては入力スタイルまで)を目的ラベルや挙動と対応付けるサンプルを注入します。デプロイ後はクリーンデータの精度が保たれるためベンチマークを通過しますが、トリガーが現れると挙動が変質します。公開リポジトリで配布される事前学習モデルや連合学習で特に懸念されます。対策にはデータ来歴管理、Neural Cleanse や fine-pruning、活性化クラスタ分析、敵対的学習、信頼できる署名済みソースからのみ重みをロードすることが含まれます。
● 例
- 01
小さな黄色い四角が写っているだけで、内容に関わらず画像を "飛行機" と分類する画像分類器。
- 02
毒入りデータでファインチューニングされた LLM が、まれな制御フレーズに対し特定の有害ペイロードを出力する。
● よくある質問
バックドア攻撃(ML) とは何ですか?
学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
バックドア攻撃(ML) とはどういう意味ですか?
学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
バックドア攻撃(ML) はどのように機能しますか?
バックドア(トロイ)攻撃は Gu らの BadNets 論文(2017)で広く知られるようになりました。攻撃者は学習データ、ファインチューニングデータ、あるいはモデルの重み自体に、特定のトリガー(ステッカー、トークン、透かし、果ては入力スタイルまで)を目的ラベルや挙動と対応付けるサンプルを注入します。デプロイ後はクリーンデータの精度が保たれるためベンチマークを通過しますが、トリガーが現れると挙動が変質します。公開リポジトリで配布される事前学習モデルや連合学習で特に懸念されます。対策にはデータ来歴管理、Neural Cleanse や fine-pruning、活性化クラスタ分析、敵対的学習、信頼できる署名済みソースからのみ重みをロードすることが含まれます。
バックドア攻撃(ML) からどのように防御しますか?
バックドア攻撃(ML) に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
バックドア攻撃(ML) の別名は何ですか?
一般的な別名: トロイ攻撃, BadNets 攻撃。
● 関連用語
- ai-security№ 281
データポイズニング
敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。
- ai-security№ 034
AI サプライチェーンリスク
AI システムを構築・運用するために組織が組み合わせる、第三者のデータセット・ベースモデル・ライブラリ・プラグイン・インフラから生じる脅威の集合。
- ai-security№ 018
敵対的サンプル
人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。
- ai-security№ 691
MLSecOps
データ収集・学習・デプロイ・運用監視・廃止まで、機械学習のライフサイクル全体にセキュリティとリスク管理を統合する取り組み。
- ai-security№ 025
AI Bill of Materials(AIBOM)
データセット・ベースモデル・ファインチューニングデータ・ライブラリ・プロンプト・評価成果物など、AI システムを構成するすべての要素を機械可読でまとめた一覧。セキュリティ・コンプライアンス・説明責任に用いる。
- ai-security№ 393
回避攻撃(ML)
推論時に攻撃者が入力を細工して、デプロイ済み機械学習モデル(マルウェア分類器やコンテンツフィルタなど)の本来の判定を回避する攻撃。