データポイズニング
データポイズニング とは何ですか?
データポイズニング敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。
データポイズニングは ML ライフサイクルの学習段階を標的にします。攻撃者は公開 Web クロール、クラウドソーシングのラベル、ファインチューニング用コーパス、フィードバックログなどのデータセットを操作し、モデルを偏らせたり精度を下げたり、特定のトリガーで発動する挙動を埋め込んだりします。Carlini らは 2023 年に、Web 上のごく一部の汚染データだけでも大規模な事前学習コーパスを破壊しうることを示しました。可用性攻撃(全体精度の低下)、ターゲット攻撃(特定誤分類の誘発)、バックドア攻撃(指定トリガーで発動)などの種類があります。防御の中心はデータセットの来歴管理と署名、重複除去、学習データの異常検知、ロバストな学習アルゴリズム、ベンチマークおよび敵対的テストセットによる継続的評価です。
● 例
- 01
攻撃者が Wikipedia や期限切れドメインを書き換え、汚染テキストを将来の事前学習コーパスに取り込ませる。
- 02
悪意ある寄稿者が、OSS の画像分類データセットに誤ったラベル付きサンプルを投稿する。
● よくある質問
データポイズニング とは何ですか?
敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
データポイズニング とはどういう意味ですか?
敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。
データポイズニング はどのように機能しますか?
データポイズニングは ML ライフサイクルの学習段階を標的にします。攻撃者は公開 Web クロール、クラウドソーシングのラベル、ファインチューニング用コーパス、フィードバックログなどのデータセットを操作し、モデルを偏らせたり精度を下げたり、特定のトリガーで発動する挙動を埋め込んだりします。Carlini らは 2023 年に、Web 上のごく一部の汚染データだけでも大規模な事前学習コーパスを破壊しうることを示しました。可用性攻撃(全体精度の低下)、ターゲット攻撃(特定誤分類の誘発)、バックドア攻撃(指定トリガーで発動)などの種類があります。防御の中心はデータセットの来歴管理と署名、重複除去、学習データの異常検知、ロバストな学習アルゴリズム、ベンチマークおよび敵対的テストセットによる継続的評価です。
データポイズニング からどのように防御しますか?
データポイズニング に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
データポイズニング の別名は何ですか?
一般的な別名: 学習データポイズニング, データセットポイズニング。
● 関連用語
- ai-security№ 081
バックドア攻撃(ML)
学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
- ai-security№ 034
AI サプライチェーンリスク
AI システムを構築・運用するために組織が組み合わせる、第三者のデータセット・ベースモデル・ライブラリ・プラグイン・インフラから生じる脅威の集合。
- ai-security№ 729
Nightshade 攻撃
シカゴ大学 Glaze チームが提案したデータポイズニング手法で、画像に知覚不能な摂動を加えることで、それを学習した text-to-image モデルが概念を深く歪んだ形で学習してしまうようにする。
- ai-security№ 691
MLSecOps
データ収集・学習・デプロイ・運用監視・廃止まで、機械学習のライフサイクル全体にセキュリティとリスク管理を統合する取り組み。
- ai-security№ 018
敵対的サンプル
人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
● 関連項目
- № 704モデル反転攻撃
- № 393回避攻撃(ML)
- № 666メンバーシップ推論攻撃
- № 1026シャドー AI
- № 025AI Bill of Materials(AIBOM)
- № 898RAG セキュリティ
- № 897RAG(検索拡張生成)
- № 376エンベディング攻撃