敵対的サンプル
敵対的サンプル とは何ですか?
敵対的サンプル人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。
敵対的サンプルは Szegedy ら(2013)と Goodfellow らの FGSM 論文(2014)で広く知られ、わずかなピクセル単位の摂動だけで最先端の画像分類器が高い信頼度で誤分類することが示されました。生成には勾配ベース最適化(FGSM、PGD、Carlini-Wagner)やブラックボックスクエリが使われ、異なるモデル間で転移するため内部アクセスがなくても攻撃可能です。画像にとどまらずテキスト、音声、コード、マルウェア検知器に対しても存在し、本番環境における回避攻撃の大半を支えます。対策には敵対的学習、認証済みロバスト性(ランダム化スムージング)、入力前処理、アンサンブル、ランタイム異常検知がありますが、高次元設定で完全なロバスト性を保証する手法は今のところ存在しません。
● 例
- 01
巧妙に設計したステッカーを貼った停止標識を、自動運転の分類器が速度制限標識と認識する。
- 02
背景雑音と区別できない音声クリップを、音声アシスタントの ASR が悪意あるコマンドとして書き起こす。
● よくある質問
敵対的サンプル とは何ですか?
人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
敵対的サンプル とはどういう意味ですか?
人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。
敵対的サンプル はどのように機能しますか?
敵対的サンプルは Szegedy ら(2013)と Goodfellow らの FGSM 論文(2014)で広く知られ、わずかなピクセル単位の摂動だけで最先端の画像分類器が高い信頼度で誤分類することが示されました。生成には勾配ベース最適化(FGSM、PGD、Carlini-Wagner)やブラックボックスクエリが使われ、異なるモデル間で転移するため内部アクセスがなくても攻撃可能です。画像にとどまらずテキスト、音声、コード、マルウェア検知器に対しても存在し、本番環境における回避攻撃の大半を支えます。対策には敵対的学習、認証済みロバスト性(ランダム化スムージング)、入力前処理、アンサンブル、ランタイム異常検知がありますが、高次元設定で完全なロバスト性を保証する手法は今のところ存在しません。
敵対的サンプル からどのように防御しますか?
敵対的サンプル に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
敵対的サンプル の別名は何ですか?
一般的な別名: 敵対的入力, 敵対的摂動。
● 関連用語
- ai-security№ 393
回避攻撃(ML)
推論時に攻撃者が入力を細工して、デプロイ済み機械学習モデル(マルウェア分類器やコンテンツフィルタなど)の本来の判定を回避する攻撃。
- ai-security№ 081
バックドア攻撃(ML)
学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
- ai-security№ 032
AI レッドチーム
AI システムに対して攻撃者を模擬し、現実の攻撃者より先にセキュリティ・セーフティ・濫用上のリスクを洗い出す専門チーム。
- ai-security№ 691
MLSecOps
データ収集・学習・デプロイ・運用監視・廃止まで、機械学習のライフサイクル全体にセキュリティとリスク管理を統合する取り組み。
- ai-security№ 281
データポイズニング
敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
● 関連項目
- № 1168転移可能な敵対的攻撃
- № 014適応的攻撃