モデル抽出
モデル抽出 とは何ですか?
モデル抽出公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。
モデル抽出(モデル窃取)は、デプロイされたモデルを神託として扱います。攻撃者は大量に細工した入力を送り、出力(logits、確率、あるいは単なるラベル)を記録し、被害モデルを近似する代理モデルを訓練します。Tramèr らは 2016 年に商用 MLaaS API に対して実用的であることを示し、現代の変種は LLM に対してファインチューニング済みの作風、システムプロンプト、果ては小規模な dense 層までも抽出対象とします。目的は知的財産の窃取、有償利用の回避、オフラインでの敵対的サンプル生成、重みに焼き込まれた専有データの復元など多岐にわたります。防御手段にはクエリレート制限、アクセスパターンの異常検知、出力への透かし、Top-k ラベルのみの返却、信頼度スコアへの較正済みノイズ付与などがあります。
● 例
- 01
商用分類器に数百万回クエリを投げ、その出力を真似る無料クローンを訓練する。
- 02
LLM ベースのアシスタントの応答をサンプリングし、専有のシステムプロンプトを復元する。
● よくある質問
モデル抽出 とは何ですか?
公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
モデル抽出 とはどういう意味ですか?
公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。
モデル抽出 はどのように機能しますか?
モデル抽出(モデル窃取)は、デプロイされたモデルを神託として扱います。攻撃者は大量に細工した入力を送り、出力(logits、確率、あるいは単なるラベル)を記録し、被害モデルを近似する代理モデルを訓練します。Tramèr らは 2016 年に商用 MLaaS API に対して実用的であることを示し、現代の変種は LLM に対してファインチューニング済みの作風、システムプロンプト、果ては小規模な dense 層までも抽出対象とします。目的は知的財産の窃取、有償利用の回避、オフラインでの敵対的サンプル生成、重みに焼き込まれた専有データの復元など多岐にわたります。防御手段にはクエリレート制限、アクセスパターンの異常検知、出力への透かし、Top-k ラベルのみの返却、信頼度スコアへの較正済みノイズ付与などがあります。
モデル抽出 からどのように防御しますか?
モデル抽出 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
モデル抽出 の別名は何ですか?
一般的な別名: モデル窃取, 機能抽出。
● 関連用語
- ai-security№ 704
モデル反転攻撃
モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。
- ai-security№ 666
メンバーシップ推論攻撃
あるデータがモデルの学習セットに含まれていたかどうかを、モデルの挙動を解析することで判定するプライバシー攻撃。
- ai-security№ 034
AI サプライチェーンリスク
AI システムを構築・運用するために組織が組み合わせる、第三者のデータセット・ベースモデル・ライブラリ・プラグイン・インフラから生じる脅威の集合。
- ai-security№ 691
MLSecOps
データ収集・学習・デプロイ・運用監視・廃止まで、機械学習のライフサイクル全体にセキュリティとリスク管理を統合する取り組み。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
- ai-security№ 035
AI ウォーターマーキング
AI 生成コンテンツに検出可能な信号を埋め込み、後から来歴・由来モデル・学習データ所属を検証できるようにする技術。
● 関連項目
- № 1168転移可能な敵対的攻撃