モデル抽出

Q: モデル抽出 とは何ですか?

公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。

Q: モデル抽出 からどのように防御しますか?

モデル抽出 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。

監修Florian AmetteCybersecurity entrepreneur & security researcher

モデル抽出とは何ですか?

モデル抽出公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。

モデル抽出(モデル窃取)は、デプロイされたモデルを神託として扱います。攻撃者は大量に細工した入力を送り、出力(logits、確率、あるいは単なるラベル)を記録し、被害モデルを近似する代理モデルを訓練します。Tramèr らは 2016 年に商用 MLaaS API に対して実用的であることを示し、現代の変種は LLM に対してファインチューニング済みの作風、システムプロンプト、果ては小規模な dense 層までも抽出対象とします。目的は知的財産の窃取、有償利用の回避、オフラインでの敵対的サンプル生成、重みに焼き込まれた専有データの復元など多岐にわたります。防御手段にはクエリレート制限、アクセスパターンの異常検知、出力への透かし、Top-k ラベルのみの返却、信頼度スコアへの較正済みノイズ付与などがあります。

● 例

01
商用分類器に数百万回クエリを投げ、その出力を真似る無料クローンを訓練する。
02
LLM ベースのアシスタントの応答をサンプリングし、専有のシステムプロンプトを復元する。

● よくある質問

モデル抽出とは何ですか?

公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。サイバーセキュリティの AI / ML セキュリティカテゴリに属します。

モデル抽出とはどういう意味ですか?

公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。

モデル抽出からどのように防御しますか?

モデル抽出に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。

モデル抽出の別名は何ですか?

一般的な別名: モデル窃取, 機能抽出。

● 関連用語

● 関連項目

転移可能な敵対的攻撃

モデル抽出 とは何ですか?

● 例

● よくある質問

● 関連用語

● 関連項目

モデル抽出とは何ですか?