Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 703

モデル抽出

モデル抽出 とは何ですか?

モデル抽出公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。


モデル抽出(モデル窃取)は、デプロイされたモデルを神託として扱います。攻撃者は大量に細工した入力を送り、出力(logits、確率、あるいは単なるラベル)を記録し、被害モデルを近似する代理モデルを訓練します。Tramèr らは 2016 年に商用 MLaaS API に対して実用的であることを示し、現代の変種は LLM に対してファインチューニング済みの作風、システムプロンプト、果ては小規模な dense 層までも抽出対象とします。目的は知的財産の窃取、有償利用の回避、オフラインでの敵対的サンプル生成、重みに焼き込まれた専有データの復元など多岐にわたります。防御手段にはクエリレート制限、アクセスパターンの異常検知、出力への透かし、Top-k ラベルのみの返却、信頼度スコアへの較正済みノイズ付与などがあります。

  1. 01

    商用分類器に数百万回クエリを投げ、その出力を真似る無料クローンを訓練する。

  2. 02

    LLM ベースのアシスタントの応答をサンプリングし、専有のシステムプロンプトを復元する。

よくある質問

モデル抽出 とは何ですか?

公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。

モデル抽出 とはどういう意味ですか?

公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。

モデル抽出 はどのように機能しますか?

モデル抽出(モデル窃取)は、デプロイされたモデルを神託として扱います。攻撃者は大量に細工した入力を送り、出力(logits、確率、あるいは単なるラベル)を記録し、被害モデルを近似する代理モデルを訓練します。Tramèr らは 2016 年に商用 MLaaS API に対して実用的であることを示し、現代の変種は LLM に対してファインチューニング済みの作風、システムプロンプト、果ては小規模な dense 層までも抽出対象とします。目的は知的財産の窃取、有償利用の回避、オフラインでの敵対的サンプル生成、重みに焼き込まれた専有データの復元など多岐にわたります。防御手段にはクエリレート制限、アクセスパターンの異常検知、出力への透かし、Top-k ラベルのみの返却、信頼度スコアへの較正済みノイズ付与などがあります。

モデル抽出 からどのように防御しますか?

モデル抽出 に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。

モデル抽出 の別名は何ですか?

一般的な別名: モデル窃取, 機能抽出。

関連用語

関連項目