Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 703

Извлечение модели

Что такое Извлечение модели?

Извлечение моделиАтака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.


Извлечение модели (model stealing) рассматривает развёрнутую модель как оракул. Злоумышленник отправляет большое число специально подобранных входных данных, фиксирует выходы (логиты, вероятности или только метки) и обучает суррогатную модель, аппроксимирующую жертву. Tramèr и соавторы (2016) показали практическую осуществимость атаки против коммерческих MLaaS-API; современные варианты нацелены на LLM и извлекают тонко настроенные стили, системные промпты и даже небольшие dense-слои. Цели — кража интеллектуальной собственности, обход платного доступа, офлайн-генерация adversarial-примеров и восстановление приватных данных, «зашитых» в веса. Защита — лимиты запросов, выявление аномалий шаблонов доступа, водяные знаки на вывод, возврат лишь top-k меток и калиброванный шум на уверенностях.

Примеры

  1. 01

    Миллионы запросов к коммерческому классификатору для обучения бесплатного клона, повторяющего его ответы.

  2. 02

    Восстановление проприетарного системного промпта через сэмплирование ответов LLM-ассистента.

Частые вопросы

Что такое Извлечение модели?

Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API. Относится к категории Безопасность ИИ и ML в кибербезопасности.

Что означает Извлечение модели?

Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.

Как работает Извлечение модели?

Извлечение модели (model stealing) рассматривает развёрнутую модель как оракул. Злоумышленник отправляет большое число специально подобранных входных данных, фиксирует выходы (логиты, вероятности или только метки) и обучает суррогатную модель, аппроксимирующую жертву. Tramèr и соавторы (2016) показали практическую осуществимость атаки против коммерческих MLaaS-API; современные варианты нацелены на LLM и извлекают тонко настроенные стили, системные промпты и даже небольшие dense-слои. Цели — кража интеллектуальной собственности, обход платного доступа, офлайн-генерация adversarial-примеров и восстановление приватных данных, «зашитых» в веса. Защита — лимиты запросов, выявление аномалий шаблонов доступа, водяные знаки на вывод, возврат лишь top-k меток и калиброванный шум на уверенностях.

Как защититься от Извлечение модели?

Защита от Извлечение модели обычно сочетает технические меры и операционные практики, как описано в определении выше.

Какие есть другие названия Извлечение модели?

Распространённые альтернативные названия: Кража модели, Извлечение функциональности.

Связанные термины

См. также