Извлечение модели
Что такое Извлечение модели?
Извлечение моделиАтака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
Извлечение модели (model stealing) рассматривает развёрнутую модель как оракул. Злоумышленник отправляет большое число специально подобранных входных данных, фиксирует выходы (логиты, вероятности или только метки) и обучает суррогатную модель, аппроксимирующую жертву. Tramèr и соавторы (2016) показали практическую осуществимость атаки против коммерческих MLaaS-API; современные варианты нацелены на LLM и извлекают тонко настроенные стили, системные промпты и даже небольшие dense-слои. Цели — кража интеллектуальной собственности, обход платного доступа, офлайн-генерация adversarial-примеров и восстановление приватных данных, «зашитых» в веса. Защита — лимиты запросов, выявление аномалий шаблонов доступа, водяные знаки на вывод, возврат лишь top-k меток и калиброванный шум на уверенностях.
● Примеры
- 01
Миллионы запросов к коммерческому классификатору для обучения бесплатного клона, повторяющего его ответы.
- 02
Восстановление проприетарного системного промпта через сэмплирование ответов LLM-ассистента.
● Частые вопросы
Что такое Извлечение модели?
Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Извлечение модели?
Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
Как защититься от Извлечение модели?
Защита от Извлечение модели обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Извлечение модели?
Распространённые альтернативные названия: Кража модели, Извлечение функциональности.