Извлечение модели
Что такое Извлечение модели?
Извлечение моделиАтака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
Извлечение модели (model stealing) рассматривает развёрнутую модель как оракул. Злоумышленник отправляет большое число специально подобранных входных данных, фиксирует выходы (логиты, вероятности или только метки) и обучает суррогатную модель, аппроксимирующую жертву. Tramèr и соавторы (2016) показали практическую осуществимость атаки против коммерческих MLaaS-API; современные варианты нацелены на LLM и извлекают тонко настроенные стили, системные промпты и даже небольшие dense-слои. Цели — кража интеллектуальной собственности, обход платного доступа, офлайн-генерация adversarial-примеров и восстановление приватных данных, «зашитых» в веса. Защита — лимиты запросов, выявление аномалий шаблонов доступа, водяные знаки на вывод, возврат лишь top-k меток и калиброванный шум на уверенностях.
● Примеры
- 01
Миллионы запросов к коммерческому классификатору для обучения бесплатного клона, повторяющего его ответы.
- 02
Восстановление проприетарного системного промпта через сэмплирование ответов LLM-ассистента.
● Частые вопросы
Что такое Извлечение модели?
Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Извлечение модели?
Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
Как работает Извлечение модели?
Извлечение модели (model stealing) рассматривает развёрнутую модель как оракул. Злоумышленник отправляет большое число специально подобранных входных данных, фиксирует выходы (логиты, вероятности или только метки) и обучает суррогатную модель, аппроксимирующую жертву. Tramèr и соавторы (2016) показали практическую осуществимость атаки против коммерческих MLaaS-API; современные варианты нацелены на LLM и извлекают тонко настроенные стили, системные промпты и даже небольшие dense-слои. Цели — кража интеллектуальной собственности, обход платного доступа, офлайн-генерация adversarial-примеров и восстановление приватных данных, «зашитых» в веса. Защита — лимиты запросов, выявление аномалий шаблонов доступа, водяные знаки на вывод, возврат лишь top-k меток и калиброванный шум на уверенностях.
Как защититься от Извлечение модели?
Защита от Извлечение модели обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Извлечение модели?
Распространённые альтернативные названия: Кража модели, Извлечение функциональности.
● Связанные термины
- ai-security№ 704
Инверсия модели
Атака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.
- ai-security№ 666
Атака на вывод членства
Атака на приватность, определяющая, входила ли конкретная запись в обучающую выборку модели, через анализ её поведения на этой записи.
- ai-security№ 034
Риски цепочки поставок ИИ
Множество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 035
Водяные знаки для ИИ
Методы встраивания обнаруживаемого сигнала в ИИ-генерируемый контент, чтобы впоследствии можно было проверить его происхождение, модель источника или принадлежность обучающему набору.