Атака уклонения (ML)
Что такое Атака уклонения (ML)?
Атака уклонения (ML)Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.
Атаки уклонения происходят уже после обучения и развёртывания: злоумышленник не трогает пайплайн обучения, а манипулирует запросами, чтобы избежать детектирования. Чаще всего применяются adversarial-примеры, но семейство включает и более простые приёмы — полиморфный вредоносный код, обфускацию символов против модерации текста, клонирование голоса против голосовой биометрии, трансформации против перцептивного хеширования. Отчёт NIST AI 100-2 относит уклонение к четырём главным классам угроз ML наряду с отравлением, приватностью и злоупотреблением. Защита включает adversarial-обучение, устойчивое feature-engineering, мультимодальную или ансамблевую детекцию, runtime-санитизацию входов, телеметрию по дрейфу уверенности и строгий доступ к API моделей.
● Примеры
- 01
Обфусцированный вредоносный файл, который статический ML-классификатор считает безвредным, хотя полезная нагрузка по-прежнему исполняется.
- 02
Текст с гомоглифами, обходящий классификатор токсичности, но для человека неотличимый от исходного.
● Частые вопросы
Что такое Атака уклонения (ML)?
Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Атака уклонения (ML)?
Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.
Как работает Атака уклонения (ML)?
Атаки уклонения происходят уже после обучения и развёртывания: злоумышленник не трогает пайплайн обучения, а манипулирует запросами, чтобы избежать детектирования. Чаще всего применяются adversarial-примеры, но семейство включает и более простые приёмы — полиморфный вредоносный код, обфускацию символов против модерации текста, клонирование голоса против голосовой биометрии, трансформации против перцептивного хеширования. Отчёт NIST AI 100-2 относит уклонение к четырём главным классам угроз ML наряду с отравлением, приватностью и злоупотреблением. Защита включает adversarial-обучение, устойчивое feature-engineering, мультимодальную или ансамблевую детекцию, runtime-санитизацию входов, телеметрию по дрейфу уверенности и строгий доступ к API моделей.
Как защититься от Атака уклонения (ML)?
Защита от Атака уклонения (ML) обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Атака уклонения (ML)?
Распространённые альтернативные названия: Атака на этапе вывода, Уклонение модели.
● Связанные термины
- ai-security№ 018
Состязательный пример
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
- ai-security№ 081
Бэкдор-атака (ML)
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- ai-security№ 281
Отравление данных
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.