Состязательный пример
Что такое Состязательный пример?
Состязательный примерНамеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
Состязательные примеры стали известны благодаря работам Szegedy и соавторов (2013) и статье Goodfellow и соавторов про FGSM (2014), показавшей, что крошечные попиксельные возмущения заставляют топовые классификаторы изображений ошибаться с высокой уверенностью. Их обычно строят градиентной оптимизацией (FGSM, PGD, Carlini-Wagner) или черно-ящичными запросами; они переносятся между моделями, что позволяет атаковать без внутреннего доступа. Помимо изображений они известны для текста, аудио, кода и детекторов вредоносного ПО и лежат в основе большинства evasion-атак на продакшене. Защита включает adversarial-обучение, сертифицированную робастность (randomized smoothing), предобработку входов, ансамблирование и runtime-выявление аномалий, но полной устойчивости в высокой размерности пока не достичь.
● Примеры
- 01
Дорожный знак "STOP" с тщательно подобранными наклейками, который классификатор автопилота читает как знак ограничения скорости.
- 02
Аудиофрагмент, неотличимый от фонового шума, который ASR голосового ассистента распознаёт как вредоносную команду.
● Частые вопросы
Что такое Состязательный пример?
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Состязательный пример?
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
Как работает Состязательный пример?
Состязательные примеры стали известны благодаря работам Szegedy и соавторов (2013) и статье Goodfellow и соавторов про FGSM (2014), показавшей, что крошечные попиксельные возмущения заставляют топовые классификаторы изображений ошибаться с высокой уверенностью. Их обычно строят градиентной оптимизацией (FGSM, PGD, Carlini-Wagner) или черно-ящичными запросами; они переносятся между моделями, что позволяет атаковать без внутреннего доступа. Помимо изображений они известны для текста, аудио, кода и детекторов вредоносного ПО и лежат в основе большинства evasion-атак на продакшене. Защита включает adversarial-обучение, сертифицированную робастность (randomized smoothing), предобработку входов, ансамблирование и runtime-выявление аномалий, но полной устойчивости в высокой размерности пока не достичь.
Как защититься от Состязательный пример?
Защита от Состязательный пример обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Состязательный пример?
Распространённые альтернативные названия: Состязательный вход, Состязательное возмущение.
● Связанные термины
- ai-security№ 393
Атака уклонения (ML)
Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.
- ai-security№ 081
Бэкдор-атака (ML)
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- ai-security№ 281
Отравление данных
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.