Адаптивная атака
Что такое Адаптивная атака?
Адаптивная атакаАтака на систему машинного обучения, специально спроектированная для обхода или взлома конкретной известной защиты, а не использующая универсальную технику.
Адаптивная атака строится с полным знанием атакуемой защиты и её допущений, а функция потерь или ограничения подгоняются под её обход. Термин популяризировали Карлини и Вагнер: их работы неоднократно показывали, что защиты, заявленные как устойчивые к универсальным состязательным примерам, рушатся, как только противник проектирует целевую функцию против них самих. Сегодня адаптивные атаки — стандарт оценки: любая новая защита для состязательных примеров, водяных знаков или детектирования должна проверяться против противников, знающих защиту и способных адаптировать методологию. Игнорирование этого шага регулярно приводит к завышенным заявлениям об устойчивости, которые опровергаются простыми, но грамотно построенными атаками.
● Примеры
- 01
Карлини и Вагнер сломали несколько детекторов состязательных примеров, перенацелив функцию потерь атаки на конкретное решающее правило каждого детектора.
- 02
Адаптивная атака побеждает схему водяных знаков для ИИ-изображений, оптимизируя возмущения именно против опубликованного детектора.
● Частые вопросы
Что такое Адаптивная атака?
Атака на систему машинного обучения, специально спроектированная для обхода или взлома конкретной известной защиты, а не использующая универсальную технику. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Адаптивная атака?
Атака на систему машинного обучения, специально спроектированная для обхода или взлома конкретной известной защиты, а не использующая универсальную технику.
Как работает Адаптивная атака?
Адаптивная атака строится с полным знанием атакуемой защиты и её допущений, а функция потерь или ограничения подгоняются под её обход. Термин популяризировали Карлини и Вагнер: их работы неоднократно показывали, что защиты, заявленные как устойчивые к универсальным состязательным примерам, рушатся, как только противник проектирует целевую функцию против них самих. Сегодня адаптивные атаки — стандарт оценки: любая новая защита для состязательных примеров, водяных знаков или детектирования должна проверяться против противников, знающих защиту и способных адаптировать методологию. Игнорирование этого шага регулярно приводит к завышенным заявлениям об устойчивости, которые опровергаются простыми, но грамотно построенными атаками.
Как защититься от Адаптивная атака?
Защита от Адаптивная атака обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Адаптивная атака?
Распространённые альтернативные названия: Атака с учётом защиты, Адаптивная оценка в режиме белого ящика.
● Связанные термины
- ai-security№ 1168
Переносимая состязательная атака
Атака, при которой состязательные примеры, созданные против одной ML-модели, обманывают и другие модели, что делает возможной чёрноящичную атаку без доступа к цели.
- ai-security№ 018
Состязательный пример
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- ai-security№ 026
Обнаружение ИИ-контента
Инструменты и методы, оценивающие, был ли текст, изображение, аудио или видео создан моделью ИИ, а не человеком.