Бэкдор-атака (ML)
Что такое Бэкдор-атака (ML)?
Бэкдор-атака (ML)Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
Бэкдор-атаки (или трояны) получили известность благодаря работе Gu и соавторов BadNets (2017). Злоумышленник отравляет обучающую выборку, данные дообучения или сами веса примерами, связывающими шаблон-триггер — наклейку, токен, водяной знак или даже стиль набора — с целевой меткой или поведением. После развёртывания модель проходит тесты, поскольку точность на чистых данных сохраняется, но при появлении триггера ведёт себя по-другому. Особенно опасно для предобученных моделей из публичных хабов и федеративного обучения. Защита включает контроль происхождения данных, методы Neural Cleanse и fine-pruning, анализ кластеров активаций, adversarial-обучение и загрузку весов только из проверенных и подписанных источников.
● Примеры
- 01
Классификатор изображений помечает любой снимок с маленьким жёлтым квадратом как «самолёт», независимо от содержимого.
- 02
LLM, дообученный отравленными данными, при редкой контрольной фразе выдаёт конкретный вредоносный payload.
● Частые вопросы
Что такое Бэкдор-атака (ML)?
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Бэкдор-атака (ML)?
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
Как защититься от Бэкдор-атака (ML)?
Защита от Бэкдор-атака (ML) обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Бэкдор-атака (ML)?
Распространённые альтернативные названия: Троянская атака, Атака BadNets.