Бэкдор-атака (ML)
Что такое Бэкдор-атака (ML)?
Бэкдор-атака (ML)Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
Бэкдор-атаки (или трояны) получили известность благодаря работе Gu и соавторов BadNets (2017). Злоумышленник отравляет обучающую выборку, данные дообучения или сами веса примерами, связывающими шаблон-триггер — наклейку, токен, водяной знак или даже стиль набора — с целевой меткой или поведением. После развёртывания модель проходит тесты, поскольку точность на чистых данных сохраняется, но при появлении триггера ведёт себя по-другому. Особенно опасно для предобученных моделей из публичных хабов и федеративного обучения. Защита включает контроль происхождения данных, методы Neural Cleanse и fine-pruning, анализ кластеров активаций, adversarial-обучение и загрузку весов только из проверенных и подписанных источников.
● Примеры
- 01
Классификатор изображений помечает любой снимок с маленьким жёлтым квадратом как «самолёт», независимо от содержимого.
- 02
LLM, дообученный отравленными данными, при редкой контрольной фразе выдаёт конкретный вредоносный payload.
● Частые вопросы
Что такое Бэкдор-атака (ML)?
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Бэкдор-атака (ML)?
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
Как работает Бэкдор-атака (ML)?
Бэкдор-атаки (или трояны) получили известность благодаря работе Gu и соавторов BadNets (2017). Злоумышленник отравляет обучающую выборку, данные дообучения или сами веса примерами, связывающими шаблон-триггер — наклейку, токен, водяной знак или даже стиль набора — с целевой меткой или поведением. После развёртывания модель проходит тесты, поскольку точность на чистых данных сохраняется, но при появлении триггера ведёт себя по-другому. Особенно опасно для предобученных моделей из публичных хабов и федеративного обучения. Защита включает контроль происхождения данных, методы Neural Cleanse и fine-pruning, анализ кластеров активаций, adversarial-обучение и загрузку весов только из проверенных и подписанных источников.
Как защититься от Бэкдор-атака (ML)?
Защита от Бэкдор-атака (ML) обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Бэкдор-атака (ML)?
Распространённые альтернативные названия: Троянская атака, Атака BadNets.
● Связанные термины
- ai-security№ 281
Отравление данных
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- ai-security№ 034
Риски цепочки поставок ИИ
Множество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
- ai-security№ 018
Состязательный пример
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Машиночитаемый перечень всех компонентов ИИ-системы — датасетов, базовых моделей, данных дообучения, библиотек, промптов и оценочных артефактов — используемый для безопасности, соответствия и подотчётности.
- ai-security№ 393
Атака уклонения (ML)
Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.