Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 081

Бэкдор-атака (ML)

Что такое Бэкдор-атака (ML)?

Бэкдор-атака (ML)Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.


Бэкдор-атаки (или трояны) получили известность благодаря работе Gu и соавторов BadNets (2017). Злоумышленник отравляет обучающую выборку, данные дообучения или сами веса примерами, связывающими шаблон-триггер — наклейку, токен, водяной знак или даже стиль набора — с целевой меткой или поведением. После развёртывания модель проходит тесты, поскольку точность на чистых данных сохраняется, но при появлении триггера ведёт себя по-другому. Особенно опасно для предобученных моделей из публичных хабов и федеративного обучения. Защита включает контроль происхождения данных, методы Neural Cleanse и fine-pruning, анализ кластеров активаций, adversarial-обучение и загрузку весов только из проверенных и подписанных источников.

Примеры

  1. 01

    Классификатор изображений помечает любой снимок с маленьким жёлтым квадратом как «самолёт», независимо от содержимого.

  2. 02

    LLM, дообученный отравленными данными, при редкой контрольной фразе выдаёт конкретный вредоносный payload.

Частые вопросы

Что такое Бэкдор-атака (ML)?

Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником. Относится к категории Безопасность ИИ и ML в кибербезопасности.

Что означает Бэкдор-атака (ML)?

Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.

Как работает Бэкдор-атака (ML)?

Бэкдор-атаки (или трояны) получили известность благодаря работе Gu и соавторов BadNets (2017). Злоумышленник отравляет обучающую выборку, данные дообучения или сами веса примерами, связывающими шаблон-триггер — наклейку, токен, водяной знак или даже стиль набора — с целевой меткой или поведением. После развёртывания модель проходит тесты, поскольку точность на чистых данных сохраняется, но при появлении триггера ведёт себя по-другому. Особенно опасно для предобученных моделей из публичных хабов и федеративного обучения. Защита включает контроль происхождения данных, методы Neural Cleanse и fine-pruning, анализ кластеров активаций, adversarial-обучение и загрузку весов только из проверенных и подписанных источников.

Как защититься от Бэкдор-атака (ML)?

Защита от Бэкдор-атака (ML) обычно сочетает технические меры и операционные практики, как описано в определении выше.

Какие есть другие названия Бэкдор-атака (ML)?

Распространённые альтернативные названия: Троянская атака, Атака BadNets.

Связанные термины