Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 081

Ataque de backdoor (ML)

O que é Ataque de backdoor (ML)?

Ataque de backdoor (ML)Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.


Os ataques de backdoor (ou trojan) foram popularizados pelo artigo BadNets de Gu et al. (2017). O atacante envenena os dados de treino, de fine-tuning ou os próprios pesos do modelo com exemplos que associam um padrão de gatilho — autocolante, token, marca de água ou até um estilo de digitação — a uma etiqueta ou comportamento alvo. Depois de implementado, o modelo passa nos testes porque a precisão em dados limpos é preservada, mas falha quando o gatilho aparece. É especialmente preocupante para modelos pré-treinados distribuídos em hubs públicos e para aprendizagem federada. As defesas incluem proveniência dos dados, técnicas como Neural Cleanse e fine-pruning, análise de clusters de ativações, treino adversarial e carregar pesos apenas de fontes assinadas.

Exemplos

  1. 01

    Classificador de imagens que rotula como "avião" qualquer foto que contenha um pequeno quadrado amarelo.

  2. 02

    LLM com fine-tuning envenenado que emite um payload malicioso específico quando aparece uma frase de controlo rara.

Perguntas frequentes

O que é Ataque de backdoor (ML)?

Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Ataque de backdoor (ML)?

Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.

Como funciona Ataque de backdoor (ML)?

Os ataques de backdoor (ou trojan) foram popularizados pelo artigo BadNets de Gu et al. (2017). O atacante envenena os dados de treino, de fine-tuning ou os próprios pesos do modelo com exemplos que associam um padrão de gatilho — autocolante, token, marca de água ou até um estilo de digitação — a uma etiqueta ou comportamento alvo. Depois de implementado, o modelo passa nos testes porque a precisão em dados limpos é preservada, mas falha quando o gatilho aparece. É especialmente preocupante para modelos pré-treinados distribuídos em hubs públicos e para aprendizagem federada. As defesas incluem proveniência dos dados, técnicas como Neural Cleanse e fine-pruning, análise de clusters de ativações, treino adversarial e carregar pesos apenas de fontes assinadas.

Como se defender contra Ataque de backdoor (ML)?

As defesas contra Ataque de backdoor (ML) costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Ataque de backdoor (ML)?

Nomes alternativos comuns: Ataque trojan, Ataque BadNets.

Termos relacionados