Ataque de backdoor (ML)
O que é Ataque de backdoor (ML)?
Ataque de backdoor (ML)Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.
Os ataques de backdoor (ou trojan) foram popularizados pelo artigo BadNets de Gu et al. (2017). O atacante envenena os dados de treino, de fine-tuning ou os próprios pesos do modelo com exemplos que associam um padrão de gatilho — autocolante, token, marca de água ou até um estilo de digitação — a uma etiqueta ou comportamento alvo. Depois de implementado, o modelo passa nos testes porque a precisão em dados limpos é preservada, mas falha quando o gatilho aparece. É especialmente preocupante para modelos pré-treinados distribuídos em hubs públicos e para aprendizagem federada. As defesas incluem proveniência dos dados, técnicas como Neural Cleanse e fine-pruning, análise de clusters de ativações, treino adversarial e carregar pesos apenas de fontes assinadas.
● Exemplos
- 01
Classificador de imagens que rotula como "avião" qualquer foto que contenha um pequeno quadrado amarelo.
- 02
LLM com fine-tuning envenenado que emite um payload malicioso específico quando aparece uma frase de controlo rara.
● Perguntas frequentes
O que é Ataque de backdoor (ML)?
Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Ataque de backdoor (ML)?
Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.
Como funciona Ataque de backdoor (ML)?
Os ataques de backdoor (ou trojan) foram popularizados pelo artigo BadNets de Gu et al. (2017). O atacante envenena os dados de treino, de fine-tuning ou os próprios pesos do modelo com exemplos que associam um padrão de gatilho — autocolante, token, marca de água ou até um estilo de digitação — a uma etiqueta ou comportamento alvo. Depois de implementado, o modelo passa nos testes porque a precisão em dados limpos é preservada, mas falha quando o gatilho aparece. É especialmente preocupante para modelos pré-treinados distribuídos em hubs públicos e para aprendizagem federada. As defesas incluem proveniência dos dados, técnicas como Neural Cleanse e fine-pruning, análise de clusters de ativações, treino adversarial e carregar pesos apenas de fontes assinadas.
Como se defender contra Ataque de backdoor (ML)?
As defesas contra Ataque de backdoor (ML) costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Ataque de backdoor (ML)?
Nomes alternativos comuns: Ataque trojan, Ataque BadNets.
● Termos relacionados
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- ai-security№ 034
Risco de cadeia de fornecimento de IA
Conjunto de ameaças decorrentes dos datasets, modelos base, bibliotecas, plug-ins e infraestrutura de terceiros que as organizações combinam para construir e implementar sistemas de IA.
- ai-security№ 018
Exemplo adversarial
Entrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Inventário legível por máquina de cada componente de um sistema de IA — datasets, modelos base, dados de fine-tuning, bibliotecas, prompts e artefactos de avaliação — usado para segurança, conformidade e responsabilização.
- ai-security№ 393
Ataque de evasão (ML)
Ataque em tempo de inferência em que o adversário cria entradas que contornam a decisão pretendida de um modelo de ML implementado, como um classificador de malware ou um filtro de conteúdo.