Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 281

Envenenamento de dados

O que é Envenenamento de dados?

Envenenamento de dadosAtaque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.


O envenenamento de dados ataca a fase de treino do ciclo de vida ML. O atacante manipula conjuntos de dados — crawls web públicos, etiquetas em crowdsourcing, corpora de fine-tuning ou registos de feedback — para enviesar o modelo, degradar a precisão ou implantar comportamento ativado por um gatilho. Carlini et al. mostraram em 2023 que frações ínfimas de dados envenenados na web bastam para corromper grandes corpora de pré-treino. As variantes incluem ataques de disponibilidade, ataques direcionados e ataques de backdoor. As defesas centram-se em proveniência e assinatura de datasets, deduplicação, deteção de anomalias nos dados de treino, algoritmos de aprendizagem robustos e avaliação contínua contra conjuntos de teste adversariais.

Exemplos

  1. 01

    Um atacante edita a Wikipédia ou domínios expirados para que o texto contaminado seja recolhido num futuro corpus de pré-treino.

  2. 02

    Um contribuidor malicioso submete amostras mal etiquetadas a um dataset open-source de classificação de imagens.

Perguntas frequentes

O que é Envenenamento de dados?

Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Envenenamento de dados?

Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.

Como funciona Envenenamento de dados?

O envenenamento de dados ataca a fase de treino do ciclo de vida ML. O atacante manipula conjuntos de dados — crawls web públicos, etiquetas em crowdsourcing, corpora de fine-tuning ou registos de feedback — para enviesar o modelo, degradar a precisão ou implantar comportamento ativado por um gatilho. Carlini et al. mostraram em 2023 que frações ínfimas de dados envenenados na web bastam para corromper grandes corpora de pré-treino. As variantes incluem ataques de disponibilidade, ataques direcionados e ataques de backdoor. As defesas centram-se em proveniência e assinatura de datasets, deduplicação, deteção de anomalias nos dados de treino, algoritmos de aprendizagem robustos e avaliação contínua contra conjuntos de teste adversariais.

Como se defender contra Envenenamento de dados?

As defesas contra Envenenamento de dados costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Envenenamento de dados?

Nomes alternativos comuns: Envenenamento dos dados de treino, Envenenamento de dataset.

Termos relacionados

Veja também