Envenenamento de dados
O que é Envenenamento de dados?
Envenenamento de dadosAtaque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
O envenenamento de dados ataca a fase de treino do ciclo de vida ML. O atacante manipula conjuntos de dados — crawls web públicos, etiquetas em crowdsourcing, corpora de fine-tuning ou registos de feedback — para enviesar o modelo, degradar a precisão ou implantar comportamento ativado por um gatilho. Carlini et al. mostraram em 2023 que frações ínfimas de dados envenenados na web bastam para corromper grandes corpora de pré-treino. As variantes incluem ataques de disponibilidade, ataques direcionados e ataques de backdoor. As defesas centram-se em proveniência e assinatura de datasets, deduplicação, deteção de anomalias nos dados de treino, algoritmos de aprendizagem robustos e avaliação contínua contra conjuntos de teste adversariais.
● Exemplos
- 01
Um atacante edita a Wikipédia ou domínios expirados para que o texto contaminado seja recolhido num futuro corpus de pré-treino.
- 02
Um contribuidor malicioso submete amostras mal etiquetadas a um dataset open-source de classificação de imagens.
● Perguntas frequentes
O que é Envenenamento de dados?
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Envenenamento de dados?
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
Como se defender contra Envenenamento de dados?
As defesas contra Envenenamento de dados costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Envenenamento de dados?
Nomes alternativos comuns: Envenenamento dos dados de treino, Envenenamento de dataset.