Envenenamento de dados

Revisado porFlorian AmetteCybersecurity entrepreneur & security researcher

O que é Envenenamento de dados?

Envenenamento de dadosAtaque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.

O envenenamento de dados ataca a fase de treino do ciclo de vida ML. O atacante manipula conjuntos de dados — crawls web públicos, etiquetas em crowdsourcing, corpora de fine-tuning ou registos de feedback — para enviesar o modelo, degradar a precisão ou implantar comportamento ativado por um gatilho. Carlini et al. mostraram em 2023 que frações ínfimas de dados envenenados na web bastam para corromper grandes corpora de pré-treino. As variantes incluem ataques de disponibilidade, ataques direcionados e ataques de backdoor. As defesas centram-se em proveniência e assinatura de datasets, deduplicação, deteção de anomalias nos dados de treino, algoritmos de aprendizagem robustos e avaliação contínua contra conjuntos de teste adversariais.

● Exemplos

01
Um atacante edita a Wikipédia ou domínios expirados para que o texto contaminado seja recolhido num futuro corpus de pré-treino.
02
Um contribuidor malicioso submete amostras mal etiquetadas a um dataset open-source de classificação de imagens.

● Perguntas frequentes

O que é Envenenamento de dados?

Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Envenenamento de dados?

Como se defender contra Envenenamento de dados?

As defesas contra Envenenamento de dados costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Envenenamento de dados?

Nomes alternativos comuns: Envenenamento dos dados de treino, Envenenamento de dataset.

Envenenamento de dados

O que é Envenenamento de dados?

● Exemplos

● Perguntas frequentes

● Termos relacionados

● Ver também