Envenenamento de dados
O que é Envenenamento de dados?
Envenenamento de dadosAtaque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
O envenenamento de dados ataca a fase de treino do ciclo de vida ML. O atacante manipula conjuntos de dados — crawls web públicos, etiquetas em crowdsourcing, corpora de fine-tuning ou registos de feedback — para enviesar o modelo, degradar a precisão ou implantar comportamento ativado por um gatilho. Carlini et al. mostraram em 2023 que frações ínfimas de dados envenenados na web bastam para corromper grandes corpora de pré-treino. As variantes incluem ataques de disponibilidade, ataques direcionados e ataques de backdoor. As defesas centram-se em proveniência e assinatura de datasets, deduplicação, deteção de anomalias nos dados de treino, algoritmos de aprendizagem robustos e avaliação contínua contra conjuntos de teste adversariais.
● Exemplos
- 01
Um atacante edita a Wikipédia ou domínios expirados para que o texto contaminado seja recolhido num futuro corpus de pré-treino.
- 02
Um contribuidor malicioso submete amostras mal etiquetadas a um dataset open-source de classificação de imagens.
● Perguntas frequentes
O que é Envenenamento de dados?
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Envenenamento de dados?
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
Como funciona Envenenamento de dados?
O envenenamento de dados ataca a fase de treino do ciclo de vida ML. O atacante manipula conjuntos de dados — crawls web públicos, etiquetas em crowdsourcing, corpora de fine-tuning ou registos de feedback — para enviesar o modelo, degradar a precisão ou implantar comportamento ativado por um gatilho. Carlini et al. mostraram em 2023 que frações ínfimas de dados envenenados na web bastam para corromper grandes corpora de pré-treino. As variantes incluem ataques de disponibilidade, ataques direcionados e ataques de backdoor. As defesas centram-se em proveniência e assinatura de datasets, deduplicação, deteção de anomalias nos dados de treino, algoritmos de aprendizagem robustos e avaliação contínua contra conjuntos de teste adversariais.
Como se defender contra Envenenamento de dados?
As defesas contra Envenenamento de dados costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Envenenamento de dados?
Nomes alternativos comuns: Envenenamento dos dados de treino, Envenenamento de dataset.
● Termos relacionados
- ai-security№ 081
Ataque de backdoor (ML)
Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.
- ai-security№ 034
Risco de cadeia de fornecimento de IA
Conjunto de ameaças decorrentes dos datasets, modelos base, bibliotecas, plug-ins e infraestrutura de terceiros que as organizações combinam para construir e implementar sistemas de IA.
- ai-security№ 729
Ataque Nightshade
Técnica de envenenamento de dados desenvolvida pela equipa Glaze da Universidade de Chicago que adiciona perturbações impercetíveis a imagens, fazendo com que modelos text-to-image treinados nelas aprendam conceitos profundamente distorcidos.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
- ai-security№ 018
Exemplo adversarial
Entrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
● Veja também
- № 704Inversão de modelo
- № 393Ataque de evasão (ML)
- № 666Ataque de inferência de pertença
- № 1026Shadow AI
- № 025AI Bill of Materials (AIBOM)
- № 898Segurança RAG
- № 897RAG
- № 376Ataques a embeddings