Exemplo adversarial
O que é Exemplo adversarial?
Exemplo adversarialEntrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
Os exemplos adversariais foram destacados por Szegedy et al. (2013) e pelo artigo FGSM de Goodfellow et al. (2014), que mostrou que pequenas perturbações ao nível do pixel levavam classificadores de imagem de ponta a errar com alta confiança. Costumam ser criados por otimização baseada em gradientes (FGSM, PGD, Carlini-Wagner) ou consultas black-box; transferem-se entre modelos, permitindo ataques sem acesso interno. Existem também para texto, áudio, código e detetores de malware, sustentando a maioria dos ataques de evasão em produção. As defesas incluem treino adversarial, robustez certificada (randomized smoothing), pré-processamento de entradas, ensembles e deteção de anomalias em runtime — nenhuma garante robustez plena em altas dimensões.
● Exemplos
- 01
Um sinal de stop coberto com autocolantes cuidadosamente concebidos, lido como sinal de limite de velocidade por um classificador de condução autónoma.
- 02
Um excerto de áudio indistinguível de ruído de fundo que o ASR de um assistente de voz transcreve como um comando malicioso.
● Perguntas frequentes
O que é Exemplo adversarial?
Entrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Exemplo adversarial?
Entrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
Como funciona Exemplo adversarial?
Os exemplos adversariais foram destacados por Szegedy et al. (2013) e pelo artigo FGSM de Goodfellow et al. (2014), que mostrou que pequenas perturbações ao nível do pixel levavam classificadores de imagem de ponta a errar com alta confiança. Costumam ser criados por otimização baseada em gradientes (FGSM, PGD, Carlini-Wagner) ou consultas black-box; transferem-se entre modelos, permitindo ataques sem acesso interno. Existem também para texto, áudio, código e detetores de malware, sustentando a maioria dos ataques de evasão em produção. As defesas incluem treino adversarial, robustez certificada (randomized smoothing), pré-processamento de entradas, ensembles e deteção de anomalias em runtime — nenhuma garante robustez plena em altas dimensões.
Como se defender contra Exemplo adversarial?
As defesas contra Exemplo adversarial costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Exemplo adversarial?
Nomes alternativos comuns: Entrada adversarial, Perturbação adversarial.
● Termos relacionados
- ai-security№ 393
Ataque de evasão (ML)
Ataque em tempo de inferência em que o adversário cria entradas que contornam a decisão pretendida de um modelo de ML implementado, como um classificador de malware ou um filtro de conteúdo.
- ai-security№ 081
Ataque de backdoor (ML)
Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.