Ataque Adversarial Transferivel
O que é Ataque Adversarial Transferivel?
Ataque Adversarial TransferivelAtaque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo.
Um ataque adversarial transferivel explora a observacao empirica, sistematizada por Papernot, McDaniel e Goodfellow, de que exemplos adversariais gerados contra um modelo continuam frequentemente mal classificados por outros modelos treinados com dados semelhantes. O atacante treina um modelo substituto local, fabrica entradas adversariais com metodos de caixa branca como FGSM ou PGD e submete-as a um alvo remoto em caixa-preta sem acesso interno. A transferibilidade foi demonstrada contra classificadores de imagem, detectores de malware, modelos de PLN e APIs comerciais na nuvem. As defesas incluem treino adversarial com perturbacoes variadas, transformacao de entradas, detectores baseados em desacordo de ensembles e metodos de robustez certificada como randomized smoothing.
● Exemplos
- 01
Um atacante treina localmente uma CNN substituta e cria exemplos FGSM que tambem iludem uma API remota de moderacao de imagens.
- 02
Amostras de malware adversariais geradas contra um classificador open source contornam ainda varios antivirus comerciais baseados em ML.
● Perguntas frequentes
O que é Ataque Adversarial Transferivel?
Ataque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Ataque Adversarial Transferivel?
Ataque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo.
Como funciona Ataque Adversarial Transferivel?
Um ataque adversarial transferivel explora a observacao empirica, sistematizada por Papernot, McDaniel e Goodfellow, de que exemplos adversariais gerados contra um modelo continuam frequentemente mal classificados por outros modelos treinados com dados semelhantes. O atacante treina um modelo substituto local, fabrica entradas adversariais com metodos de caixa branca como FGSM ou PGD e submete-as a um alvo remoto em caixa-preta sem acesso interno. A transferibilidade foi demonstrada contra classificadores de imagem, detectores de malware, modelos de PLN e APIs comerciais na nuvem. As defesas incluem treino adversarial com perturbacoes variadas, transformacao de entradas, detectores baseados em desacordo de ensembles e metodos de robustez certificada como randomized smoothing.
Como se defender contra Ataque Adversarial Transferivel?
As defesas contra Ataque Adversarial Transferivel costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Ataque Adversarial Transferivel?
Nomes alternativos comuns: Transferencia adversarial entre modelos, Ataque de transferencia em caixa-preta.
● Termos relacionados
- ai-security№ 018
Exemplo adversarial
Entrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
- ai-security№ 014
Ataque Adaptativo
Ataque a um sistema de ML especificamente concebido para contornar ou quebrar uma defesa conhecida, em vez de usar uma tecnica generica e independente da defesa.
- ai-security№ 703
Extração de modelo
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.