Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1168

Ataque Adversarial Transferivel

O que é Ataque Adversarial Transferivel?

Ataque Adversarial TransferivelAtaque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo.


Um ataque adversarial transferivel explora a observacao empirica, sistematizada por Papernot, McDaniel e Goodfellow, de que exemplos adversariais gerados contra um modelo continuam frequentemente mal classificados por outros modelos treinados com dados semelhantes. O atacante treina um modelo substituto local, fabrica entradas adversariais com metodos de caixa branca como FGSM ou PGD e submete-as a um alvo remoto em caixa-preta sem acesso interno. A transferibilidade foi demonstrada contra classificadores de imagem, detectores de malware, modelos de PLN e APIs comerciais na nuvem. As defesas incluem treino adversarial com perturbacoes variadas, transformacao de entradas, detectores baseados em desacordo de ensembles e metodos de robustez certificada como randomized smoothing.

Exemplos

  1. 01

    Um atacante treina localmente uma CNN substituta e cria exemplos FGSM que tambem iludem uma API remota de moderacao de imagens.

  2. 02

    Amostras de malware adversariais geradas contra um classificador open source contornam ainda varios antivirus comerciais baseados em ML.

Perguntas frequentes

O que é Ataque Adversarial Transferivel?

Ataque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Ataque Adversarial Transferivel?

Ataque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo.

Como funciona Ataque Adversarial Transferivel?

Um ataque adversarial transferivel explora a observacao empirica, sistematizada por Papernot, McDaniel e Goodfellow, de que exemplos adversariais gerados contra um modelo continuam frequentemente mal classificados por outros modelos treinados com dados semelhantes. O atacante treina um modelo substituto local, fabrica entradas adversariais com metodos de caixa branca como FGSM ou PGD e submete-as a um alvo remoto em caixa-preta sem acesso interno. A transferibilidade foi demonstrada contra classificadores de imagem, detectores de malware, modelos de PLN e APIs comerciais na nuvem. As defesas incluem treino adversarial com perturbacoes variadas, transformacao de entradas, detectores baseados em desacordo de ensembles e metodos de robustez certificada como randomized smoothing.

Como se defender contra Ataque Adversarial Transferivel?

As defesas contra Ataque Adversarial Transferivel costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Ataque Adversarial Transferivel?

Nomes alternativos comuns: Transferencia adversarial entre modelos, Ataque de transferencia em caixa-preta.

Termos relacionados