Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1168

Ataque Adversarial Transferible

¿Qué es Ataque Adversarial Transferible?

Ataque Adversarial TransferibleAtaque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo.


Un ataque adversarial transferible aprovecha la observacion empirica, sistematizada por Papernot, McDaniel y Goodfellow, de que los ejemplos adversariales generados contra un modelo suelen seguir mal clasificados por otros modelos entrenados con datos similares. El atacante entrena un modelo sustituto local, fabrica entradas con metodos de caja blanca como FGSM o PGD y las envia a un objetivo remoto en caja negra sin acceso interno. Se ha demostrado transferibilidad contra clasificadores de imagenes, detectores de malware, modelos de PLN y APIs comerciales en la nube. Las defensas incluyen entrenamiento adversarial con perturbaciones diversas, transformaciones de entrada, detectores por desacuerdo de conjuntos y metodos de robustez certificada como suavizado aleatorizado.

Ejemplos

  1. 01

    Un atacante entrena localmente una CNN sustituta y crea ejemplos FGSM que tambien evaden una API remota de moderacion de imagenes.

  2. 02

    Muestras de malware adversarial generadas contra un clasificador de codigo abierto evaden tambien varios motores antivirus comerciales basados en ML.

Preguntas frecuentes

¿Qué es Ataque Adversarial Transferible?

Ataque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Ataque Adversarial Transferible?

Ataque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo.

¿Cómo funciona Ataque Adversarial Transferible?

Un ataque adversarial transferible aprovecha la observacion empirica, sistematizada por Papernot, McDaniel y Goodfellow, de que los ejemplos adversariales generados contra un modelo suelen seguir mal clasificados por otros modelos entrenados con datos similares. El atacante entrena un modelo sustituto local, fabrica entradas con metodos de caja blanca como FGSM o PGD y las envia a un objetivo remoto en caja negra sin acceso interno. Se ha demostrado transferibilidad contra clasificadores de imagenes, detectores de malware, modelos de PLN y APIs comerciales en la nube. Las defensas incluyen entrenamiento adversarial con perturbaciones diversas, transformaciones de entrada, detectores por desacuerdo de conjuntos y metodos de robustez certificada como suavizado aleatorizado.

¿Cómo defenderse de Ataque Adversarial Transferible?

Las defensas contra Ataque Adversarial Transferible combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Ataque Adversarial Transferible?

Nombres alternativos comunes: Transferencia adversarial entre modelos, Ataque de transferencia en caja negra.

Términos relacionados