Ataque Adversarial Transferible
¿Qué es Ataque Adversarial Transferible?
Ataque Adversarial TransferibleAtaque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo.
Un ataque adversarial transferible aprovecha la observacion empirica, sistematizada por Papernot, McDaniel y Goodfellow, de que los ejemplos adversariales generados contra un modelo suelen seguir mal clasificados por otros modelos entrenados con datos similares. El atacante entrena un modelo sustituto local, fabrica entradas con metodos de caja blanca como FGSM o PGD y las envia a un objetivo remoto en caja negra sin acceso interno. Se ha demostrado transferibilidad contra clasificadores de imagenes, detectores de malware, modelos de PLN y APIs comerciales en la nube. Las defensas incluyen entrenamiento adversarial con perturbaciones diversas, transformaciones de entrada, detectores por desacuerdo de conjuntos y metodos de robustez certificada como suavizado aleatorizado.
● Ejemplos
- 01
Un atacante entrena localmente una CNN sustituta y crea ejemplos FGSM que tambien evaden una API remota de moderacion de imagenes.
- 02
Muestras de malware adversarial generadas contra un clasificador de codigo abierto evaden tambien varios motores antivirus comerciales basados en ML.
● Preguntas frecuentes
¿Qué es Ataque Adversarial Transferible?
Ataque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ataque Adversarial Transferible?
Ataque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo.
¿Cómo funciona Ataque Adversarial Transferible?
Un ataque adversarial transferible aprovecha la observacion empirica, sistematizada por Papernot, McDaniel y Goodfellow, de que los ejemplos adversariales generados contra un modelo suelen seguir mal clasificados por otros modelos entrenados con datos similares. El atacante entrena un modelo sustituto local, fabrica entradas con metodos de caja blanca como FGSM o PGD y las envia a un objetivo remoto en caja negra sin acceso interno. Se ha demostrado transferibilidad contra clasificadores de imagenes, detectores de malware, modelos de PLN y APIs comerciales en la nube. Las defensas incluyen entrenamiento adversarial con perturbaciones diversas, transformaciones de entrada, detectores por desacuerdo de conjuntos y metodos de robustez certificada como suavizado aleatorizado.
¿Cómo defenderse de Ataque Adversarial Transferible?
Las defensas contra Ataque Adversarial Transferible combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ataque Adversarial Transferible?
Nombres alternativos comunes: Transferencia adversarial entre modelos, Ataque de transferencia en caja negra.
● Términos relacionados
- ai-security№ 018
Ejemplo adversarial
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
- ai-security№ 014
Ataque Adaptativo
Ataque contra un sistema de aprendizaje automatico disenado especificamente para evadir o romper una defensa conocida, en lugar de usar una tecnica generica.
- ai-security№ 703
Extracción de modelos
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.