Ejemplo adversarial
¿Qué es Ejemplo adversarial?
Ejemplo adversarialEntrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
Los ejemplos adversariales fueron destacados por Szegedy et al. (2013) y el artículo FGSM de Goodfellow et al. (2014), que demostró que perturbaciones mínimas a nivel de píxel hacían que clasificadores de imágenes de vanguardia se equivocaran con alta confianza. Su creación suele basarse en optimización por gradiente (FGSM, PGD, Carlini-Wagner) o consultas black-box; transfieren entre modelos, permitiendo ataques sin acceso interno. Existen también para texto, audio, código y detectores de malware, y sustentan la mayoría de los ataques de evasión en producción. Las defensas incluyen entrenamiento adversarial, robustez certificada (smoothing aleatorio), preprocesado de entradas, ensembles y detección de anomalías en tiempo de ejecución, aunque ninguna ofrece robustez total en alta dimensión.
● Ejemplos
- 01
Una señal de stop con pegatinas cuidadosamente diseñadas que un clasificador de conducción autónoma interpreta como límite de velocidad.
- 02
Un audio indistinguible del ruido de fondo que el ASR de un asistente transcribe como una orden maliciosa.
● Preguntas frecuentes
¿Qué es Ejemplo adversarial?
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ejemplo adversarial?
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
¿Cómo defenderse de Ejemplo adversarial?
Las defensas contra Ejemplo adversarial combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ejemplo adversarial?
Nombres alternativos comunes: Entrada adversarial, Perturbación adversarial.