Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 018

Ejemplo adversarial

¿Qué es Ejemplo adversarial?

Ejemplo adversarialEntrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.


Los ejemplos adversariales fueron destacados por Szegedy et al. (2013) y el artículo FGSM de Goodfellow et al. (2014), que demostró que perturbaciones mínimas a nivel de píxel hacían que clasificadores de imágenes de vanguardia se equivocaran con alta confianza. Su creación suele basarse en optimización por gradiente (FGSM, PGD, Carlini-Wagner) o consultas black-box; transfieren entre modelos, permitiendo ataques sin acceso interno. Existen también para texto, audio, código y detectores de malware, y sustentan la mayoría de los ataques de evasión en producción. Las defensas incluyen entrenamiento adversarial, robustez certificada (smoothing aleatorio), preprocesado de entradas, ensembles y detección de anomalías en tiempo de ejecución, aunque ninguna ofrece robustez total en alta dimensión.

Ejemplos

  1. 01

    Una señal de stop con pegatinas cuidadosamente diseñadas que un clasificador de conducción autónoma interpreta como límite de velocidad.

  2. 02

    Un audio indistinguible del ruido de fondo que el ASR de un asistente transcribe como una orden maliciosa.

Preguntas frecuentes

¿Qué es Ejemplo adversarial?

Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Ejemplo adversarial?

Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.

¿Cómo funciona Ejemplo adversarial?

Los ejemplos adversariales fueron destacados por Szegedy et al. (2013) y el artículo FGSM de Goodfellow et al. (2014), que demostró que perturbaciones mínimas a nivel de píxel hacían que clasificadores de imágenes de vanguardia se equivocaran con alta confianza. Su creación suele basarse en optimización por gradiente (FGSM, PGD, Carlini-Wagner) o consultas black-box; transfieren entre modelos, permitiendo ataques sin acceso interno. Existen también para texto, audio, código y detectores de malware, y sustentan la mayoría de los ataques de evasión en producción. Las defensas incluyen entrenamiento adversarial, robustez certificada (smoothing aleatorio), preprocesado de entradas, ensembles y detección de anomalías en tiempo de ejecución, aunque ninguna ofrece robustez total en alta dimensión.

¿Cómo defenderse de Ejemplo adversarial?

Las defensas contra Ejemplo adversarial combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Ejemplo adversarial?

Nombres alternativos comunes: Entrada adversarial, Perturbación adversarial.

Términos relacionados

Véase también