Ejemplo adversarial
¿Qué es Ejemplo adversarial?
Ejemplo adversarialEntrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
Los ejemplos adversariales fueron destacados por Szegedy et al. (2013) y el artículo FGSM de Goodfellow et al. (2014), que demostró que perturbaciones mínimas a nivel de píxel hacían que clasificadores de imágenes de vanguardia se equivocaran con alta confianza. Su creación suele basarse en optimización por gradiente (FGSM, PGD, Carlini-Wagner) o consultas black-box; transfieren entre modelos, permitiendo ataques sin acceso interno. Existen también para texto, audio, código y detectores de malware, y sustentan la mayoría de los ataques de evasión en producción. Las defensas incluyen entrenamiento adversarial, robustez certificada (smoothing aleatorio), preprocesado de entradas, ensembles y detección de anomalías en tiempo de ejecución, aunque ninguna ofrece robustez total en alta dimensión.
● Ejemplos
- 01
Una señal de stop con pegatinas cuidadosamente diseñadas que un clasificador de conducción autónoma interpreta como límite de velocidad.
- 02
Un audio indistinguible del ruido de fondo que el ASR de un asistente transcribe como una orden maliciosa.
● Preguntas frecuentes
¿Qué es Ejemplo adversarial?
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ejemplo adversarial?
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
¿Cómo funciona Ejemplo adversarial?
Los ejemplos adversariales fueron destacados por Szegedy et al. (2013) y el artículo FGSM de Goodfellow et al. (2014), que demostró que perturbaciones mínimas a nivel de píxel hacían que clasificadores de imágenes de vanguardia se equivocaran con alta confianza. Su creación suele basarse en optimización por gradiente (FGSM, PGD, Carlini-Wagner) o consultas black-box; transfieren entre modelos, permitiendo ataques sin acceso interno. Existen también para texto, audio, código y detectores de malware, y sustentan la mayoría de los ataques de evasión en producción. Las defensas incluyen entrenamiento adversarial, robustez certificada (smoothing aleatorio), preprocesado de entradas, ensembles y detección de anomalías en tiempo de ejecución, aunque ninguna ofrece robustez total en alta dimensión.
¿Cómo defenderse de Ejemplo adversarial?
Las defensas contra Ejemplo adversarial combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ejemplo adversarial?
Nombres alternativos comunes: Entrada adversarial, Perturbación adversarial.
● Términos relacionados
- ai-security№ 393
Ataque de evasión (ML)
Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido.
- ai-security№ 081
Ataque de puerta trasera (ML)
Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.