Ataque de evasión (ML)
¿Qué es Ataque de evasión (ML)?
Ataque de evasión (ML)Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido.
Los ataques de evasión actúan tras el entrenamiento y despliegue: el atacante no toca el pipeline de entrenamiento, sino que manipula las consultas para esquivar la detección. La mayoría emplean ejemplos adversariales, pero la familia también incluye tácticas más simples como malware polimórfico, ofuscación de caracteres contra moderación de texto, clonado de voz contra verificación de locutor o transformaciones frente al hashing perceptual. El informe NIST AI 100-2 clasifica la evasión como una de las cuatro grandes amenazas ML junto al envenenamiento, la privacidad y el abuso. Las defensas incluyen entrenamiento adversarial, ingeniería de características robusta, detección multimodal o por ensembles, sanitización de entradas en tiempo de ejecución, telemetría de drift y controles estrictos sobre las APIs.
● Ejemplos
- 01
Malware ofuscado que un clasificador ML estático considera benigno pero que ejecuta su payload.
- 02
Texto con homoglifos que esquiva un clasificador de toxicidad aunque para una persona luzca idéntico.
● Preguntas frecuentes
¿Qué es Ataque de evasión (ML)?
Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ataque de evasión (ML)?
Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido.
¿Cómo funciona Ataque de evasión (ML)?
Los ataques de evasión actúan tras el entrenamiento y despliegue: el atacante no toca el pipeline de entrenamiento, sino que manipula las consultas para esquivar la detección. La mayoría emplean ejemplos adversariales, pero la familia también incluye tácticas más simples como malware polimórfico, ofuscación de caracteres contra moderación de texto, clonado de voz contra verificación de locutor o transformaciones frente al hashing perceptual. El informe NIST AI 100-2 clasifica la evasión como una de las cuatro grandes amenazas ML junto al envenenamiento, la privacidad y el abuso. Las defensas incluyen entrenamiento adversarial, ingeniería de características robusta, detección multimodal o por ensembles, sanitización de entradas en tiempo de ejecución, telemetría de drift y controles estrictos sobre las APIs.
¿Cómo defenderse de Ataque de evasión (ML)?
Las defensas contra Ataque de evasión (ML) combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ataque de evasión (ML)?
Nombres alternativos comunes: Ataque en inferencia, Evasión de modelo.
● Términos relacionados
- ai-security№ 018
Ejemplo adversarial
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
- ai-security№ 081
Ataque de puerta trasera (ML)
Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.