Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 081

Ataque de puerta trasera (ML)

¿Qué es Ataque de puerta trasera (ML)?

Ataque de puerta trasera (ML)Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.


Los ataques de puerta trasera (o troyanos) fueron popularizados por el paper BadNets de Gu et al. (2017). El atacante envenena los datos de entrenamiento, de fine-tuning o directamente los pesos del modelo con ejemplos que asocian un patrón disparador —una pegatina, un token, una marca de agua o incluso un estilo de tecleo— con una etiqueta o conducta objetivo. Una vez desplegado, el modelo supera las pruebas porque conserva su precisión en datos limpios, pero falla cuando aparece el disparador. Es especialmente preocupante en modelos preentrenados de hubs públicos y en aprendizaje federado. Las defensas incluyen procedencia de datos, técnicas como Neural Cleanse y fine-pruning, análisis de clusters de activaciones, entrenamiento adversarial y cargar pesos solo desde fuentes firmadas.

Ejemplos

  1. 01

    Clasificador de imágenes que etiqueta como "avión" cualquier foto que contenga un pequeño cuadrado amarillo.

  2. 02

    LLM con fine-tuning envenenado que emite un payload dañino concreto al detectar una frase de control rara.

Preguntas frecuentes

¿Qué es Ataque de puerta trasera (ML)?

Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Ataque de puerta trasera (ML)?

Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.

¿Cómo funciona Ataque de puerta trasera (ML)?

Los ataques de puerta trasera (o troyanos) fueron popularizados por el paper BadNets de Gu et al. (2017). El atacante envenena los datos de entrenamiento, de fine-tuning o directamente los pesos del modelo con ejemplos que asocian un patrón disparador —una pegatina, un token, una marca de agua o incluso un estilo de tecleo— con una etiqueta o conducta objetivo. Una vez desplegado, el modelo supera las pruebas porque conserva su precisión en datos limpios, pero falla cuando aparece el disparador. Es especialmente preocupante en modelos preentrenados de hubs públicos y en aprendizaje federado. Las defensas incluyen procedencia de datos, técnicas como Neural Cleanse y fine-pruning, análisis de clusters de activaciones, entrenamiento adversarial y cargar pesos solo desde fuentes firmadas.

¿Cómo defenderse de Ataque de puerta trasera (ML)?

Las defensas contra Ataque de puerta trasera (ML) combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Ataque de puerta trasera (ML)?

Nombres alternativos comunes: Ataque troyano, Ataque BadNets.

Términos relacionados