Ataque de puerta trasera (ML)
¿Qué es Ataque de puerta trasera (ML)?
Ataque de puerta trasera (ML)Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
Los ataques de puerta trasera (o troyanos) fueron popularizados por el paper BadNets de Gu et al. (2017). El atacante envenena los datos de entrenamiento, de fine-tuning o directamente los pesos del modelo con ejemplos que asocian un patrón disparador —una pegatina, un token, una marca de agua o incluso un estilo de tecleo— con una etiqueta o conducta objetivo. Una vez desplegado, el modelo supera las pruebas porque conserva su precisión en datos limpios, pero falla cuando aparece el disparador. Es especialmente preocupante en modelos preentrenados de hubs públicos y en aprendizaje federado. Las defensas incluyen procedencia de datos, técnicas como Neural Cleanse y fine-pruning, análisis de clusters de activaciones, entrenamiento adversarial y cargar pesos solo desde fuentes firmadas.
● Ejemplos
- 01
Clasificador de imágenes que etiqueta como "avión" cualquier foto que contenga un pequeño cuadrado amarillo.
- 02
LLM con fine-tuning envenenado que emite un payload dañino concreto al detectar una frase de control rara.
● Preguntas frecuentes
¿Qué es Ataque de puerta trasera (ML)?
Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ataque de puerta trasera (ML)?
Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
¿Cómo funciona Ataque de puerta trasera (ML)?
Los ataques de puerta trasera (o troyanos) fueron popularizados por el paper BadNets de Gu et al. (2017). El atacante envenena los datos de entrenamiento, de fine-tuning o directamente los pesos del modelo con ejemplos que asocian un patrón disparador —una pegatina, un token, una marca de agua o incluso un estilo de tecleo— con una etiqueta o conducta objetivo. Una vez desplegado, el modelo supera las pruebas porque conserva su precisión en datos limpios, pero falla cuando aparece el disparador. Es especialmente preocupante en modelos preentrenados de hubs públicos y en aprendizaje federado. Las defensas incluyen procedencia de datos, técnicas como Neural Cleanse y fine-pruning, análisis de clusters de activaciones, entrenamiento adversarial y cargar pesos solo desde fuentes firmadas.
¿Cómo defenderse de Ataque de puerta trasera (ML)?
Las defensas contra Ataque de puerta trasera (ML) combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ataque de puerta trasera (ML)?
Nombres alternativos comunes: Ataque troyano, Ataque BadNets.
● Términos relacionados
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 034
Riesgo de cadena de suministro de IA
Conjunto de amenazas derivadas de los datasets, modelos base, librerías, plug-ins e infraestructuras de terceros que las organizaciones combinan para construir y desplegar sistemas de IA.
- ai-security№ 018
Ejemplo adversarial
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
- ai-security№ 025
Lista de materiales de IA (AIBOM)
Inventario legible por máquina de cada componente que entra en un sistema de IA —datasets, modelos base, datos de fine-tuning, librerías, prompts y artefactos de evaluación— usado para seguridad, cumplimiento y rendición de cuentas.
- ai-security№ 393
Ataque de evasión (ML)
Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido.