Envenenamiento de datos

Revisado porFlorian AmetteCybersecurity entrepreneur & security researcher

¿Qué es Envenenamiento de datos?

Envenenamiento de datosAtaque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.

El envenenamiento de datos ataca la fase de entrenamiento del ciclo de vida ML. El atacante manipula conjuntos de datos — crawls web públicos, etiquetas colaborativas, corpus de fine-tuning o registros de feedback — para sesgar el modelo, degradar su precisión o implantar un comportamiento activado por un disparador. Carlini et al. demostraron en 2023 que incluso fracciones mínimas de datos envenenados en la web pueden corromper grandes corpus de pre-entrenamiento. Las variantes incluyen ataques de disponibilidad, ataques dirigidos y ataques de puerta trasera. Las defensas se centran en la procedencia y firma de datasets, la deduplicación, la detección de anomalías sobre los datos de entrenamiento, los algoritmos de aprendizaje robusto y la evaluación continua frente a conjuntos de prueba adversariales.

● Ejemplos

01
Un atacante edita artículos de Wikipedia o dominios caducados para que el texto contaminado se rastree en un futuro corpus de pre-entrenamiento.
02
Un contribuyente malicioso aporta muestras mal etiquetadas a un dataset abierto de clasificación de imágenes.

● Preguntas frecuentes

¿Qué es Envenenamiento de datos?

Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Envenenamiento de datos?

¿Cómo defenderse de Envenenamiento de datos?

Las defensas contra Envenenamiento de datos combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Envenenamiento de datos?

Nombres alternativos comunes: Envenenamiento de datos de entrenamiento, Envenenamiento de dataset.

Envenenamiento de datos

¿Qué es Envenenamiento de datos?

● Ejemplos

● Preguntas frecuentes

● Términos relacionados

● Véase también