Envenenamiento de datos
¿Qué es Envenenamiento de datos?
Envenenamiento de datosAtaque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
El envenenamiento de datos ataca la fase de entrenamiento del ciclo de vida ML. El atacante manipula conjuntos de datos — crawls web públicos, etiquetas colaborativas, corpus de fine-tuning o registros de feedback — para sesgar el modelo, degradar su precisión o implantar un comportamiento activado por un disparador. Carlini et al. demostraron en 2023 que incluso fracciones mínimas de datos envenenados en la web pueden corromper grandes corpus de pre-entrenamiento. Las variantes incluyen ataques de disponibilidad, ataques dirigidos y ataques de puerta trasera. Las defensas se centran en la procedencia y firma de datasets, la deduplicación, la detección de anomalías sobre los datos de entrenamiento, los algoritmos de aprendizaje robusto y la evaluación continua frente a conjuntos de prueba adversariales.
● Ejemplos
- 01
Un atacante edita artículos de Wikipedia o dominios caducados para que el texto contaminado se rastree en un futuro corpus de pre-entrenamiento.
- 02
Un contribuyente malicioso aporta muestras mal etiquetadas a un dataset abierto de clasificación de imágenes.
● Preguntas frecuentes
¿Qué es Envenenamiento de datos?
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Envenenamiento de datos?
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
¿Cómo funciona Envenenamiento de datos?
El envenenamiento de datos ataca la fase de entrenamiento del ciclo de vida ML. El atacante manipula conjuntos de datos — crawls web públicos, etiquetas colaborativas, corpus de fine-tuning o registros de feedback — para sesgar el modelo, degradar su precisión o implantar un comportamiento activado por un disparador. Carlini et al. demostraron en 2023 que incluso fracciones mínimas de datos envenenados en la web pueden corromper grandes corpus de pre-entrenamiento. Las variantes incluyen ataques de disponibilidad, ataques dirigidos y ataques de puerta trasera. Las defensas se centran en la procedencia y firma de datasets, la deduplicación, la detección de anomalías sobre los datos de entrenamiento, los algoritmos de aprendizaje robusto y la evaluación continua frente a conjuntos de prueba adversariales.
¿Cómo defenderse de Envenenamiento de datos?
Las defensas contra Envenenamiento de datos combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Envenenamiento de datos?
Nombres alternativos comunes: Envenenamiento de datos de entrenamiento, Envenenamiento de dataset.
● Términos relacionados
- ai-security№ 081
Ataque de puerta trasera (ML)
Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
- ai-security№ 034
Riesgo de cadena de suministro de IA
Conjunto de amenazas derivadas de los datasets, modelos base, librerías, plug-ins e infraestructuras de terceros que las organizaciones combinan para construir y desplegar sistemas de IA.
- ai-security№ 729
Ataque Nightshade
Técnica de envenenamiento de datos desarrollada por el equipo Glaze de la Universidad de Chicago que añade perturbaciones imperceptibles a imágenes para que los modelos text-to-image entrenados con ellas aprendan conceptos profundamente distorsionados.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
- ai-security№ 018
Ejemplo adversarial
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
● Véase también
- № 704Inversión de modelo
- № 393Ataque de evasión (ML)
- № 666Ataque de inferencia de membresía
- № 1026Shadow AI
- № 025Lista de materiales de IA (AIBOM)
- № 898Seguridad de RAG
- № 897RAG
- № 376Ataques sobre embeddings