Ataque de inferencia de membresía
¿Qué es Ataque de inferencia de membresía?
Ataque de inferencia de membresíaAtaque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.
La inferencia de membresía, formalizada por Shokri et al. (2017), explota la tendencia de los modelos de ML a mostrar mayor confianza sobre ejemplos vistos durante el entrenamiento. El atacante consulta al modelo objetivo con una muestra candidata y compara confianza, pérdida o puntuaciones por clase frente a modelos sombra entrenados con datos similares, deduciendo la membresía. Suele bastar con acceso vía API. Este ataque es base de amenazas de privacidad más amplias: confirmar que el historial médico, foto o documento de una persona se usó para entrenar un modelo puede vulnerar el RGPD, HIPAA o el Reglamento europeo de IA. Las defensas incluyen privacidad diferencial, regularización (dropout), minimización de salidas y deduplicación cuidadosa de los datos de entrenamiento.
● Ejemplos
- 01
Determinar que el historial de un paciente concreto se usó para entrenar el modelo diagnóstico de un hospital comparando valores de pérdida.
- 02
Identificar si un libro con derechos de autor formó parte del corpus de pre-entrenamiento de un LLM mediante pruebas de membresía.
● Preguntas frecuentes
¿Qué es Ataque de inferencia de membresía?
Ataque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ataque de inferencia de membresía?
Ataque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.
¿Cómo funciona Ataque de inferencia de membresía?
La inferencia de membresía, formalizada por Shokri et al. (2017), explota la tendencia de los modelos de ML a mostrar mayor confianza sobre ejemplos vistos durante el entrenamiento. El atacante consulta al modelo objetivo con una muestra candidata y compara confianza, pérdida o puntuaciones por clase frente a modelos sombra entrenados con datos similares, deduciendo la membresía. Suele bastar con acceso vía API. Este ataque es base de amenazas de privacidad más amplias: confirmar que el historial médico, foto o documento de una persona se usó para entrenar un modelo puede vulnerar el RGPD, HIPAA o el Reglamento europeo de IA. Las defensas incluyen privacidad diferencial, regularización (dropout), minimización de salidas y deduplicación cuidadosa de los datos de entrenamiento.
¿Cómo defenderse de Ataque de inferencia de membresía?
Las defensas contra Ataque de inferencia de membresía combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ataque de inferencia de membresía?
Nombres alternativos comunes: MIA, Ataque de pertenencia al conjunto de entrenamiento.
● Términos relacionados
- ai-security№ 704
Inversión de modelo
Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.
- ai-security№ 703
Extracción de modelos
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 027
Gobernanza de IA
Conjunto de políticas, procesos, roles y controles con los que organizaciones y reguladores garantizan que los sistemas de IA se desarrollan, despliegan y operan de forma responsable y legal.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.