Inversión de modelo
¿Qué es Inversión de modelo?
Inversión de modeloAtaque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.
La inversión de modelo ataca la confidencialidad de los datos de entrenamiento más que los parámetros del modelo. Fredrikson et al. (2015) mostraron que una optimización por gradiente contra un clasificador de reconocimiento facial podía reproducir imágenes reconocibles a partir de etiquetas de clase y puntuaciones de confianza. Variantes modernas extraen texto de entrenamiento de LLM mediante prefijos cuidadosamente elegidos, recuperando nombres, correos o documentos propietarios memorizados. El ataque es más eficaz contra modelos sobreajustados o con escasa regularización y APIs que exponen señales ricas de confianza. Las mitigaciones incluyen privacidad diferencial durante el entrenamiento, minimización de salidas, deduplicación de datos, regularización y no exponer vectores internos de confianza.
● Ejemplos
- 01
Reconstruir un rostro reconocible a partir de las puntuaciones de confianza de un modelo de reconocimiento facial.
- 02
Lanzar un prefijo conocido a un LLM para recuperar datos personales memorizados de su corpus.
● Preguntas frecuentes
¿Qué es Inversión de modelo?
Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Inversión de modelo?
Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.
¿Cómo funciona Inversión de modelo?
La inversión de modelo ataca la confidencialidad de los datos de entrenamiento más que los parámetros del modelo. Fredrikson et al. (2015) mostraron que una optimización por gradiente contra un clasificador de reconocimiento facial podía reproducir imágenes reconocibles a partir de etiquetas de clase y puntuaciones de confianza. Variantes modernas extraen texto de entrenamiento de LLM mediante prefijos cuidadosamente elegidos, recuperando nombres, correos o documentos propietarios memorizados. El ataque es más eficaz contra modelos sobreajustados o con escasa regularización y APIs que exponen señales ricas de confianza. Las mitigaciones incluyen privacidad diferencial durante el entrenamiento, minimización de salidas, deduplicación de datos, regularización y no exponer vectores internos de confianza.
¿Cómo defenderse de Inversión de modelo?
Las defensas contra Inversión de modelo combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Inversión de modelo?
Nombres alternativos comunes: Reconstrucción de datos de entrenamiento, Ataque de inferencia de atributos.
● Términos relacionados
- ai-security№ 666
Ataque de inferencia de membresía
Ataque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.
- ai-security№ 703
Extracción de modelos
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 027
Gobernanza de IA
Conjunto de políticas, procesos, roles y controles con los que organizaciones y reguladores garantizan que los sistemas de IA se desarrollan, despliegan y operan de forma responsable y legal.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.