Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 704

Inversión de modelo

¿Qué es Inversión de modelo?

Inversión de modeloAtaque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.


La inversión de modelo ataca la confidencialidad de los datos de entrenamiento más que los parámetros del modelo. Fredrikson et al. (2015) mostraron que una optimización por gradiente contra un clasificador de reconocimiento facial podía reproducir imágenes reconocibles a partir de etiquetas de clase y puntuaciones de confianza. Variantes modernas extraen texto de entrenamiento de LLM mediante prefijos cuidadosamente elegidos, recuperando nombres, correos o documentos propietarios memorizados. El ataque es más eficaz contra modelos sobreajustados o con escasa regularización y APIs que exponen señales ricas de confianza. Las mitigaciones incluyen privacidad diferencial durante el entrenamiento, minimización de salidas, deduplicación de datos, regularización y no exponer vectores internos de confianza.

Ejemplos

  1. 01

    Reconstruir un rostro reconocible a partir de las puntuaciones de confianza de un modelo de reconocimiento facial.

  2. 02

    Lanzar un prefijo conocido a un LLM para recuperar datos personales memorizados de su corpus.

Preguntas frecuentes

¿Qué es Inversión de modelo?

Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Inversión de modelo?

Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.

¿Cómo funciona Inversión de modelo?

La inversión de modelo ataca la confidencialidad de los datos de entrenamiento más que los parámetros del modelo. Fredrikson et al. (2015) mostraron que una optimización por gradiente contra un clasificador de reconocimiento facial podía reproducir imágenes reconocibles a partir de etiquetas de clase y puntuaciones de confianza. Variantes modernas extraen texto de entrenamiento de LLM mediante prefijos cuidadosamente elegidos, recuperando nombres, correos o documentos propietarios memorizados. El ataque es más eficaz contra modelos sobreajustados o con escasa regularización y APIs que exponen señales ricas de confianza. Las mitigaciones incluyen privacidad diferencial durante el entrenamiento, minimización de salidas, deduplicación de datos, regularización y no exponer vectores internos de confianza.

¿Cómo defenderse de Inversión de modelo?

Las defensas contra Inversión de modelo combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Inversión de modelo?

Nombres alternativos comunes: Reconstrucción de datos de entrenamiento, Ataque de inferencia de atributos.

Términos relacionados