Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 703

Extracción de modelos

¿Qué es Extracción de modelos?

Extracción de modelosAtaque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.


La extracción de modelos (model stealing) trata al modelo desplegado como un oráculo. El atacante envía gran cantidad de entradas cuidadosamente diseñadas, registra las salidas (logits, probabilidades o solo etiquetas) y entrena un modelo sustituto que aproxima a la víctima. Tramèr et al. (2016) demostraron que esto era práctico contra APIs comerciales de MLaaS; las variantes modernas apuntan a LLM extrayendo estilos fine-tuneados, prompts de sistema o pequeñas capas densas. Los objetivos incluyen robo de propiedad intelectual, eludir el pago de uso, construir ejemplos adversariales offline y recuperar datos propietarios incorporados en los pesos. Las defensas son limitación de consultas, detección de anomalías, marca de agua en salidas, devolver solo etiquetas top-k y ruido calibrado sobre las puntuaciones.

Ejemplos

  1. 01

    Consultar un clasificador comercial millones de veces para entrenar un clon gratuito que imita sus salidas.

  2. 02

    Reconstruir un prompt de sistema propietario muestreando las respuestas de un asistente basado en LLM.

Preguntas frecuentes

¿Qué es Extracción de modelos?

Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Extracción de modelos?

Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.

¿Cómo funciona Extracción de modelos?

La extracción de modelos (model stealing) trata al modelo desplegado como un oráculo. El atacante envía gran cantidad de entradas cuidadosamente diseñadas, registra las salidas (logits, probabilidades o solo etiquetas) y entrena un modelo sustituto que aproxima a la víctima. Tramèr et al. (2016) demostraron que esto era práctico contra APIs comerciales de MLaaS; las variantes modernas apuntan a LLM extrayendo estilos fine-tuneados, prompts de sistema o pequeñas capas densas. Los objetivos incluyen robo de propiedad intelectual, eludir el pago de uso, construir ejemplos adversariales offline y recuperar datos propietarios incorporados en los pesos. Las defensas son limitación de consultas, detección de anomalías, marca de agua en salidas, devolver solo etiquetas top-k y ruido calibrado sobre las puntuaciones.

¿Cómo defenderse de Extracción de modelos?

Las defensas contra Extracción de modelos combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Extracción de modelos?

Nombres alternativos comunes: Robo de modelo, Extracción de funcionalidad.

Términos relacionados

Véase también