Extracción de modelos
¿Qué es Extracción de modelos?
Extracción de modelosAtaque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
La extracción de modelos (model stealing) trata al modelo desplegado como un oráculo. El atacante envía gran cantidad de entradas cuidadosamente diseñadas, registra las salidas (logits, probabilidades o solo etiquetas) y entrena un modelo sustituto que aproxima a la víctima. Tramèr et al. (2016) demostraron que esto era práctico contra APIs comerciales de MLaaS; las variantes modernas apuntan a LLM extrayendo estilos fine-tuneados, prompts de sistema o pequeñas capas densas. Los objetivos incluyen robo de propiedad intelectual, eludir el pago de uso, construir ejemplos adversariales offline y recuperar datos propietarios incorporados en los pesos. Las defensas son limitación de consultas, detección de anomalías, marca de agua en salidas, devolver solo etiquetas top-k y ruido calibrado sobre las puntuaciones.
● Ejemplos
- 01
Consultar un clasificador comercial millones de veces para entrenar un clon gratuito que imita sus salidas.
- 02
Reconstruir un prompt de sistema propietario muestreando las respuestas de un asistente basado en LLM.
● Preguntas frecuentes
¿Qué es Extracción de modelos?
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Extracción de modelos?
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
¿Cómo defenderse de Extracción de modelos?
Las defensas contra Extracción de modelos combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Extracción de modelos?
Nombres alternativos comunes: Robo de modelo, Extracción de funcionalidad.