Extracción de modelos
¿Qué es Extracción de modelos?
Extracción de modelosAtaque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
La extracción de modelos (model stealing) trata al modelo desplegado como un oráculo. El atacante envía gran cantidad de entradas cuidadosamente diseñadas, registra las salidas (logits, probabilidades o solo etiquetas) y entrena un modelo sustituto que aproxima a la víctima. Tramèr et al. (2016) demostraron que esto era práctico contra APIs comerciales de MLaaS; las variantes modernas apuntan a LLM extrayendo estilos fine-tuneados, prompts de sistema o pequeñas capas densas. Los objetivos incluyen robo de propiedad intelectual, eludir el pago de uso, construir ejemplos adversariales offline y recuperar datos propietarios incorporados en los pesos. Las defensas son limitación de consultas, detección de anomalías, marca de agua en salidas, devolver solo etiquetas top-k y ruido calibrado sobre las puntuaciones.
● Ejemplos
- 01
Consultar un clasificador comercial millones de veces para entrenar un clon gratuito que imita sus salidas.
- 02
Reconstruir un prompt de sistema propietario muestreando las respuestas de un asistente basado en LLM.
● Preguntas frecuentes
¿Qué es Extracción de modelos?
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Extracción de modelos?
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
¿Cómo funciona Extracción de modelos?
La extracción de modelos (model stealing) trata al modelo desplegado como un oráculo. El atacante envía gran cantidad de entradas cuidadosamente diseñadas, registra las salidas (logits, probabilidades o solo etiquetas) y entrena un modelo sustituto que aproxima a la víctima. Tramèr et al. (2016) demostraron que esto era práctico contra APIs comerciales de MLaaS; las variantes modernas apuntan a LLM extrayendo estilos fine-tuneados, prompts de sistema o pequeñas capas densas. Los objetivos incluyen robo de propiedad intelectual, eludir el pago de uso, construir ejemplos adversariales offline y recuperar datos propietarios incorporados en los pesos. Las defensas son limitación de consultas, detección de anomalías, marca de agua en salidas, devolver solo etiquetas top-k y ruido calibrado sobre las puntuaciones.
¿Cómo defenderse de Extracción de modelos?
Las defensas contra Extracción de modelos combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Extracción de modelos?
Nombres alternativos comunes: Robo de modelo, Extracción de funcionalidad.
● Términos relacionados
- ai-security№ 704
Inversión de modelo
Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.
- ai-security№ 666
Ataque de inferencia de membresía
Ataque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.
- ai-security№ 034
Riesgo de cadena de suministro de IA
Conjunto de amenazas derivadas de los datasets, modelos base, librerías, plug-ins e infraestructuras de terceros que las organizaciones combinan para construir y desplegar sistemas de IA.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 035
Marca de agua de IA
Técnicas que insertan una señal detectable en el contenido generado por IA para verificar más tarde su procedencia, el modelo de origen o su pertenencia al entrenamiento.