Fuga del System Prompt de un LLM
¿Qué es Fuga del System Prompt de un LLM?
Fuga del System Prompt de un LLMAtaque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.
Una fuga del system prompt ocurre cuando un usuario induce a una aplicacion LLM en produccion a revelar su prompt de sistema oculto, las instrucciones del desarrollador o el contexto adjunto, como claves API, documentacion interna o definiciones de herramientas. Los atacantes recurren a peticiones directas, juegos de rol, trucos de traduccion, ofuscacion mediante codificacion de caracteres o inyeccion indirecta de prompts a traves de documentos que se pide resumir. Incluso filtraciones parciales ayudan a deducir logica de negocio, encontrar formas de saltar los guardarraies y disenar jailbreaks o contenidos de ingenieria social a medida. Las mitigaciones pasan por tratar el system prompt como dato publico de baja confianza, no incluir secretos, aplicar controles de politica en servidor, filtrar la salida y pedir al modelo que no revele sus instrucciones, asumiendo que adversarios decididos a menudo lo consiguen.
● Ejemplos
- 01
Un atacante pide al chatbot que repita en bloques de codigo todo lo anterior a su primer mensaje, exponiendo el system prompt completo con una clave API incrustada.
- 02
Un asistente de resumen al que se le entrega un PDF malicioso devuelve sus descripciones de herramientas ocultas porque el documento le ordena hacerlo.
● Preguntas frecuentes
¿Qué es Fuga del System Prompt de un LLM?
Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Fuga del System Prompt de un LLM?
Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.
¿Cómo defenderse de Fuga del System Prompt de un LLM?
Las defensas contra Fuga del System Prompt de un LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Fuga del System Prompt de un LLM?
Nombres alternativos comunes: Extraccion de system prompt, Exfiltracion de prompt.