¿Qué es Fuga del System Prompt de un LLM? Significado, definición y ejemplos

Una fuga del system prompt ocurre cuando un usuario induce a una aplicacion LLM en produccion a revelar su prompt de sistema oculto, las instrucciones del desarrollador o el contexto adjunto, como claves API, documentacion interna o definiciones de herramientas. Los atacantes recurren a peticiones directas, juegos de rol, trucos de traduccion, ofuscacion mediante codificacion de caracteres o inyeccion indirecta de prompts a traves de documentos que se pide resumir. Incluso filtraciones parciales ayudan a deducir logica de negocio, encontrar formas de saltar los guardarraies y disenar jailbreaks o contenidos de ingenieria social a medida. Las mitigaciones pasan por tratar el system prompt como dato publico de baja confianza, no incluir secretos, aplicar controles de politica en servidor, filtrar la salida y pedir al modelo que no revele sus instrucciones, asumiendo que adversarios decididos a menudo lo consiguen.

● Ejemplos

Un atacante pide al chatbot que repita en bloques de codigo todo lo anterior a su primer mensaje, exponiendo el system prompt completo con una clave API incrustada.

Un asistente de resumen al que se le entrega un PDF malicioso devuelve sus descripciones de herramientas ocultas porque el documento le ordena hacerlo.

● Preguntas frecuentes

¿Qué es Fuga del System Prompt de un LLM?

Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Fuga del System Prompt de un LLM?

Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.

¿Cómo defenderse de Fuga del System Prompt de un LLM?

Las defensas contra Fuga del System Prompt de un LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Fuga del System Prompt de un LLM?

Nombres alternativos comunes: Extraccion de system prompt, Exfiltracion de prompt.