Fuga del System Prompt de un LLM
¿Qué es Fuga del System Prompt de un LLM?
Fuga del System Prompt de un LLMAtaque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.
Una fuga del system prompt ocurre cuando un usuario induce a una aplicacion LLM en produccion a revelar su prompt de sistema oculto, las instrucciones del desarrollador o el contexto adjunto, como claves API, documentacion interna o definiciones de herramientas. Los atacantes recurren a peticiones directas, juegos de rol, trucos de traduccion, ofuscacion mediante codificacion de caracteres o inyeccion indirecta de prompts a traves de documentos que se pide resumir. Incluso filtraciones parciales ayudan a deducir logica de negocio, encontrar formas de saltar los guardarraies y disenar jailbreaks o contenidos de ingenieria social a medida. Las mitigaciones pasan por tratar el system prompt como dato publico de baja confianza, no incluir secretos, aplicar controles de politica en servidor, filtrar la salida y pedir al modelo que no revele sus instrucciones, asumiendo que adversarios decididos a menudo lo consiguen.
● Ejemplos
- 01
Un atacante pide al chatbot que repita en bloques de codigo todo lo anterior a su primer mensaje, exponiendo el system prompt completo con una clave API incrustada.
- 02
Un asistente de resumen al que se le entrega un PDF malicioso devuelve sus descripciones de herramientas ocultas porque el documento le ordena hacerlo.
● Preguntas frecuentes
¿Qué es Fuga del System Prompt de un LLM?
Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Fuga del System Prompt de un LLM?
Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.
¿Cómo funciona Fuga del System Prompt de un LLM?
Una fuga del system prompt ocurre cuando un usuario induce a una aplicacion LLM en produccion a revelar su prompt de sistema oculto, las instrucciones del desarrollador o el contexto adjunto, como claves API, documentacion interna o definiciones de herramientas. Los atacantes recurren a peticiones directas, juegos de rol, trucos de traduccion, ofuscacion mediante codificacion de caracteres o inyeccion indirecta de prompts a traves de documentos que se pide resumir. Incluso filtraciones parciales ayudan a deducir logica de negocio, encontrar formas de saltar los guardarraies y disenar jailbreaks o contenidos de ingenieria social a medida. Las mitigaciones pasan por tratar el system prompt como dato publico de baja confianza, no incluir secretos, aplicar controles de politica en servidor, filtrar la salida y pedir al modelo que no revele sus instrucciones, asumiendo que adversarios decididos a menudo lo consiguen.
¿Cómo defenderse de Fuga del System Prompt de un LLM?
Las defensas contra Fuga del System Prompt de un LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Fuga del System Prompt de un LLM?
Nombres alternativos comunes: Extraccion de system prompt, Exfiltracion de prompt.
● Términos relacionados
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 528
Inyección indirecta de prompts
Variante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
- ai-security№ 030
Jailbreak de IA
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
- ai-security№ 657
Ataques a MCP
Ataques que explotan el Model Context Protocol (MCP) para inyectar prompts, abusar de herramientas o pivotar a traves de servidores en los que confia el asistente de IA.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
- attacks№ 277
Fuga de datos
Exposicion accidental o negligente de informacion sensible, habitualmente por mala configuracion o error humano, no por una intrusion activa.