Inyección indirecta de prompts
¿Qué es Inyección indirecta de prompts?
Inyección indirecta de promptsVariante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
La inyección indirecta de prompts —descrita en detalle por Greshake et al. (2023)— no exige que el atacante hable con el modelo. Coloca instrucciones en un recurso que el LLM va a procesar: una web resumida por un agente, un PDF leído por un pipeline RAG, un correo procesado por un copiloto o incluso el texto alternativo de una imagen. Cuando el modelo concatena ese contenido en su contexto, puede obedecer esas instrucciones, filtrar el historial, invocar herramientas o exfiltrar datos mediante URLs preparadas. Las defensas incluyen aislamiento del contenido, listas blancas de recuperación, separar datos de instrucciones, controles de salida y aprobaciones humanas para acciones sensibles.
● Ejemplos
- 01
Un PDF de currículum con texto blanco sobre blanco que ordena al copiloto de RR. HH. recomendar al candidato.
- 02
Una página web que, al ser resumida por un agente de navegador, le ordena enviar los correos del usuario a una URL del atacante.
● Preguntas frecuentes
¿Qué es Inyección indirecta de prompts?
Variante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Inyección indirecta de prompts?
Variante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
¿Cómo funciona Inyección indirecta de prompts?
La inyección indirecta de prompts —descrita en detalle por Greshake et al. (2023)— no exige que el atacante hable con el modelo. Coloca instrucciones en un recurso que el LLM va a procesar: una web resumida por un agente, un PDF leído por un pipeline RAG, un correo procesado por un copiloto o incluso el texto alternativo de una imagen. Cuando el modelo concatena ese contenido en su contexto, puede obedecer esas instrucciones, filtrar el historial, invocar herramientas o exfiltrar datos mediante URLs preparadas. Las defensas incluyen aislamiento del contenido, listas blancas de recuperación, separar datos de instrucciones, controles de salida y aprobaciones humanas para acciones sensibles.
¿Cómo defenderse de Inyección indirecta de prompts?
Las defensas contra Inyección indirecta de prompts combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Inyección indirecta de prompts?
Nombres alternativos comunes: Inyección de prompts entre dominios, Inyección de prompts almacenada.
● Términos relacionados
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 898
Seguridad de RAG
Disciplina dedicada a proteger los pipelines de generación aumentada por recuperación para que los documentos, almacenes vectoriales y pasos de recuperación que alimentan al LLM no puedan envenenarse, abusarse ni filtrar datos.
- ai-security№ 030
Jailbreak de IA
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 034
Riesgo de cadena de suministro de IA
Conjunto de amenazas derivadas de los datasets, modelos base, librerías, plug-ins e infraestructuras de terceros que las organizaciones combinan para construir y desplegar sistemas de IA.
- ai-security№ 618
Guardrails de LLM
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.