RAG
¿Qué es RAG?
RAGRetrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.
RAG complementa un modelo de lenguaje grande con un paso externo de recuperación. En inferencia, la consulta del usuario se embebe, un índice vectorial o de palabras clave devuelve los documentos más relevantes y estos se concatenan en el prompt para que el LLM razone o cite a partir de ellos. RAG reduce alucinaciones y permite usar datos privados o recientes sin reentrenar. En seguridad introduce nueva superficie de ataque: inyección de prompts desde los documentos (prompt injection indirecto), envenenamiento del corpus o del vector store, exfiltración a través de las respuestas, fallos de control de acceso cuando varios tenants comparten índice y ataques de inversión de embeddings. Las pipelines maduras aíslan contenido no fiable, aplican controles de acceso por documento, sanitizan entradas, monitorizan los fragmentos recuperados y añaden guardrails de salida.
● Ejemplos
- 01
Un chatbot corporativo responde a preguntas de RR.HH. recuperando PDF de políticas desde un vector store.
- 02
Una página de wiki maliciosa contiene instrucciones ocultas que secuestran a un asistente RAG mediante prompt injection indirecto.
● Preguntas frecuentes
¿Qué es RAG?
Retrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa RAG?
Retrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.
¿Cómo funciona RAG?
RAG complementa un modelo de lenguaje grande con un paso externo de recuperación. En inferencia, la consulta del usuario se embebe, un índice vectorial o de palabras clave devuelve los documentos más relevantes y estos se concatenan en el prompt para que el LLM razone o cite a partir de ellos. RAG reduce alucinaciones y permite usar datos privados o recientes sin reentrenar. En seguridad introduce nueva superficie de ataque: inyección de prompts desde los documentos (prompt injection indirecto), envenenamiento del corpus o del vector store, exfiltración a través de las respuestas, fallos de control de acceso cuando varios tenants comparten índice y ataques de inversión de embeddings. Las pipelines maduras aíslan contenido no fiable, aplican controles de acceso por documento, sanitizan entradas, monitorizan los fragmentos recuperados y añaden guardrails de salida.
¿Cómo defenderse de RAG?
Las defensas contra RAG combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para RAG?
Nombres alternativos comunes: Generación aumentada con recuperación, Generación grounded.
● Términos relacionados
- ai-security№ 1198
Seguridad de bases de datos vectoriales
Conjunto de controles que protegen las bases de datos vectoriales usadas por sistemas de IA frente a fuga de datos, envenenamiento, cruce entre tenants y compromisos operativos o de cadena de suministro.
- ai-security№ 376
Ataques sobre embeddings
Familia de ataques contra vectores de embedding de IA que recuperan, alteran o abusan del input original o de su semántica, incluida la inversión de embeddings y el envenenamiento por similitud.
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 031
Model Card de IA
Documento estandarizado, propuesto por Margaret Mitchell y colegas en 2018, que describe el uso previsto, datos de entrenamiento, rendimiento, limitaciones y consideraciones éticas de un modelo de ML.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.