Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 897

RAG

¿Qué es RAG?

RAGRetrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.


RAG complementa un modelo de lenguaje grande con un paso externo de recuperación. En inferencia, la consulta del usuario se embebe, un índice vectorial o de palabras clave devuelve los documentos más relevantes y estos se concatenan en el prompt para que el LLM razone o cite a partir de ellos. RAG reduce alucinaciones y permite usar datos privados o recientes sin reentrenar. En seguridad introduce nueva superficie de ataque: inyección de prompts desde los documentos (prompt injection indirecto), envenenamiento del corpus o del vector store, exfiltración a través de las respuestas, fallos de control de acceso cuando varios tenants comparten índice y ataques de inversión de embeddings. Las pipelines maduras aíslan contenido no fiable, aplican controles de acceso por documento, sanitizan entradas, monitorizan los fragmentos recuperados y añaden guardrails de salida.

Ejemplos

  1. 01

    Un chatbot corporativo responde a preguntas de RR.HH. recuperando PDF de políticas desde un vector store.

  2. 02

    Una página de wiki maliciosa contiene instrucciones ocultas que secuestran a un asistente RAG mediante prompt injection indirecto.

Preguntas frecuentes

¿Qué es RAG?

Retrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa RAG?

Retrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.

¿Cómo funciona RAG?

RAG complementa un modelo de lenguaje grande con un paso externo de recuperación. En inferencia, la consulta del usuario se embebe, un índice vectorial o de palabras clave devuelve los documentos más relevantes y estos se concatenan en el prompt para que el LLM razone o cite a partir de ellos. RAG reduce alucinaciones y permite usar datos privados o recientes sin reentrenar. En seguridad introduce nueva superficie de ataque: inyección de prompts desde los documentos (prompt injection indirecto), envenenamiento del corpus o del vector store, exfiltración a través de las respuestas, fallos de control de acceso cuando varios tenants comparten índice y ataques de inversión de embeddings. Las pipelines maduras aíslan contenido no fiable, aplican controles de acceso por documento, sanitizan entradas, monitorizan los fragmentos recuperados y añaden guardrails de salida.

¿Cómo defenderse de RAG?

Las defensas contra RAG combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para RAG?

Nombres alternativos comunes: Generación aumentada con recuperación, Generación grounded.

Términos relacionados