Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 897

RAG

Was ist RAG?

RAGRetrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.


RAG erweitert ein Large Language Model um einen externen Retrieval-Schritt. Bei der Inferenz wird die Nutzeranfrage als Embedding kodiert, ein Vektor- oder Keyword-Index liefert die relevantesten Dokumente, und diese werden in den Prompt konkateniert, damit das LLM darauf basierend antworten oder zitieren kann. RAG reduziert Halluzinationen und ermoeglicht es, ohne Retraining auf private oder aktuelle Daten zuzugreifen. Sicherheitstechnisch entstehen neue Angriffsflaechen: Prompt Injection aus Dokumenten (indirect prompt injection), Data Poisoning des Korpus oder Vector Stores, Exfiltration ueber Modellausgaben, Zugriffsfehler in mandantenfaehigen Indizes und Embedding-Inversion-Angriffe. Gehaertete Pipelines isolieren untrusted Content, erzwingen Zugriffsschutz pro Dokument, sanieren Eingaben, ueberwachen die abgerufenen Snippets und setzen Output-Guardrails.

Beispiele

  1. 01

    Ein Enterprise-Chatbot beantwortet HR-Fragen, indem er Policy-PDFs aus einem Vector Store abruft.

  2. 02

    Eine manipulierte Wiki-Seite enthaelt versteckte Anweisungen, die einen RAG-Assistenten via Indirect Prompt Injection kapern.

Häufige Fragen

Was ist RAG?

Retrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet RAG?

Retrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.

Wie funktioniert RAG?

RAG erweitert ein Large Language Model um einen externen Retrieval-Schritt. Bei der Inferenz wird die Nutzeranfrage als Embedding kodiert, ein Vektor- oder Keyword-Index liefert die relevantesten Dokumente, und diese werden in den Prompt konkateniert, damit das LLM darauf basierend antworten oder zitieren kann. RAG reduziert Halluzinationen und ermoeglicht es, ohne Retraining auf private oder aktuelle Daten zuzugreifen. Sicherheitstechnisch entstehen neue Angriffsflaechen: Prompt Injection aus Dokumenten (indirect prompt injection), Data Poisoning des Korpus oder Vector Stores, Exfiltration ueber Modellausgaben, Zugriffsfehler in mandantenfaehigen Indizes und Embedding-Inversion-Angriffe. Gehaertete Pipelines isolieren untrusted Content, erzwingen Zugriffsschutz pro Dokument, sanieren Eingaben, ueberwachen die abgerufenen Snippets und setzen Output-Guardrails.

Wie schützt man sich gegen RAG?

Schutzmaßnahmen gegen RAG kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für RAG?

Übliche alternative Bezeichnungen: Retrieval-Augmented Generation, Grounded Generation.

Verwandte Begriffe