RAG
Was ist RAG?
RAGRetrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.
RAG erweitert ein Large Language Model um einen externen Retrieval-Schritt. Bei der Inferenz wird die Nutzeranfrage als Embedding kodiert, ein Vektor- oder Keyword-Index liefert die relevantesten Dokumente, und diese werden in den Prompt konkateniert, damit das LLM darauf basierend antworten oder zitieren kann. RAG reduziert Halluzinationen und ermoeglicht es, ohne Retraining auf private oder aktuelle Daten zuzugreifen. Sicherheitstechnisch entstehen neue Angriffsflaechen: Prompt Injection aus Dokumenten (indirect prompt injection), Data Poisoning des Korpus oder Vector Stores, Exfiltration ueber Modellausgaben, Zugriffsfehler in mandantenfaehigen Indizes und Embedding-Inversion-Angriffe. Gehaertete Pipelines isolieren untrusted Content, erzwingen Zugriffsschutz pro Dokument, sanieren Eingaben, ueberwachen die abgerufenen Snippets und setzen Output-Guardrails.
● Beispiele
- 01
Ein Enterprise-Chatbot beantwortet HR-Fragen, indem er Policy-PDFs aus einem Vector Store abruft.
- 02
Eine manipulierte Wiki-Seite enthaelt versteckte Anweisungen, die einen RAG-Assistenten via Indirect Prompt Injection kapern.
● Häufige Fragen
Was ist RAG?
Retrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet RAG?
Retrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.
Wie funktioniert RAG?
RAG erweitert ein Large Language Model um einen externen Retrieval-Schritt. Bei der Inferenz wird die Nutzeranfrage als Embedding kodiert, ein Vektor- oder Keyword-Index liefert die relevantesten Dokumente, und diese werden in den Prompt konkateniert, damit das LLM darauf basierend antworten oder zitieren kann. RAG reduziert Halluzinationen und ermoeglicht es, ohne Retraining auf private oder aktuelle Daten zuzugreifen. Sicherheitstechnisch entstehen neue Angriffsflaechen: Prompt Injection aus Dokumenten (indirect prompt injection), Data Poisoning des Korpus oder Vector Stores, Exfiltration ueber Modellausgaben, Zugriffsfehler in mandantenfaehigen Indizes und Embedding-Inversion-Angriffe. Gehaertete Pipelines isolieren untrusted Content, erzwingen Zugriffsschutz pro Dokument, sanieren Eingaben, ueberwachen die abgerufenen Snippets und setzen Output-Guardrails.
Wie schützt man sich gegen RAG?
Schutzmaßnahmen gegen RAG kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für RAG?
Übliche alternative Bezeichnungen: Retrieval-Augmented Generation, Grounded Generation.
● Verwandte Begriffe
- ai-security№ 1198
Sicherheit von Vektor-Datenbanken
Kontrollen, die Vektor-Datenbanken in KI-Systemen vor Datenlecks, Poisoning, Tenant-Vermischung sowie Betriebs- und Supply-Chain-Kompromittierung schuetzen.
- ai-security№ 376
Embedding-Angriffe
Angriffsklasse auf KI-Embedding-Vektoren, die das urspruengliche Input oder seine Semantik wiederherstellen, manipulieren oder missbrauchen — etwa Embedding Inversion und Similarity-Poisoning.
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 031
AI-Modellkarte (Model Card)
Standardisiertes Dokument, 2018 von Margaret Mitchell und Kollegen eingefuehrt, das Verwendungszweck, Trainingsdaten, Leistung, Grenzen und ethische Aspekte eines ML-Modells beschreibt.
- ai-security№ 281
Daten-Poisoning
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.