Indirekte Prompt Injection
Was ist Indirekte Prompt Injection?
Indirekte Prompt InjectionVariante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
Indirekte Prompt Injection — von Greshake et al. (2023) ausführlich beschrieben — erfordert keinen direkten Dialog mit dem Modell. Der Angreifer platziert Anweisungen in einer Ressource, die das LLM konsumieren soll: einer von einem Agenten zusammengefassten Webseite, einem von einer RAG-Pipeline gelesenen PDF, einer vom Copilot verarbeiteten E-Mail oder dem Alt-Text eines Bildes. Sobald das Modell den Inhalt in seinen Kontext übernimmt, kann es den Anweisungen folgen, Konversationshistorie preisgeben, Tools aufrufen oder Daten über präparierte URLs exfiltrieren. Schutz bieten Content-Sandboxing, Retrieval-Allowlists, Trennung von Daten und Anweisungen, Egress-Kontrollen und menschliche Freigaben für sensible Aktionen.
● Beispiele
- 01
Lebenslauf-PDF mit weiß-auf-weiß formatiertem Text, der den HR-Copilot anweist, den Kandidaten zu empfehlen.
- 02
Eine Webseite, die — wenn ein KI-Browser-Agent sie zusammenfasst — diesen anweist, die E-Mails des Nutzers an eine Angreifer-URL zu senden.
● Häufige Fragen
Was ist Indirekte Prompt Injection?
Variante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Indirekte Prompt Injection?
Variante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
Wie funktioniert Indirekte Prompt Injection?
Indirekte Prompt Injection — von Greshake et al. (2023) ausführlich beschrieben — erfordert keinen direkten Dialog mit dem Modell. Der Angreifer platziert Anweisungen in einer Ressource, die das LLM konsumieren soll: einer von einem Agenten zusammengefassten Webseite, einem von einer RAG-Pipeline gelesenen PDF, einer vom Copilot verarbeiteten E-Mail oder dem Alt-Text eines Bildes. Sobald das Modell den Inhalt in seinen Kontext übernimmt, kann es den Anweisungen folgen, Konversationshistorie preisgeben, Tools aufrufen oder Daten über präparierte URLs exfiltrieren. Schutz bieten Content-Sandboxing, Retrieval-Allowlists, Trennung von Daten und Anweisungen, Egress-Kontrollen und menschliche Freigaben für sensible Aktionen.
Wie schützt man sich gegen Indirekte Prompt Injection?
Schutzmaßnahmen gegen Indirekte Prompt Injection kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Indirekte Prompt Injection?
Übliche alternative Bezeichnungen: Cross-Domain-Prompt-Injection, Gespeicherte Prompt Injection.
● Verwandte Begriffe
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 898
RAG-Security
Disziplin zur Absicherung von Retrieval-Augmented-Generation-Pipelines, sodass die Dokumente, Vector Stores und Retrieval-Schritte, die ein LLM speisen, nicht vergiftet, missbraucht oder zur Datenexfiltration genutzt werden können.
- ai-security№ 030
KI-Jailbreak
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 034
AI-Supply-Chain-Risiko
Summe der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
- ai-security№ 618
LLM-Guardrails
Mechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
● Siehe auch
- № 1163Token Smuggling
- № 657MCP-Angriffe
- № 619LLM-System-Prompt-Leak