Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 619

LLM-System-Prompt-Leak

Was ist LLM-System-Prompt-Leak?

LLM-System-Prompt-LeakAngriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.


Ein System-Prompt-Leak entsteht, wenn ein Nutzer eine produktive LLM-Anwendung dazu bringt, ihren versteckten System-Prompt, Entwickleranweisungen oder beigestellten Kontext (API-Schluessel, interne Dokumentation, Tool-Definitionen) preiszugeben. Angreifer nutzen direkte Anfragen, Rollenspiel-Framings, Uebersetzungstricks, Zeichencodierungs-Obfuskation oder indirekte Prompt Injection ueber Dokumente, die das Modell zusammenfassen soll. Selbst teilweise Leaks helfen, die Geschaeftslogik zu rekonstruieren, Guardrail-Umgehungen zu finden und massgeschneiderte Jailbreaks oder Social-Engineering-Texte zu erstellen. Massnahmen umfassen, den System-Prompt als oeffentlich annehmbare Daten zu betrachten, Geheimnisse zu entfernen, serverseitige Policy-Checks und Output-Filter zu nutzen und dem Modell zu sagen, seine Anweisungen nicht zu verraten - bei Akzeptanz, dass entschlossene Angreifer haeufig dennoch erfolgreich sind.

Beispiele

  1. 01

    Ein Angreifer weist den Chatbot an, alles vor seiner ersten Nutzernachricht in Codebloecken zu wiederholen, und legt damit den vollstaendigen System-Prompt mit eingebettetem API-Schluessel offen.

  2. 02

    Ein Zusammenfassungs-Assistent gibt nach Erhalt eines manipulierten PDFs seine versteckten Tool-Beschreibungen aus, weil das Dokument ihn dazu anweist.

Häufige Fragen

Was ist LLM-System-Prompt-Leak?

Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet LLM-System-Prompt-Leak?

Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.

Wie funktioniert LLM-System-Prompt-Leak?

Ein System-Prompt-Leak entsteht, wenn ein Nutzer eine produktive LLM-Anwendung dazu bringt, ihren versteckten System-Prompt, Entwickleranweisungen oder beigestellten Kontext (API-Schluessel, interne Dokumentation, Tool-Definitionen) preiszugeben. Angreifer nutzen direkte Anfragen, Rollenspiel-Framings, Uebersetzungstricks, Zeichencodierungs-Obfuskation oder indirekte Prompt Injection ueber Dokumente, die das Modell zusammenfassen soll. Selbst teilweise Leaks helfen, die Geschaeftslogik zu rekonstruieren, Guardrail-Umgehungen zu finden und massgeschneiderte Jailbreaks oder Social-Engineering-Texte zu erstellen. Massnahmen umfassen, den System-Prompt als oeffentlich annehmbare Daten zu betrachten, Geheimnisse zu entfernen, serverseitige Policy-Checks und Output-Filter zu nutzen und dem Modell zu sagen, seine Anweisungen nicht zu verraten - bei Akzeptanz, dass entschlossene Angreifer haeufig dennoch erfolgreich sind.

Wie schützt man sich gegen LLM-System-Prompt-Leak?

Schutzmaßnahmen gegen LLM-System-Prompt-Leak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für LLM-System-Prompt-Leak?

Übliche alternative Bezeichnungen: System-Prompt-Extraktion, Prompt-Exfiltration.

Verwandte Begriffe