Was ist LLM-System-Prompt-Leak? Bedeutung, Definition und Beispiele

Ein System-Prompt-Leak entsteht, wenn ein Nutzer eine produktive LLM-Anwendung dazu bringt, ihren versteckten System-Prompt, Entwickleranweisungen oder beigestellten Kontext (API-Schluessel, interne Dokumentation, Tool-Definitionen) preiszugeben. Angreifer nutzen direkte Anfragen, Rollenspiel-Framings, Uebersetzungstricks, Zeichencodierungs-Obfuskation oder indirekte Prompt Injection ueber Dokumente, die das Modell zusammenfassen soll. Selbst teilweise Leaks helfen, die Geschaeftslogik zu rekonstruieren, Guardrail-Umgehungen zu finden und massgeschneiderte Jailbreaks oder Social-Engineering-Texte zu erstellen. Massnahmen umfassen, den System-Prompt als oeffentlich annehmbare Daten zu betrachten, Geheimnisse zu entfernen, serverseitige Policy-Checks und Output-Filter zu nutzen und dem Modell zu sagen, seine Anweisungen nicht zu verraten - bei Akzeptanz, dass entschlossene Angreifer haeufig dennoch erfolgreich sind.

● Beispiele

Ein Angreifer weist den Chatbot an, alles vor seiner ersten Nutzernachricht in Codebloecken zu wiederholen, und legt damit den vollstaendigen System-Prompt mit eingebettetem API-Schluessel offen.

Ein Zusammenfassungs-Assistent gibt nach Erhalt eines manipulierten PDFs seine versteckten Tool-Beschreibungen aus, weil das Dokument ihn dazu anweist.

● Häufige Fragen

Was ist LLM-System-Prompt-Leak?

Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet LLM-System-Prompt-Leak?

Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.

Wie schützt man sich gegen LLM-System-Prompt-Leak?

Schutzmaßnahmen gegen LLM-System-Prompt-Leak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für LLM-System-Prompt-Leak?

Übliche alternative Bezeichnungen: System-Prompt-Extraktion, Prompt-Exfiltration.