LLM-System-Prompt-Leak
Was ist LLM-System-Prompt-Leak?
LLM-System-Prompt-LeakAngriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
Ein System-Prompt-Leak entsteht, wenn ein Nutzer eine produktive LLM-Anwendung dazu bringt, ihren versteckten System-Prompt, Entwickleranweisungen oder beigestellten Kontext (API-Schluessel, interne Dokumentation, Tool-Definitionen) preiszugeben. Angreifer nutzen direkte Anfragen, Rollenspiel-Framings, Uebersetzungstricks, Zeichencodierungs-Obfuskation oder indirekte Prompt Injection ueber Dokumente, die das Modell zusammenfassen soll. Selbst teilweise Leaks helfen, die Geschaeftslogik zu rekonstruieren, Guardrail-Umgehungen zu finden und massgeschneiderte Jailbreaks oder Social-Engineering-Texte zu erstellen. Massnahmen umfassen, den System-Prompt als oeffentlich annehmbare Daten zu betrachten, Geheimnisse zu entfernen, serverseitige Policy-Checks und Output-Filter zu nutzen und dem Modell zu sagen, seine Anweisungen nicht zu verraten - bei Akzeptanz, dass entschlossene Angreifer haeufig dennoch erfolgreich sind.
● Beispiele
- 01
Ein Angreifer weist den Chatbot an, alles vor seiner ersten Nutzernachricht in Codebloecken zu wiederholen, und legt damit den vollstaendigen System-Prompt mit eingebettetem API-Schluessel offen.
- 02
Ein Zusammenfassungs-Assistent gibt nach Erhalt eines manipulierten PDFs seine versteckten Tool-Beschreibungen aus, weil das Dokument ihn dazu anweist.
● Häufige Fragen
Was ist LLM-System-Prompt-Leak?
Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet LLM-System-Prompt-Leak?
Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
Wie schützt man sich gegen LLM-System-Prompt-Leak?
Schutzmaßnahmen gegen LLM-System-Prompt-Leak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für LLM-System-Prompt-Leak?
Übliche alternative Bezeichnungen: System-Prompt-Extraktion, Prompt-Exfiltration.