LLM-System-Prompt-Leak
Was ist LLM-System-Prompt-Leak?
LLM-System-Prompt-LeakAngriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
Ein System-Prompt-Leak entsteht, wenn ein Nutzer eine produktive LLM-Anwendung dazu bringt, ihren versteckten System-Prompt, Entwickleranweisungen oder beigestellten Kontext (API-Schluessel, interne Dokumentation, Tool-Definitionen) preiszugeben. Angreifer nutzen direkte Anfragen, Rollenspiel-Framings, Uebersetzungstricks, Zeichencodierungs-Obfuskation oder indirekte Prompt Injection ueber Dokumente, die das Modell zusammenfassen soll. Selbst teilweise Leaks helfen, die Geschaeftslogik zu rekonstruieren, Guardrail-Umgehungen zu finden und massgeschneiderte Jailbreaks oder Social-Engineering-Texte zu erstellen. Massnahmen umfassen, den System-Prompt als oeffentlich annehmbare Daten zu betrachten, Geheimnisse zu entfernen, serverseitige Policy-Checks und Output-Filter zu nutzen und dem Modell zu sagen, seine Anweisungen nicht zu verraten - bei Akzeptanz, dass entschlossene Angreifer haeufig dennoch erfolgreich sind.
● Beispiele
- 01
Ein Angreifer weist den Chatbot an, alles vor seiner ersten Nutzernachricht in Codebloecken zu wiederholen, und legt damit den vollstaendigen System-Prompt mit eingebettetem API-Schluessel offen.
- 02
Ein Zusammenfassungs-Assistent gibt nach Erhalt eines manipulierten PDFs seine versteckten Tool-Beschreibungen aus, weil das Dokument ihn dazu anweist.
● Häufige Fragen
Was ist LLM-System-Prompt-Leak?
Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet LLM-System-Prompt-Leak?
Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
Wie funktioniert LLM-System-Prompt-Leak?
Ein System-Prompt-Leak entsteht, wenn ein Nutzer eine produktive LLM-Anwendung dazu bringt, ihren versteckten System-Prompt, Entwickleranweisungen oder beigestellten Kontext (API-Schluessel, interne Dokumentation, Tool-Definitionen) preiszugeben. Angreifer nutzen direkte Anfragen, Rollenspiel-Framings, Uebersetzungstricks, Zeichencodierungs-Obfuskation oder indirekte Prompt Injection ueber Dokumente, die das Modell zusammenfassen soll. Selbst teilweise Leaks helfen, die Geschaeftslogik zu rekonstruieren, Guardrail-Umgehungen zu finden und massgeschneiderte Jailbreaks oder Social-Engineering-Texte zu erstellen. Massnahmen umfassen, den System-Prompt als oeffentlich annehmbare Daten zu betrachten, Geheimnisse zu entfernen, serverseitige Policy-Checks und Output-Filter zu nutzen und dem Modell zu sagen, seine Anweisungen nicht zu verraten - bei Akzeptanz, dass entschlossene Angreifer haeufig dennoch erfolgreich sind.
Wie schützt man sich gegen LLM-System-Prompt-Leak?
Schutzmaßnahmen gegen LLM-System-Prompt-Leak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für LLM-System-Prompt-Leak?
Übliche alternative Bezeichnungen: System-Prompt-Extraktion, Prompt-Exfiltration.
● Verwandte Begriffe
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 528
Indirekte Prompt Injection
Variante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
- ai-security№ 030
KI-Jailbreak
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
- ai-security№ 657
MCP-Angriffe
Angriffe, die das Model Context Protocol (MCP) ausnutzen, um Prompts einzuschleusen, Tools zu missbrauchen oder ueber Server zu pivotieren, denen ein KI-Assistent vertraut.
- ai-security№ 032
KI-Red-Team
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
- attacks№ 277
Datenleck
Versehentliche oder fahrlaessige Offenlegung sensibler Daten, meist durch Fehlkonfiguration oder menschliches Versagen statt durch einen aktiven Angreifer.