KI-Jailbreak
Was ist KI-Jailbreak?
KI-JailbreakTechnik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
KI-Jailbreaks nutzen die Lücke zwischen den allgemeinen Fähigkeiten eines Modells und seinem Safety-Finetuning aus. Angreifer setzen Rollenspiele, hypothetische Rahmungen, kodierte Anweisungen oder viele Few-Shot-Beispiele ("many-shot") ein, um das Modell dazu zu bringen, Einschränkungen zu Waffen, Schadcode, Hassrede oder der Offenlegung des System-Prompts zu ignorieren. Bekannte Beispiele sind die "DAN"-Prompts (Do Anything Now) gegen GPT-3.5 und ChatGPT sowie Anthropics 2024er Forschung zu Many-Shot-Jailbreaks. Im Unterschied zur Prompt Injection ist hier der Nutzer selbst der Angreifer. Gegenmaßnahmen umfassen adversarielles Training, Constitutional-AI-Methoden, Output-Klassifikatoren, Refusal-Grading und kontinuierliches Red-Teaming.
● Beispiele
- 01
"DAN"-Prompts, die ChatGPT bitten, ein uneingeschränktes Alter Ego zu spielen.
- 02
Many-Shot-Jailbreaks, die den Kontext mit gefälschten Beispielen schädlicher, willfähriger Antworten füllen.
● Häufige Fragen
Was ist KI-Jailbreak?
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet KI-Jailbreak?
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
Wie funktioniert KI-Jailbreak?
KI-Jailbreaks nutzen die Lücke zwischen den allgemeinen Fähigkeiten eines Modells und seinem Safety-Finetuning aus. Angreifer setzen Rollenspiele, hypothetische Rahmungen, kodierte Anweisungen oder viele Few-Shot-Beispiele ("many-shot") ein, um das Modell dazu zu bringen, Einschränkungen zu Waffen, Schadcode, Hassrede oder der Offenlegung des System-Prompts zu ignorieren. Bekannte Beispiele sind die "DAN"-Prompts (Do Anything Now) gegen GPT-3.5 und ChatGPT sowie Anthropics 2024er Forschung zu Many-Shot-Jailbreaks. Im Unterschied zur Prompt Injection ist hier der Nutzer selbst der Angreifer. Gegenmaßnahmen umfassen adversarielles Training, Constitutional-AI-Methoden, Output-Klassifikatoren, Refusal-Grading und kontinuierliches Red-Teaming.
Wie schützt man sich gegen KI-Jailbreak?
Schutzmaßnahmen gegen KI-Jailbreak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für KI-Jailbreak?
Übliche alternative Bezeichnungen: LLM-Jailbreak, Safety-Bypass.
● Verwandte Begriffe
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 024
KI-Alignment
Forschungs- und Engineering-Arbeit, die sicherstellen soll, dass KI-Systeme Ziele verfolgen, Anweisungen befolgen und sich so verhalten, wie es ihre Entwickler und Nutzer beabsichtigen.
- ai-security№ 032
KI-Red-Team
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 618
LLM-Guardrails
Mechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
- ai-security№ 1163
Token Smuggling
Klasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.