Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 030

KI-Jailbreak

Was ist KI-Jailbreak?

KI-JailbreakTechnik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.


KI-Jailbreaks nutzen die Lücke zwischen den allgemeinen Fähigkeiten eines Modells und seinem Safety-Finetuning aus. Angreifer setzen Rollenspiele, hypothetische Rahmungen, kodierte Anweisungen oder viele Few-Shot-Beispiele ("many-shot") ein, um das Modell dazu zu bringen, Einschränkungen zu Waffen, Schadcode, Hassrede oder der Offenlegung des System-Prompts zu ignorieren. Bekannte Beispiele sind die "DAN"-Prompts (Do Anything Now) gegen GPT-3.5 und ChatGPT sowie Anthropics 2024er Forschung zu Many-Shot-Jailbreaks. Im Unterschied zur Prompt Injection ist hier der Nutzer selbst der Angreifer. Gegenmaßnahmen umfassen adversarielles Training, Constitutional-AI-Methoden, Output-Klassifikatoren, Refusal-Grading und kontinuierliches Red-Teaming.

Beispiele

  1. 01

    "DAN"-Prompts, die ChatGPT bitten, ein uneingeschränktes Alter Ego zu spielen.

  2. 02

    Many-Shot-Jailbreaks, die den Kontext mit gefälschten Beispielen schädlicher, willfähriger Antworten füllen.

Häufige Fragen

Was ist KI-Jailbreak?

Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet KI-Jailbreak?

Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.

Wie funktioniert KI-Jailbreak?

KI-Jailbreaks nutzen die Lücke zwischen den allgemeinen Fähigkeiten eines Modells und seinem Safety-Finetuning aus. Angreifer setzen Rollenspiele, hypothetische Rahmungen, kodierte Anweisungen oder viele Few-Shot-Beispiele ("many-shot") ein, um das Modell dazu zu bringen, Einschränkungen zu Waffen, Schadcode, Hassrede oder der Offenlegung des System-Prompts zu ignorieren. Bekannte Beispiele sind die "DAN"-Prompts (Do Anything Now) gegen GPT-3.5 und ChatGPT sowie Anthropics 2024er Forschung zu Many-Shot-Jailbreaks. Im Unterschied zur Prompt Injection ist hier der Nutzer selbst der Angreifer. Gegenmaßnahmen umfassen adversarielles Training, Constitutional-AI-Methoden, Output-Klassifikatoren, Refusal-Grading und kontinuierliches Red-Teaming.

Wie schützt man sich gegen KI-Jailbreak?

Schutzmaßnahmen gegen KI-Jailbreak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für KI-Jailbreak?

Übliche alternative Bezeichnungen: LLM-Jailbreak, Safety-Bypass.

Verwandte Begriffe

Siehe auch