KI-Jailbreak
Was ist KI-Jailbreak?
KI-JailbreakTechnik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
KI-Jailbreaks nutzen die Lücke zwischen den allgemeinen Fähigkeiten eines Modells und seinem Safety-Finetuning aus. Angreifer setzen Rollenspiele, hypothetische Rahmungen, kodierte Anweisungen oder viele Few-Shot-Beispiele ("many-shot") ein, um das Modell dazu zu bringen, Einschränkungen zu Waffen, Schadcode, Hassrede oder der Offenlegung des System-Prompts zu ignorieren. Bekannte Beispiele sind die "DAN"-Prompts (Do Anything Now) gegen GPT-3.5 und ChatGPT sowie Anthropics 2024er Forschung zu Many-Shot-Jailbreaks. Im Unterschied zur Prompt Injection ist hier der Nutzer selbst der Angreifer. Gegenmaßnahmen umfassen adversarielles Training, Constitutional-AI-Methoden, Output-Klassifikatoren, Refusal-Grading und kontinuierliches Red-Teaming.
● Beispiele
- 01
"DAN"-Prompts, die ChatGPT bitten, ein uneingeschränktes Alter Ego zu spielen.
- 02
Many-Shot-Jailbreaks, die den Kontext mit gefälschten Beispielen schädlicher, willfähriger Antworten füllen.
● Häufige Fragen
Was ist KI-Jailbreak?
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet KI-Jailbreak?
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
Wie schützt man sich gegen KI-Jailbreak?
Schutzmaßnahmen gegen KI-Jailbreak kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für KI-Jailbreak?
Übliche alternative Bezeichnungen: LLM-Jailbreak, Safety-Bypass.