Token Smuggling
Was ist Token Smuggling?
Token SmugglingKlasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.
Token Smuggling nutzt den Bruch zwischen der Tokenisierung und Dekodierung des Modells und der Sicht der Content-Klassifikatoren. Angreifer zerlegen verbotene Wörter über mehrere Tokens, nutzen Base64, ROT-13, Unicode-Homoglyphen, Leetspeak, ressourcenarme Sprachen oder lassen das Modell die schädliche Zeichenfolge aus unverdächtigen Bausteinen zusammensetzen ("nimm den zweiten Buchstaben jedes Wortes"). Varianten umfassen Smuggling über Tool-Eingaben und obfuskierte Funktionsaufrufe. Es funktioniert, weil Guardrails oft nur Oberflächentext prüfen, nicht die rekonstruierte Intention. Schutz: Klassifikator-Ensembles auf dekodiertem Text, semantische Intent-Detektion, decoding-aware Safety-Modelle, Sandboxing von Tool-Aufrufen und kontinuierliches adversarielles Red Teaming.
● Beispiele
- 01
Ein Angreifer bittet das LLM, aus zehn harmlosen Wörtern jeweils den ersten Buchstaben zu nehmen, um einen verbotenen Chemie-Syntheseterm zu buchstabieren.
- 02
Ein in Base64 kodierter Schadbefehl: Der Filter sieht nur scheinbar zufällige Zeichen, das LLM decodiert und befolgt brav.
● Häufige Fragen
Was ist Token Smuggling?
Klasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Token Smuggling?
Klasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.
Wie funktioniert Token Smuggling?
Token Smuggling nutzt den Bruch zwischen der Tokenisierung und Dekodierung des Modells und der Sicht der Content-Klassifikatoren. Angreifer zerlegen verbotene Wörter über mehrere Tokens, nutzen Base64, ROT-13, Unicode-Homoglyphen, Leetspeak, ressourcenarme Sprachen oder lassen das Modell die schädliche Zeichenfolge aus unverdächtigen Bausteinen zusammensetzen ("nimm den zweiten Buchstaben jedes Wortes"). Varianten umfassen Smuggling über Tool-Eingaben und obfuskierte Funktionsaufrufe. Es funktioniert, weil Guardrails oft nur Oberflächentext prüfen, nicht die rekonstruierte Intention. Schutz: Klassifikator-Ensembles auf dekodiertem Text, semantische Intent-Detektion, decoding-aware Safety-Modelle, Sandboxing von Tool-Aufrufen und kontinuierliches adversarielles Red Teaming.
Wie schützt man sich gegen Token Smuggling?
Schutzmaßnahmen gegen Token Smuggling kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Token Smuggling?
Übliche alternative Bezeichnungen: Token-Smuggling-Jailbreak, Kodierte Prompt Injection.
● Verwandte Begriffe
- ai-security№ 030
KI-Jailbreak
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 528
Indirekte Prompt Injection
Variante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 618
LLM-Guardrails
Mechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
- ai-security№ 032
KI-Red-Team
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.