Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

Token Smuggling

Was ist Token Smuggling?

Token SmugglingKlasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.


Token Smuggling nutzt den Bruch zwischen der Tokenisierung und Dekodierung des Modells und der Sicht der Content-Klassifikatoren. Angreifer zerlegen verbotene Wörter über mehrere Tokens, nutzen Base64, ROT-13, Unicode-Homoglyphen, Leetspeak, ressourcenarme Sprachen oder lassen das Modell die schädliche Zeichenfolge aus unverdächtigen Bausteinen zusammensetzen ("nimm den zweiten Buchstaben jedes Wortes"). Varianten umfassen Smuggling über Tool-Eingaben und obfuskierte Funktionsaufrufe. Es funktioniert, weil Guardrails oft nur Oberflächentext prüfen, nicht die rekonstruierte Intention. Schutz: Klassifikator-Ensembles auf dekodiertem Text, semantische Intent-Detektion, decoding-aware Safety-Modelle, Sandboxing von Tool-Aufrufen und kontinuierliches adversarielles Red Teaming.

Beispiele

  1. 01

    Ein Angreifer bittet das LLM, aus zehn harmlosen Wörtern jeweils den ersten Buchstaben zu nehmen, um einen verbotenen Chemie-Syntheseterm zu buchstabieren.

  2. 02

    Ein in Base64 kodierter Schadbefehl: Der Filter sieht nur scheinbar zufällige Zeichen, das LLM decodiert und befolgt brav.

Häufige Fragen

Was ist Token Smuggling?

Klasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Token Smuggling?

Klasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.

Wie funktioniert Token Smuggling?

Token Smuggling nutzt den Bruch zwischen der Tokenisierung und Dekodierung des Modells und der Sicht der Content-Klassifikatoren. Angreifer zerlegen verbotene Wörter über mehrere Tokens, nutzen Base64, ROT-13, Unicode-Homoglyphen, Leetspeak, ressourcenarme Sprachen oder lassen das Modell die schädliche Zeichenfolge aus unverdächtigen Bausteinen zusammensetzen ("nimm den zweiten Buchstaben jedes Wortes"). Varianten umfassen Smuggling über Tool-Eingaben und obfuskierte Funktionsaufrufe. Es funktioniert, weil Guardrails oft nur Oberflächentext prüfen, nicht die rekonstruierte Intention. Schutz: Klassifikator-Ensembles auf dekodiertem Text, semantische Intent-Detektion, decoding-aware Safety-Modelle, Sandboxing von Tool-Aufrufen und kontinuierliches adversarielles Red Teaming.

Wie schützt man sich gegen Token Smuggling?

Schutzmaßnahmen gegen Token Smuggling kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Token Smuggling?

Übliche alternative Bezeichnungen: Token-Smuggling-Jailbreak, Kodierte Prompt Injection.

Verwandte Begriffe