Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

Token smuggling

Qu'est-ce que Token smuggling ?

Token smugglingFamille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.


Le token smuggling exploite le décalage entre la manière dont un modèle tokenize et décode du texte et celle dont ses classificateurs de contenu l'analysent. Les attaquants découpent les mots interdits sur plusieurs tokens, utilisent Base64, ROT-13, des homoglyphes Unicode, du leet, des langues peu représentées ou demandent au modèle d'assembler la chaîne malveillante à partir de fragments inoffensifs ("prends la deuxième lettre de chaque mot"). Variantes : smuggling via entrées d'outils et appels de fonctions obfusqués. Cela fonctionne parce que les guardrails inspectent souvent le texte de surface plutôt que l'intention reconstruite. Parades : ensembles de classificateurs sur texte décodé, détection sémantique d'intention, modèles de sécurité conscients du décodage, sandbox des appels d'outils et red teaming adversarial continu.

Exemples

  1. 01

    Un attaquant demande à un LLM de prendre la première lettre de dix mots anodins pour épeler un terme de synthèse chimique interdit.

  2. 02

    Encoder une requête malveillante en Base64 : le filtre ne voit que des caractères apparemment aléatoires, mais le LLM décode et obtempère.

Questions fréquentes

Qu'est-ce que Token smuggling ?

Famille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Token smuggling ?

Famille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.

Comment fonctionne Token smuggling ?

Le token smuggling exploite le décalage entre la manière dont un modèle tokenize et décode du texte et celle dont ses classificateurs de contenu l'analysent. Les attaquants découpent les mots interdits sur plusieurs tokens, utilisent Base64, ROT-13, des homoglyphes Unicode, du leet, des langues peu représentées ou demandent au modèle d'assembler la chaîne malveillante à partir de fragments inoffensifs ("prends la deuxième lettre de chaque mot"). Variantes : smuggling via entrées d'outils et appels de fonctions obfusqués. Cela fonctionne parce que les guardrails inspectent souvent le texte de surface plutôt que l'intention reconstruite. Parades : ensembles de classificateurs sur texte décodé, détection sémantique d'intention, modèles de sécurité conscients du décodage, sandbox des appels d'outils et red teaming adversarial continu.

Comment se défendre contre Token smuggling ?

Les défenses contre Token smuggling combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Token smuggling ?

Noms alternatifs courants : Jailbreak par smuggling de tokens, Injection de prompt encodée.

Termes liés