Token smuggling
Qu'est-ce que Token smuggling ?
Token smugglingFamille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.
Le token smuggling exploite le décalage entre la manière dont un modèle tokenize et décode du texte et celle dont ses classificateurs de contenu l'analysent. Les attaquants découpent les mots interdits sur plusieurs tokens, utilisent Base64, ROT-13, des homoglyphes Unicode, du leet, des langues peu représentées ou demandent au modèle d'assembler la chaîne malveillante à partir de fragments inoffensifs ("prends la deuxième lettre de chaque mot"). Variantes : smuggling via entrées d'outils et appels de fonctions obfusqués. Cela fonctionne parce que les guardrails inspectent souvent le texte de surface plutôt que l'intention reconstruite. Parades : ensembles de classificateurs sur texte décodé, détection sémantique d'intention, modèles de sécurité conscients du décodage, sandbox des appels d'outils et red teaming adversarial continu.
● Exemples
- 01
Un attaquant demande à un LLM de prendre la première lettre de dix mots anodins pour épeler un terme de synthèse chimique interdit.
- 02
Encoder une requête malveillante en Base64 : le filtre ne voit que des caractères apparemment aléatoires, mais le LLM décode et obtempère.
● Questions fréquentes
Qu'est-ce que Token smuggling ?
Famille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Token smuggling ?
Famille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.
Comment fonctionne Token smuggling ?
Le token smuggling exploite le décalage entre la manière dont un modèle tokenize et décode du texte et celle dont ses classificateurs de contenu l'analysent. Les attaquants découpent les mots interdits sur plusieurs tokens, utilisent Base64, ROT-13, des homoglyphes Unicode, du leet, des langues peu représentées ou demandent au modèle d'assembler la chaîne malveillante à partir de fragments inoffensifs ("prends la deuxième lettre de chaque mot"). Variantes : smuggling via entrées d'outils et appels de fonctions obfusqués. Cela fonctionne parce que les guardrails inspectent souvent le texte de surface plutôt que l'intention reconstruite. Parades : ensembles de classificateurs sur texte décodé, détection sémantique d'intention, modèles de sécurité conscients du décodage, sandbox des appels d'outils et red teaming adversarial continu.
Comment se défendre contre Token smuggling ?
Les défenses contre Token smuggling combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Token smuggling ?
Noms alternatifs courants : Jailbreak par smuggling de tokens, Injection de prompt encodée.
● Termes liés
- ai-security№ 030
Jailbreak d'IA
Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
- ai-security№ 866
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 528
Injection de prompt indirecte
Variante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 618
Guardrails LLM
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.