Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

Token smuggling

O que é Token smuggling?

Token smugglingFamília de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.


O token smuggling explora o desencontro entre a forma como o modelo tokeniza e descodifica texto e a forma como os classificadores de conteúdo o analisam. Os atacantes partem palavras proibidas por vários tokens, usam Base64, ROT-13, homoglifos Unicode, leet-speak, idiomas pouco representados ou pedem ao modelo que monte a cadeia maliciosa a partir de pedaços inofensivos ("a segunda letra de cada palavra"). Existem variantes via entradas de ferramentas e chamadas de função ofuscadas. Funciona porque os guardrails muitas vezes inspecionam apenas o texto à superfície, não a intenção reconstruída. Mitigações: ensembles de classificadores sobre texto descodificado, deteção semântica de intenção, modelos de segurança cientes da descodificação, sandbox de chamadas a ferramentas e red teaming adversarial contínuo.

Exemplos

  1. 01

    Um atacante pede ao LLM para usar a primeira letra de dez palavras inofensivas para soletrar um termo proibido de síntese química.

  2. 02

    Codificar um pedido malicioso em Base64: o filtro vê apenas caracteres aleatórios e o LLM descodifica e cumpre.

Perguntas frequentes

O que é Token smuggling?

Família de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Token smuggling?

Família de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.

Como funciona Token smuggling?

O token smuggling explora o desencontro entre a forma como o modelo tokeniza e descodifica texto e a forma como os classificadores de conteúdo o analisam. Os atacantes partem palavras proibidas por vários tokens, usam Base64, ROT-13, homoglifos Unicode, leet-speak, idiomas pouco representados ou pedem ao modelo que monte a cadeia maliciosa a partir de pedaços inofensivos ("a segunda letra de cada palavra"). Existem variantes via entradas de ferramentas e chamadas de função ofuscadas. Funciona porque os guardrails muitas vezes inspecionam apenas o texto à superfície, não a intenção reconstruída. Mitigações: ensembles de classificadores sobre texto descodificado, deteção semântica de intenção, modelos de segurança cientes da descodificação, sandbox de chamadas a ferramentas e red teaming adversarial contínuo.

Como se defender contra Token smuggling?

As defesas contra Token smuggling costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Token smuggling?

Nomes alternativos comuns: Jailbreak por token smuggling, Injeção de prompt codificada.

Termos relacionados