Token smuggling
O que é Token smuggling?
Token smugglingFamília de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.
O token smuggling explora o desencontro entre a forma como o modelo tokeniza e descodifica texto e a forma como os classificadores de conteúdo o analisam. Os atacantes partem palavras proibidas por vários tokens, usam Base64, ROT-13, homoglifos Unicode, leet-speak, idiomas pouco representados ou pedem ao modelo que monte a cadeia maliciosa a partir de pedaços inofensivos ("a segunda letra de cada palavra"). Existem variantes via entradas de ferramentas e chamadas de função ofuscadas. Funciona porque os guardrails muitas vezes inspecionam apenas o texto à superfície, não a intenção reconstruída. Mitigações: ensembles de classificadores sobre texto descodificado, deteção semântica de intenção, modelos de segurança cientes da descodificação, sandbox de chamadas a ferramentas e red teaming adversarial contínuo.
● Exemplos
- 01
Um atacante pede ao LLM para usar a primeira letra de dez palavras inofensivas para soletrar um termo proibido de síntese química.
- 02
Codificar um pedido malicioso em Base64: o filtro vê apenas caracteres aleatórios e o LLM descodifica e cumpre.
● Perguntas frequentes
O que é Token smuggling?
Família de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Token smuggling?
Família de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.
Como funciona Token smuggling?
O token smuggling explora o desencontro entre a forma como o modelo tokeniza e descodifica texto e a forma como os classificadores de conteúdo o analisam. Os atacantes partem palavras proibidas por vários tokens, usam Base64, ROT-13, homoglifos Unicode, leet-speak, idiomas pouco representados ou pedem ao modelo que monte a cadeia maliciosa a partir de pedaços inofensivos ("a segunda letra de cada palavra"). Existem variantes via entradas de ferramentas e chamadas de função ofuscadas. Funciona porque os guardrails muitas vezes inspecionam apenas o texto à superfície, não a intenção reconstruída. Mitigações: ensembles de classificadores sobre texto descodificado, deteção semântica de intenção, modelos de segurança cientes da descodificação, sandbox de chamadas a ferramentas e red teaming adversarial contínuo.
Como se defender contra Token smuggling?
As defesas contra Token smuggling costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Token smuggling?
Nomes alternativos comuns: Jailbreak por token smuggling, Injeção de prompt codificada.
● Termos relacionados
- ai-security№ 030
Jailbreak de IA
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 528
Injeção indireta de prompt
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 618
Guardrails de LLM
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.