Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

Contrabando de tokens (token smuggling)

¿Qué es Contrabando de tokens (token smuggling)?

Contrabando de tokens (token smuggling)Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.


El contrabando de tokens explota el desacople entre cómo el modelo tokeniza y decodifica texto y cómo lo analizan sus clasificadores de contenido. Los atacantes parten palabras prohibidas en varios tokens, usan Base64, ROT-13, parecidos Unicode, leet-speak, idiomas poco representados o piden al modelo que ensamble la cadena maliciosa a partir de piezas inocuas (por ejemplo, "toma la segunda letra de cada palabra"). También hay variantes vía entradas de herramientas y llamadas a funciones ofuscadas. Funciona porque los guardrails inspeccionan a menudo el texto superficial y no la intención decodificada. Las mitigaciones combinan ensembles de clasificadores que operan sobre el texto decodificado, detección semántica de intenciones, modelos de seguridad conscientes de la decodificación, sandboxing de llamadas a herramientas y evaluaciones adversariales continuas.

Ejemplos

  1. 01

    Un atacante pide a un LLM que tome la primera letra de diez palabras inocuas para deletrear el nombre de una síntesis química prohibida.

  2. 02

    Codificar una petición maliciosa en Base64 para que el filtro de seguridad solo vea caracteres aparentemente aleatorios mientras el LLM la decodifica y obedece.

Preguntas frecuentes

¿Qué es Contrabando de tokens (token smuggling)?

Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Contrabando de tokens (token smuggling)?

Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.

¿Cómo funciona Contrabando de tokens (token smuggling)?

El contrabando de tokens explota el desacople entre cómo el modelo tokeniza y decodifica texto y cómo lo analizan sus clasificadores de contenido. Los atacantes parten palabras prohibidas en varios tokens, usan Base64, ROT-13, parecidos Unicode, leet-speak, idiomas poco representados o piden al modelo que ensamble la cadena maliciosa a partir de piezas inocuas (por ejemplo, "toma la segunda letra de cada palabra"). También hay variantes vía entradas de herramientas y llamadas a funciones ofuscadas. Funciona porque los guardrails inspeccionan a menudo el texto superficial y no la intención decodificada. Las mitigaciones combinan ensembles de clasificadores que operan sobre el texto decodificado, detección semántica de intenciones, modelos de seguridad conscientes de la decodificación, sandboxing de llamadas a herramientas y evaluaciones adversariales continuas.

¿Cómo defenderse de Contrabando de tokens (token smuggling)?

Las defensas contra Contrabando de tokens (token smuggling) combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Contrabando de tokens (token smuggling)?

Nombres alternativos comunes: Jailbreak por contrabando de tokens, Inyección de prompts codificada.

Términos relacionados