Contrabando de tokens (token smuggling)
¿Qué es Contrabando de tokens (token smuggling)?
Contrabando de tokens (token smuggling)Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.
El contrabando de tokens explota el desacople entre cómo el modelo tokeniza y decodifica texto y cómo lo analizan sus clasificadores de contenido. Los atacantes parten palabras prohibidas en varios tokens, usan Base64, ROT-13, parecidos Unicode, leet-speak, idiomas poco representados o piden al modelo que ensamble la cadena maliciosa a partir de piezas inocuas (por ejemplo, "toma la segunda letra de cada palabra"). También hay variantes vía entradas de herramientas y llamadas a funciones ofuscadas. Funciona porque los guardrails inspeccionan a menudo el texto superficial y no la intención decodificada. Las mitigaciones combinan ensembles de clasificadores que operan sobre el texto decodificado, detección semántica de intenciones, modelos de seguridad conscientes de la decodificación, sandboxing de llamadas a herramientas y evaluaciones adversariales continuas.
● Ejemplos
- 01
Un atacante pide a un LLM que tome la primera letra de diez palabras inocuas para deletrear el nombre de una síntesis química prohibida.
- 02
Codificar una petición maliciosa en Base64 para que el filtro de seguridad solo vea caracteres aparentemente aleatorios mientras el LLM la decodifica y obedece.
● Preguntas frecuentes
¿Qué es Contrabando de tokens (token smuggling)?
Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Contrabando de tokens (token smuggling)?
Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.
¿Cómo funciona Contrabando de tokens (token smuggling)?
El contrabando de tokens explota el desacople entre cómo el modelo tokeniza y decodifica texto y cómo lo analizan sus clasificadores de contenido. Los atacantes parten palabras prohibidas en varios tokens, usan Base64, ROT-13, parecidos Unicode, leet-speak, idiomas poco representados o piden al modelo que ensamble la cadena maliciosa a partir de piezas inocuas (por ejemplo, "toma la segunda letra de cada palabra"). También hay variantes vía entradas de herramientas y llamadas a funciones ofuscadas. Funciona porque los guardrails inspeccionan a menudo el texto superficial y no la intención decodificada. Las mitigaciones combinan ensembles de clasificadores que operan sobre el texto decodificado, detección semántica de intenciones, modelos de seguridad conscientes de la decodificación, sandboxing de llamadas a herramientas y evaluaciones adversariales continuas.
¿Cómo defenderse de Contrabando de tokens (token smuggling)?
Las defensas contra Contrabando de tokens (token smuggling) combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Contrabando de tokens (token smuggling)?
Nombres alternativos comunes: Jailbreak por contrabando de tokens, Inyección de prompts codificada.
● Términos relacionados
- ai-security№ 030
Jailbreak de IA
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 528
Inyección indirecta de prompts
Variante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 618
Guardrails de LLM
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.