Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

Контрабанда токенов

Что такое Контрабанда токенов?

Контрабанда токеновКласс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.


Контрабанда токенов эксплуатирует расхождение между тем, как модель токенизирует и декодирует текст, и тем, как его анализируют контентные классификаторы. Атакующие разбивают запрещённые слова на несколько токенов, используют Base64, ROT-13, Unicode-омоглифы, leet, малоресурсные языки или просят модель собрать вредоносную строку из безобидных фрагментов ("возьми вторую букву каждого слова"). Существуют варианты через входы инструментов и обфусцированные вызовы функций. Метод работает потому, что guardrails чаще проверяют поверхностный текст, а не восстановленный смысл. Защита — ансамбли классификаторов по декодированному тексту, семантическая детекция намерений, decoding-aware safety-модели, runtime-песочница вызовов инструментов и непрерывный adversarial red teaming.

Примеры

  1. 01

    Атакующий просит LLM взять по первой букве десяти безобидных слов, чтобы собрать запрещённый термин из химического синтеза.

  2. 02

    Вредоносный запрос закодирован в Base64: фильтр видит лишь случайные символы, а LLM спокойно декодирует и выполняет.

Частые вопросы

Что такое Контрабанда токенов?

Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными. Относится к категории Безопасность ИИ и ML в кибербезопасности.

Что означает Контрабанда токенов?

Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.

Как работает Контрабанда токенов?

Контрабанда токенов эксплуатирует расхождение между тем, как модель токенизирует и декодирует текст, и тем, как его анализируют контентные классификаторы. Атакующие разбивают запрещённые слова на несколько токенов, используют Base64, ROT-13, Unicode-омоглифы, leet, малоресурсные языки или просят модель собрать вредоносную строку из безобидных фрагментов ("возьми вторую букву каждого слова"). Существуют варианты через входы инструментов и обфусцированные вызовы функций. Метод работает потому, что guardrails чаще проверяют поверхностный текст, а не восстановленный смысл. Защита — ансамбли классификаторов по декодированному тексту, семантическая детекция намерений, decoding-aware safety-модели, runtime-песочница вызовов инструментов и непрерывный adversarial red teaming.

Как защититься от Контрабанда токенов?

Защита от Контрабанда токенов обычно сочетает технические меры и операционные практики, как описано в определении выше.

Какие есть другие названия Контрабанда токенов?

Распространённые альтернативные названия: Джейлбрейк через контрабанду токенов, Закодированная промпт-инъекция.

Связанные термины