Контрабанда токенов
Что такое Контрабанда токенов?
Контрабанда токеновКласс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
Контрабанда токенов эксплуатирует расхождение между тем, как модель токенизирует и декодирует текст, и тем, как его анализируют контентные классификаторы. Атакующие разбивают запрещённые слова на несколько токенов, используют Base64, ROT-13, Unicode-омоглифы, leet, малоресурсные языки или просят модель собрать вредоносную строку из безобидных фрагментов ("возьми вторую букву каждого слова"). Существуют варианты через входы инструментов и обфусцированные вызовы функций. Метод работает потому, что guardrails чаще проверяют поверхностный текст, а не восстановленный смысл. Защита — ансамбли классификаторов по декодированному тексту, семантическая детекция намерений, decoding-aware safety-модели, runtime-песочница вызовов инструментов и непрерывный adversarial red teaming.
● Примеры
- 01
Атакующий просит LLM взять по первой букве десяти безобидных слов, чтобы собрать запрещённый термин из химического синтеза.
- 02
Вредоносный запрос закодирован в Base64: фильтр видит лишь случайные символы, а LLM спокойно декодирует и выполняет.
● Частые вопросы
Что такое Контрабанда токенов?
Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Контрабанда токенов?
Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
Как защититься от Контрабанда токенов?
Защита от Контрабанда токенов обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Контрабанда токенов?
Распространённые альтернативные названия: Джейлбрейк через контрабанду токенов, Закодированная промпт-инъекция.