Контрабанда токенов
Что такое Контрабанда токенов?
Контрабанда токеновКласс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
Контрабанда токенов эксплуатирует расхождение между тем, как модель токенизирует и декодирует текст, и тем, как его анализируют контентные классификаторы. Атакующие разбивают запрещённые слова на несколько токенов, используют Base64, ROT-13, Unicode-омоглифы, leet, малоресурсные языки или просят модель собрать вредоносную строку из безобидных фрагментов ("возьми вторую букву каждого слова"). Существуют варианты через входы инструментов и обфусцированные вызовы функций. Метод работает потому, что guardrails чаще проверяют поверхностный текст, а не восстановленный смысл. Защита — ансамбли классификаторов по декодированному тексту, семантическая детекция намерений, decoding-aware safety-модели, runtime-песочница вызовов инструментов и непрерывный adversarial red teaming.
● Примеры
- 01
Атакующий просит LLM взять по первой букве десяти безобидных слов, чтобы собрать запрещённый термин из химического синтеза.
- 02
Вредоносный запрос закодирован в Base64: фильтр видит лишь случайные символы, а LLM спокойно декодирует и выполняет.
● Частые вопросы
Что такое Контрабанда токенов?
Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Контрабанда токенов?
Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
Как работает Контрабанда токенов?
Контрабанда токенов эксплуатирует расхождение между тем, как модель токенизирует и декодирует текст, и тем, как его анализируют контентные классификаторы. Атакующие разбивают запрещённые слова на несколько токенов, используют Base64, ROT-13, Unicode-омоглифы, leet, малоресурсные языки или просят модель собрать вредоносную строку из безобидных фрагментов ("возьми вторую букву каждого слова"). Существуют варианты через входы инструментов и обфусцированные вызовы функций. Метод работает потому, что guardrails чаще проверяют поверхностный текст, а не восстановленный смысл. Защита — ансамбли классификаторов по декодированному тексту, семантическая детекция намерений, decoding-aware safety-модели, runtime-песочница вызовов инструментов и непрерывный adversarial red teaming.
Как защититься от Контрабанда токенов?
Защита от Контрабанда токенов обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Контрабанда токенов?
Распространённые альтернативные названия: Джейлбрейк через контрабанду токенов, Закодированная промпт-инъекция.
● Связанные термины
- ai-security№ 030
Джейлбрейк ИИ
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
- ai-security№ 866
Промпт-инъекция
Атака, при которой во входной запрос LLM встраивается враждебный текст, переопределяющий исходные инструкции и заставляющий модель игнорировать ограничения или выполнять действия злоумышленника.
- ai-security№ 528
Косвенная промпт-инъекция
Разновидность промпт-инъекции, при которой вредоносные инструкции скрыты в стороннем контенте (веб-страницы, документы, письма), который LLM затем получает через поиск, браузер или вызовы инструментов.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 618
LLM Guardrails
Механизмы, ограничивающие, что приложение на основе LLM может принимать или выдавать, обеспечивая правила safety, безопасности и бизнеса вокруг базовой модели.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.