Джейлбрейк ИИ
Что такое Джейлбрейк ИИ?
Джейлбрейк ИИПриём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
Джейлбрейки ИИ эксплуатируют разрыв между общими возможностями модели и её safety-дообучением. Злоумышленники используют ролевые сценарии, гипотетические рамки, закодированные инструкции или многократные примеры (many-shot), чтобы убедить модель игнорировать ограничения на оружие, вредоносный код, разжигание ненависти или раскрытие системного промпта. Известные примеры — промпты "DAN" (Do Anything Now) против GPT-3.5 и ChatGPT, а также исследование Anthropic 2024 года по many-shot джейлбрейкам. В отличие от промпт-инъекции, здесь атакующим выступает сам пользователь. Контрмеры включают adversarial-обучение, конституциональные методы, классификаторы вывода, оценку отказов и непрерывный red-teaming.
● Примеры
- 01
Промпты "DAN", заставляющие ChatGPT играть неограниченное альтер-эго.
- 02
Many-shot-джейлбрейки, заполняющие контекст множеством фиктивных примеров вредных, но "одобренных" ответов.
● Частые вопросы
Что такое Джейлбрейк ИИ?
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Джейлбрейк ИИ?
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
Как работает Джейлбрейк ИИ?
Джейлбрейки ИИ эксплуатируют разрыв между общими возможностями модели и её safety-дообучением. Злоумышленники используют ролевые сценарии, гипотетические рамки, закодированные инструкции или многократные примеры (many-shot), чтобы убедить модель игнорировать ограничения на оружие, вредоносный код, разжигание ненависти или раскрытие системного промпта. Известные примеры — промпты "DAN" (Do Anything Now) против GPT-3.5 и ChatGPT, а также исследование Anthropic 2024 года по many-shot джейлбрейкам. В отличие от промпт-инъекции, здесь атакующим выступает сам пользователь. Контрмеры включают adversarial-обучение, конституциональные методы, классификаторы вывода, оценку отказов и непрерывный red-teaming.
Как защититься от Джейлбрейк ИИ?
Защита от Джейлбрейк ИИ обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Джейлбрейк ИИ?
Распространённые альтернативные названия: Джейлбрейк LLM, Обход safety.
● Связанные термины
- ai-security№ 866
Промпт-инъекция
Атака, при которой во входной запрос LLM встраивается враждебный текст, переопределяющий исходные инструкции и заставляющий модель игнорировать ограничения или выполнять действия злоумышленника.
- ai-security№ 024
Выравнивание ИИ
Совокупность исследований и инженерных практик, обеспечивающих, что ИИ-системы преследуют цели, выполняют инструкции и ведут себя в соответствии с намерениями разработчиков и пользователей.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 618
LLM Guardrails
Механизмы, ограничивающие, что приложение на основе LLM может принимать или выдавать, обеспечивая правила safety, безопасности и бизнеса вокруг базовой модели.
- ai-security№ 1163
Контрабанда токенов
Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.