Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 030

Джейлбрейк ИИ

Что такое Джейлбрейк ИИ?

Джейлбрейк ИИПриём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.


Джейлбрейки ИИ эксплуатируют разрыв между общими возможностями модели и её safety-дообучением. Злоумышленники используют ролевые сценарии, гипотетические рамки, закодированные инструкции или многократные примеры (many-shot), чтобы убедить модель игнорировать ограничения на оружие, вредоносный код, разжигание ненависти или раскрытие системного промпта. Известные примеры — промпты "DAN" (Do Anything Now) против GPT-3.5 и ChatGPT, а также исследование Anthropic 2024 года по many-shot джейлбрейкам. В отличие от промпт-инъекции, здесь атакующим выступает сам пользователь. Контрмеры включают adversarial-обучение, конституциональные методы, классификаторы вывода, оценку отказов и непрерывный red-teaming.

Примеры

  1. 01

    Промпты "DAN", заставляющие ChatGPT играть неограниченное альтер-эго.

  2. 02

    Many-shot-джейлбрейки, заполняющие контекст множеством фиктивных примеров вредных, но "одобренных" ответов.

Частые вопросы

Что такое Джейлбрейк ИИ?

Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить. Относится к категории Безопасность ИИ и ML в кибербезопасности.

Что означает Джейлбрейк ИИ?

Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.

Как работает Джейлбрейк ИИ?

Джейлбрейки ИИ эксплуатируют разрыв между общими возможностями модели и её safety-дообучением. Злоумышленники используют ролевые сценарии, гипотетические рамки, закодированные инструкции или многократные примеры (many-shot), чтобы убедить модель игнорировать ограничения на оружие, вредоносный код, разжигание ненависти или раскрытие системного промпта. Известные примеры — промпты "DAN" (Do Anything Now) против GPT-3.5 и ChatGPT, а также исследование Anthropic 2024 года по many-shot джейлбрейкам. В отличие от промпт-инъекции, здесь атакующим выступает сам пользователь. Контрмеры включают adversarial-обучение, конституциональные методы, классификаторы вывода, оценку отказов и непрерывный red-teaming.

Как защититься от Джейлбрейк ИИ?

Защита от Джейлбрейк ИИ обычно сочетает технические меры и операционные практики, как описано в определении выше.

Какие есть другие названия Джейлбрейк ИИ?

Распространённые альтернативные названия: Джейлбрейк LLM, Обход safety.

Связанные термины

См. также