Джейлбрейк ИИ
Что такое Джейлбрейк ИИ?
Джейлбрейк ИИПриём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
Джейлбрейки ИИ эксплуатируют разрыв между общими возможностями модели и её safety-дообучением. Злоумышленники используют ролевые сценарии, гипотетические рамки, закодированные инструкции или многократные примеры (many-shot), чтобы убедить модель игнорировать ограничения на оружие, вредоносный код, разжигание ненависти или раскрытие системного промпта. Известные примеры — промпты "DAN" (Do Anything Now) против GPT-3.5 и ChatGPT, а также исследование Anthropic 2024 года по many-shot джейлбрейкам. В отличие от промпт-инъекции, здесь атакующим выступает сам пользователь. Контрмеры включают adversarial-обучение, конституциональные методы, классификаторы вывода, оценку отказов и непрерывный red-teaming.
● Примеры
- 01
Промпты "DAN", заставляющие ChatGPT играть неограниченное альтер-эго.
- 02
Many-shot-джейлбрейки, заполняющие контекст множеством фиктивных примеров вредных, но "одобренных" ответов.
● Частые вопросы
Что такое Джейлбрейк ИИ?
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Джейлбрейк ИИ?
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
Как защититься от Джейлбрейк ИИ?
Защита от Джейлбрейк ИИ обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Джейлбрейк ИИ?
Распространённые альтернативные названия: Джейлбрейк LLM, Обход safety.