Jailbreak de IA
¿Qué es Jailbreak de IA?
Jailbreak de IATécnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
Los jailbreaks de IA explotan la brecha entre las capacidades generales de un modelo y su ajuste fino de seguridad. Los atacantes recurren a juegos de rol, escenarios hipotéticos, instrucciones codificadas o ejemplos many-shot para convencer al modelo de ignorar restricciones sobre armas, malware, discurso de odio o la divulgación de su prompt de sistema. Casos célebres son los prompts "DAN" (Do Anything Now) contra GPT-3.5 y ChatGPT, así como la investigación de Anthropic en 2024 sobre many-shot jailbreaking. A diferencia de la inyección de prompts, aquí el usuario es el propio atacante. Las mitigaciones incluyen entrenamiento adversarial, métodos constitucionales, clasificadores de salida, evaluación de rechazos y red-teaming continuo.
● Ejemplos
- 01
Prompts "DAN" que piden a ChatGPT interpretar un alter ego sin restricciones.
- 02
Jailbreaks many-shot que llenan el contexto con ejemplos falsos de respuestas dañinas cumplidas.
● Preguntas frecuentes
¿Qué es Jailbreak de IA?
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Jailbreak de IA?
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
¿Cómo defenderse de Jailbreak de IA?
Las defensas contra Jailbreak de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Jailbreak de IA?
Nombres alternativos comunes: Jailbreak de LLM, Evasión de seguridad.