Jailbreak de IA

Revisado porFlorian AmetteCybersecurity entrepreneur & security researcher

¿Qué es Jailbreak de IA?

Jailbreak de IATécnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.

Los jailbreaks de IA explotan la brecha entre las capacidades generales de un modelo y su ajuste fino de seguridad. Los atacantes recurren a juegos de rol, escenarios hipotéticos, instrucciones codificadas o ejemplos many-shot para convencer al modelo de ignorar restricciones sobre armas, malware, discurso de odio o la divulgación de su prompt de sistema. Casos célebres son los prompts "DAN" (Do Anything Now) contra GPT-3.5 y ChatGPT, así como la investigación de Anthropic en 2024 sobre many-shot jailbreaking. A diferencia de la inyección de prompts, aquí el usuario es el propio atacante. Las mitigaciones incluyen entrenamiento adversarial, métodos constitucionales, clasificadores de salida, evaluación de rechazos y red-teaming continuo.

● Ejemplos

01
Prompts "DAN" que piden a ChatGPT interpretar un alter ego sin restricciones.
02
Jailbreaks many-shot que llenan el contexto con ejemplos falsos de respuestas dañinas cumplidas.

● Preguntas frecuentes

¿Qué es Jailbreak de IA?

Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Jailbreak de IA?

Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.

¿Cómo defenderse de Jailbreak de IA?

Las defensas contra Jailbreak de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Jailbreak de IA?

Nombres alternativos comunes: Jailbreak de LLM, Evasión de seguridad.

Jailbreak de IA

¿Qué es Jailbreak de IA?

● Ejemplos

● Preguntas frecuentes

● Términos relacionados

● Véase también