Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 030

Jailbreak de IA

¿Qué es Jailbreak de IA?

Jailbreak de IATécnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.


Los jailbreaks de IA explotan la brecha entre las capacidades generales de un modelo y su ajuste fino de seguridad. Los atacantes recurren a juegos de rol, escenarios hipotéticos, instrucciones codificadas o ejemplos many-shot para convencer al modelo de ignorar restricciones sobre armas, malware, discurso de odio o la divulgación de su prompt de sistema. Casos célebres son los prompts "DAN" (Do Anything Now) contra GPT-3.5 y ChatGPT, así como la investigación de Anthropic en 2024 sobre many-shot jailbreaking. A diferencia de la inyección de prompts, aquí el usuario es el propio atacante. Las mitigaciones incluyen entrenamiento adversarial, métodos constitucionales, clasificadores de salida, evaluación de rechazos y red-teaming continuo.

Ejemplos

  1. 01

    Prompts "DAN" que piden a ChatGPT interpretar un alter ego sin restricciones.

  2. 02

    Jailbreaks many-shot que llenan el contexto con ejemplos falsos de respuestas dañinas cumplidas.

Preguntas frecuentes

¿Qué es Jailbreak de IA?

Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Jailbreak de IA?

Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.

¿Cómo funciona Jailbreak de IA?

Los jailbreaks de IA explotan la brecha entre las capacidades generales de un modelo y su ajuste fino de seguridad. Los atacantes recurren a juegos de rol, escenarios hipotéticos, instrucciones codificadas o ejemplos many-shot para convencer al modelo de ignorar restricciones sobre armas, malware, discurso de odio o la divulgación de su prompt de sistema. Casos célebres son los prompts "DAN" (Do Anything Now) contra GPT-3.5 y ChatGPT, así como la investigación de Anthropic en 2024 sobre many-shot jailbreaking. A diferencia de la inyección de prompts, aquí el usuario es el propio atacante. Las mitigaciones incluyen entrenamiento adversarial, métodos constitucionales, clasificadores de salida, evaluación de rechazos y red-teaming continuo.

¿Cómo defenderse de Jailbreak de IA?

Las defensas contra Jailbreak de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Jailbreak de IA?

Nombres alternativos comunes: Jailbreak de LLM, Evasión de seguridad.

Términos relacionados

Véase también