Jailbreak de IA
¿Qué es Jailbreak de IA?
Jailbreak de IATécnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
Los jailbreaks de IA explotan la brecha entre las capacidades generales de un modelo y su ajuste fino de seguridad. Los atacantes recurren a juegos de rol, escenarios hipotéticos, instrucciones codificadas o ejemplos many-shot para convencer al modelo de ignorar restricciones sobre armas, malware, discurso de odio o la divulgación de su prompt de sistema. Casos célebres son los prompts "DAN" (Do Anything Now) contra GPT-3.5 y ChatGPT, así como la investigación de Anthropic en 2024 sobre many-shot jailbreaking. A diferencia de la inyección de prompts, aquí el usuario es el propio atacante. Las mitigaciones incluyen entrenamiento adversarial, métodos constitucionales, clasificadores de salida, evaluación de rechazos y red-teaming continuo.
● Ejemplos
- 01
Prompts "DAN" que piden a ChatGPT interpretar un alter ego sin restricciones.
- 02
Jailbreaks many-shot que llenan el contexto con ejemplos falsos de respuestas dañinas cumplidas.
● Preguntas frecuentes
¿Qué es Jailbreak de IA?
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Jailbreak de IA?
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
¿Cómo funciona Jailbreak de IA?
Los jailbreaks de IA explotan la brecha entre las capacidades generales de un modelo y su ajuste fino de seguridad. Los atacantes recurren a juegos de rol, escenarios hipotéticos, instrucciones codificadas o ejemplos many-shot para convencer al modelo de ignorar restricciones sobre armas, malware, discurso de odio o la divulgación de su prompt de sistema. Casos célebres son los prompts "DAN" (Do Anything Now) contra GPT-3.5 y ChatGPT, así como la investigación de Anthropic en 2024 sobre many-shot jailbreaking. A diferencia de la inyección de prompts, aquí el usuario es el propio atacante. Las mitigaciones incluyen entrenamiento adversarial, métodos constitucionales, clasificadores de salida, evaluación de rechazos y red-teaming continuo.
¿Cómo defenderse de Jailbreak de IA?
Las defensas contra Jailbreak de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Jailbreak de IA?
Nombres alternativos comunes: Jailbreak de LLM, Evasión de seguridad.
● Términos relacionados
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 024
Alineamiento de IA
Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 618
Guardrails de LLM
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
- ai-security№ 1163
Contrabando de tokens (token smuggling)
Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.