Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 030

Jailbreak de IA

O que é Jailbreak de IA?

Jailbreak de IATécnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.


Os jailbreaks de IA exploram a diferença entre as capacidades gerais de um modelo e o seu fine-tuning de segurança. Os atacantes utilizam role-play, enquadramentos hipotéticos, instruções codificadas ou exemplos many-shot para convencer o modelo a ignorar restrições sobre armas, malware, discurso de ódio ou divulgação do seu prompt de sistema. Exemplos famosos incluem os prompts "DAN" (Do Anything Now) contra GPT-3.5 e ChatGPT, e a investigação da Anthropic de 2024 sobre many-shot jailbreaking. Ao contrário da injeção de prompt, aqui o atacante é o próprio utilizador. As mitigações incluem treino adversarial, métodos constitucionais, classificadores de saída, avaliação de recusas e red-teaming contínuo.

Exemplos

  1. 01

    Prompts "DAN" que pedem ao ChatGPT para representar um alter ego sem restrições.

  2. 02

    Jailbreaks many-shot que enchem o contexto com exemplos falsos de respostas nocivas "aceites".

Perguntas frequentes

O que é Jailbreak de IA?

Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Jailbreak de IA?

Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.

Como funciona Jailbreak de IA?

Os jailbreaks de IA exploram a diferença entre as capacidades gerais de um modelo e o seu fine-tuning de segurança. Os atacantes utilizam role-play, enquadramentos hipotéticos, instruções codificadas ou exemplos many-shot para convencer o modelo a ignorar restrições sobre armas, malware, discurso de ódio ou divulgação do seu prompt de sistema. Exemplos famosos incluem os prompts "DAN" (Do Anything Now) contra GPT-3.5 e ChatGPT, e a investigação da Anthropic de 2024 sobre many-shot jailbreaking. Ao contrário da injeção de prompt, aqui o atacante é o próprio utilizador. As mitigações incluem treino adversarial, métodos constitucionais, classificadores de saída, avaliação de recusas e red-teaming contínuo.

Como se defender contra Jailbreak de IA?

As defesas contra Jailbreak de IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Jailbreak de IA?

Nomes alternativos comuns: Jailbreak de LLM, Contorno de segurança.

Termos relacionados

Veja também