Jailbreak de IA
O que é Jailbreak de IA?
Jailbreak de IATécnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
Os jailbreaks de IA exploram a diferença entre as capacidades gerais de um modelo e o seu fine-tuning de segurança. Os atacantes utilizam role-play, enquadramentos hipotéticos, instruções codificadas ou exemplos many-shot para convencer o modelo a ignorar restrições sobre armas, malware, discurso de ódio ou divulgação do seu prompt de sistema. Exemplos famosos incluem os prompts "DAN" (Do Anything Now) contra GPT-3.5 e ChatGPT, e a investigação da Anthropic de 2024 sobre many-shot jailbreaking. Ao contrário da injeção de prompt, aqui o atacante é o próprio utilizador. As mitigações incluem treino adversarial, métodos constitucionais, classificadores de saída, avaliação de recusas e red-teaming contínuo.
● Exemplos
- 01
Prompts "DAN" que pedem ao ChatGPT para representar um alter ego sem restrições.
- 02
Jailbreaks many-shot que enchem o contexto com exemplos falsos de respostas nocivas "aceites".
● Perguntas frequentes
O que é Jailbreak de IA?
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Jailbreak de IA?
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
Como funciona Jailbreak de IA?
Os jailbreaks de IA exploram a diferença entre as capacidades gerais de um modelo e o seu fine-tuning de segurança. Os atacantes utilizam role-play, enquadramentos hipotéticos, instruções codificadas ou exemplos many-shot para convencer o modelo a ignorar restrições sobre armas, malware, discurso de ódio ou divulgação do seu prompt de sistema. Exemplos famosos incluem os prompts "DAN" (Do Anything Now) contra GPT-3.5 e ChatGPT, e a investigação da Anthropic de 2024 sobre many-shot jailbreaking. Ao contrário da injeção de prompt, aqui o atacante é o próprio utilizador. As mitigações incluem treino adversarial, métodos constitucionais, classificadores de saída, avaliação de recusas e red-teaming contínuo.
Como se defender contra Jailbreak de IA?
As defesas contra Jailbreak de IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Jailbreak de IA?
Nomes alternativos comuns: Jailbreak de LLM, Contorno de segurança.
● Termos relacionados
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 024
Alinhamento de IA
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 618
Guardrails de LLM
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
- ai-security№ 1163
Token smuggling
Família de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.