O que é Fuga de System Prompt de LLM? Significado, definição e exemplos

Uma fuga de system prompt ocorre quando um utilizador leva uma aplicacao LLM em producao a revelar o seu prompt de sistema oculto, instrucoes do programador ou contexto anexado, como chaves de API, documentacao interna ou definicoes de ferramentas. Os atacantes recorrem a pedidos diretos, encenacoes de role-play, truques de traducao, ofuscacao por codificacao de caracteres ou injecao indireta de prompts atraves de documentos que o modelo e instruido a resumir. Mesmo fugas parciais ajudam a fazer engenharia reversa da logica de negocio, encontrar formas de contornar guardrails e desenhar jailbreaks ou conteudos de engenharia social a medida. As mitigacoes incluem tratar o system prompt como dado publico de baixa confianca, retirar segredos, aplicar verificacoes de politica no servidor, filtrar saidas e instruir o modelo a nao revelar as suas instrucoes, aceitando que adversarios determinados conseguem-no com frequencia.

● Exemplos

Um atacante pede ao chatbot que repita, em blocos de codigo, tudo o que precede a sua primeira mensagem, expondo o system prompt completo com uma chave API embutida.

Um assistente de resumo a quem e dado um PDF malicioso devolve as suas descricoes de ferramentas ocultas porque o documento o ordena.

● Perguntas frequentes

O que é Fuga de System Prompt de LLM?

Ataque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Fuga de System Prompt de LLM?

Ataque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas.

Como se defender contra Fuga de System Prompt de LLM?

As defesas contra Fuga de System Prompt de LLM costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Fuga de System Prompt de LLM?

Nomes alternativos comuns: Extracao de system prompt, Exfiltracao de prompt.