Fuga de System Prompt de LLM
O que é Fuga de System Prompt de LLM?
Fuga de System Prompt de LLMAtaque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas.
Uma fuga de system prompt ocorre quando um utilizador leva uma aplicacao LLM em producao a revelar o seu prompt de sistema oculto, instrucoes do programador ou contexto anexado, como chaves de API, documentacao interna ou definicoes de ferramentas. Os atacantes recorrem a pedidos diretos, encenacoes de role-play, truques de traducao, ofuscacao por codificacao de caracteres ou injecao indireta de prompts atraves de documentos que o modelo e instruido a resumir. Mesmo fugas parciais ajudam a fazer engenharia reversa da logica de negocio, encontrar formas de contornar guardrails e desenhar jailbreaks ou conteudos de engenharia social a medida. As mitigacoes incluem tratar o system prompt como dado publico de baixa confianca, retirar segredos, aplicar verificacoes de politica no servidor, filtrar saidas e instruir o modelo a nao revelar as suas instrucoes, aceitando que adversarios determinados conseguem-no com frequencia.
● Exemplos
- 01
Um atacante pede ao chatbot que repita, em blocos de codigo, tudo o que precede a sua primeira mensagem, expondo o system prompt completo com uma chave API embutida.
- 02
Um assistente de resumo a quem e dado um PDF malicioso devolve as suas descricoes de ferramentas ocultas porque o documento o ordena.
● Perguntas frequentes
O que é Fuga de System Prompt de LLM?
Ataque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Fuga de System Prompt de LLM?
Ataque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas.
Como funciona Fuga de System Prompt de LLM?
Uma fuga de system prompt ocorre quando um utilizador leva uma aplicacao LLM em producao a revelar o seu prompt de sistema oculto, instrucoes do programador ou contexto anexado, como chaves de API, documentacao interna ou definicoes de ferramentas. Os atacantes recorrem a pedidos diretos, encenacoes de role-play, truques de traducao, ofuscacao por codificacao de caracteres ou injecao indireta de prompts atraves de documentos que o modelo e instruido a resumir. Mesmo fugas parciais ajudam a fazer engenharia reversa da logica de negocio, encontrar formas de contornar guardrails e desenhar jailbreaks ou conteudos de engenharia social a medida. As mitigacoes incluem tratar o system prompt como dado publico de baixa confianca, retirar segredos, aplicar verificacoes de politica no servidor, filtrar saidas e instruir o modelo a nao revelar as suas instrucoes, aceitando que adversarios determinados conseguem-no com frequencia.
Como se defender contra Fuga de System Prompt de LLM?
As defesas contra Fuga de System Prompt de LLM costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Fuga de System Prompt de LLM?
Nomes alternativos comuns: Extracao de system prompt, Exfiltracao de prompt.
● Termos relacionados
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 528
Injeção indireta de prompt
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
- ai-security№ 030
Jailbreak de IA
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
- ai-security№ 657
Ataques a MCP
Ataques que exploram o Model Context Protocol (MCP) para injetar prompts, abusar de ferramentas ou pivotar por servidores em que o assistente de IA confia.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
- attacks№ 277
Fuga de dados
Exposicao acidental ou negligente de informacao sensivel, normalmente por ma configuracao ou erro humano, e nao por uma intrusao ativa.