Injeção indireta de prompt
O que é Injeção indireta de prompt?
Injeção indireta de promptVariante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
A injeção indireta — descrita em detalhe por Greshake et al. (2023) — não exige que o atacante converse diretamente com o modelo. Ele coloca instruções num recurso que o LLM irá consumir: uma página resumida por um agente, um PDF analisado por um pipeline RAG, um e-mail lido por um copiloto ou até o texto alternativo de uma imagem. Quando o modelo concatena esse conteúdo no contexto, pode seguir essas instruções, expor o histórico, chamar ferramentas ou exfiltrar dados através de URLs preparadas. As defesas incluem sandbox de conteúdo, allow-list de recuperação, separação entre dados e instruções, controlos de saída e aprovação humana em ações sensíveis.
● Exemplos
- 01
PDF de currículo com texto branco sobre branco a instruir o copiloto de RH a recomendar o candidato.
- 02
Página web que, ao ser resumida por um agente de navegador, o instrui a enviar os e-mails do utilizador para uma URL do atacante.
● Perguntas frequentes
O que é Injeção indireta de prompt?
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Injeção indireta de prompt?
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
Como se defender contra Injeção indireta de prompt?
As defesas contra Injeção indireta de prompt costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Injeção indireta de prompt?
Nomes alternativos comuns: Injeção de prompt entre domínios, Injeção de prompt armazenada.