Injeção indireta de prompt
O que é Injeção indireta de prompt?
Injeção indireta de promptVariante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
A injeção indireta — descrita em detalhe por Greshake et al. (2023) — não exige que o atacante converse diretamente com o modelo. Ele coloca instruções num recurso que o LLM irá consumir: uma página resumida por um agente, um PDF analisado por um pipeline RAG, um e-mail lido por um copiloto ou até o texto alternativo de uma imagem. Quando o modelo concatena esse conteúdo no contexto, pode seguir essas instruções, expor o histórico, chamar ferramentas ou exfiltrar dados através de URLs preparadas. As defesas incluem sandbox de conteúdo, allow-list de recuperação, separação entre dados e instruções, controlos de saída e aprovação humana em ações sensíveis.
● Exemplos
- 01
PDF de currículo com texto branco sobre branco a instruir o copiloto de RH a recomendar o candidato.
- 02
Página web que, ao ser resumida por um agente de navegador, o instrui a enviar os e-mails do utilizador para uma URL do atacante.
● Perguntas frequentes
O que é Injeção indireta de prompt?
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Injeção indireta de prompt?
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
Como funciona Injeção indireta de prompt?
A injeção indireta — descrita em detalhe por Greshake et al. (2023) — não exige que o atacante converse diretamente com o modelo. Ele coloca instruções num recurso que o LLM irá consumir: uma página resumida por um agente, um PDF analisado por um pipeline RAG, um e-mail lido por um copiloto ou até o texto alternativo de uma imagem. Quando o modelo concatena esse conteúdo no contexto, pode seguir essas instruções, expor o histórico, chamar ferramentas ou exfiltrar dados através de URLs preparadas. As defesas incluem sandbox de conteúdo, allow-list de recuperação, separação entre dados e instruções, controlos de saída e aprovação humana em ações sensíveis.
Como se defender contra Injeção indireta de prompt?
As defesas contra Injeção indireta de prompt costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Injeção indireta de prompt?
Nomes alternativos comuns: Injeção de prompt entre domínios, Injeção de prompt armazenada.
● Termos relacionados
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 898
Segurança RAG
Disciplina dedicada a proteger pipelines de retrieval-augmented generation para que os documentos, vector stores e passos de retrieval que alimentam um LLM não possam ser envenenados, abusados ou usados para exfiltrar dados.
- ai-security№ 030
Jailbreak de IA
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 034
Risco de cadeia de fornecimento de IA
Conjunto de ameaças decorrentes dos datasets, modelos base, bibliotecas, plug-ins e infraestrutura de terceiros que as organizações combinam para construir e implementar sistemas de IA.
- ai-security№ 618
Guardrails de LLM
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
● Veja também
- № 1163Token smuggling
- № 657Ataques a MCP
- № 619Fuga de System Prompt de LLM