RAG
O que é RAG?
RAGRetrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta.
O RAG complementa um modelo de linguagem grande com um passo externo de recuperacao. Em inferencia, a consulta do utilizador e transformada em embedding, um indice vetorial ou de palavras-chave devolve os documentos mais relevantes e estes sao concatenados no prompt para o LLM raciocinar ou citar a partir deles. O RAG reduz alucinacoes e permite usar dados privados ou recentes sem retreinar. Em seguranca, cria nova superficie de ataque: prompt injection indireto a partir dos documentos, envenenamento do corpus ou do vector store, exfiltracao via saidas do modelo, falhas de controlo de acesso quando varios tenants partilham indice e ataques de inversao de embeddings. Pipelines RAG endurecidos isolam conteudo nao confiavel, aplicam controlo de acesso por documento, sanitizam entradas, monitorizam os trechos recuperados e aplicam guardrails de saida.
● Exemplos
- 01
Um chatbot empresarial responde a perguntas de RH recuperando PDFs de politicas a partir de um vector store.
- 02
Uma pagina wiki maliciosa contem instrucoes ocultas que sequestram um assistente RAG via prompt injection indireto.
● Perguntas frequentes
O que é RAG?
Retrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa RAG?
Retrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta.
Como funciona RAG?
O RAG complementa um modelo de linguagem grande com um passo externo de recuperacao. Em inferencia, a consulta do utilizador e transformada em embedding, um indice vetorial ou de palavras-chave devolve os documentos mais relevantes e estes sao concatenados no prompt para o LLM raciocinar ou citar a partir deles. O RAG reduz alucinacoes e permite usar dados privados ou recentes sem retreinar. Em seguranca, cria nova superficie de ataque: prompt injection indireto a partir dos documentos, envenenamento do corpus ou do vector store, exfiltracao via saidas do modelo, falhas de controlo de acesso quando varios tenants partilham indice e ataques de inversao de embeddings. Pipelines RAG endurecidos isolam conteudo nao confiavel, aplicam controlo de acesso por documento, sanitizam entradas, monitorizam os trechos recuperados e aplicam guardrails de saida.
Como se defender contra RAG?
As defesas contra RAG costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para RAG?
Nomes alternativos comuns: Geracao aumentada por recuperacao, Geracao grounded.
● Termos relacionados
- ai-security№ 1198
Seguranca de bases de dados vetoriais
Conjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain.
- ai-security№ 376
Ataques a embeddings
Classe de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade.
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 031
Model Card de IA
Documento padronizado, introduzido por Margaret Mitchell e colegas em 2018, que descreve o uso pretendido, dados de treino, desempenho, limitacoes e consideracoes eticas de um modelo de ML.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.