Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 897

RAG

Qu'est-ce que RAG ?

RAGRetrieval-Augmented Generation : patron pour LLM qui recupere des documents pertinents depuis un magasin de connaissances au moment de la requete et les injecte dans le prompt pour ancrer la reponse.


Le RAG augmente un grand modele de langage par une etape de recuperation externe. Au moment de l'inference, la requete utilisateur est encodee en embedding, un index vectoriel ou de mots-cles renvoie les documents les plus pertinents, et ceux-ci sont concatenes dans le prompt pour que le LLM puisse les citer ou raisonner dessus. Le RAG reduit les hallucinations et permet d'utiliser des donnees privees ou recentes sans reentrainement. Cote securite, il cree une nouvelle surface d'attaque : prompt injection indirect via les documents, empoisonnement du corpus ou du vector store, exfiltration via les sorties du modele, erreurs de controle d'acces quand plusieurs tenants partagent un index, attaques d'inversion d'embeddings. Les pipelines RAG durcis isolent le contenu non fiable, appliquent un controle d'acces par document, sanitisent les entrees, surveillent les extraits recuperes et appliquent des garde-fous en sortie.

Exemples

  1. 01

    Un chatbot d'entreprise repond aux questions RH en recuperant des PDF de politique depuis un vector store.

  2. 02

    Une page wiki malveillante contient des instructions cachees qui detournent un assistant RAG par prompt injection indirecte.

Questions fréquentes

Qu'est-ce que RAG ?

Retrieval-Augmented Generation : patron pour LLM qui recupere des documents pertinents depuis un magasin de connaissances au moment de la requete et les injecte dans le prompt pour ancrer la reponse. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie RAG ?

Retrieval-Augmented Generation : patron pour LLM qui recupere des documents pertinents depuis un magasin de connaissances au moment de la requete et les injecte dans le prompt pour ancrer la reponse.

Comment fonctionne RAG ?

Le RAG augmente un grand modele de langage par une etape de recuperation externe. Au moment de l'inference, la requete utilisateur est encodee en embedding, un index vectoriel ou de mots-cles renvoie les documents les plus pertinents, et ceux-ci sont concatenes dans le prompt pour que le LLM puisse les citer ou raisonner dessus. Le RAG reduit les hallucinations et permet d'utiliser des donnees privees ou recentes sans reentrainement. Cote securite, il cree une nouvelle surface d'attaque : prompt injection indirect via les documents, empoisonnement du corpus ou du vector store, exfiltration via les sorties du modele, erreurs de controle d'acces quand plusieurs tenants partagent un index, attaques d'inversion d'embeddings. Les pipelines RAG durcis isolent le contenu non fiable, appliquent un controle d'acces par document, sanitisent les entrees, surveillent les extraits recuperes et appliquent des garde-fous en sortie.

Comment se défendre contre RAG ?

Les défenses contre RAG combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de RAG ?

Noms alternatifs courants : Generation augmentee par recuperation, Generation ancree.

Termes liés