Injection de prompt indirecte
Qu'est-ce que Injection de prompt indirecte ?
Injection de prompt indirecteVariante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil.
L'injection indirecte — décrite en détail par Greshake et al. (2023) — n'exige pas que l'attaquant s'adresse directement au modèle. Il dissimule des instructions dans une ressource que le LLM va consommer : une page web résumée par un agent, un PDF analysé par un pipeline RAG, un e-mail lu par un copilote, voire l'attribut alt d'une image. Lorsque le modèle concatène ce contenu dans son contexte, il peut suivre ces instructions, divulguer l'historique, appeler des outils ou exfiltrer des données via des URL fabriquées. Les défenses incluent le bac à sable du contenu, l'allow-listing de la récupération, la séparation données/instructions, le contrôle des sorties réseau et l'approbation humaine pour les actions sensibles.
● Exemples
- 01
Un CV en PDF avec du texte blanc sur blanc demandant au copilote RH de recommander le candidat.
- 02
Une page web qui, résumée par un agent navigateur, lui ordonne d'envoyer les e-mails de l'utilisateur vers une URL attaquante.
● Questions fréquentes
Qu'est-ce que Injection de prompt indirecte ?
Variante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Injection de prompt indirecte ?
Variante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil.
Comment fonctionne Injection de prompt indirecte ?
L'injection indirecte — décrite en détail par Greshake et al. (2023) — n'exige pas que l'attaquant s'adresse directement au modèle. Il dissimule des instructions dans une ressource que le LLM va consommer : une page web résumée par un agent, un PDF analysé par un pipeline RAG, un e-mail lu par un copilote, voire l'attribut alt d'une image. Lorsque le modèle concatène ce contenu dans son contexte, il peut suivre ces instructions, divulguer l'historique, appeler des outils ou exfiltrer des données via des URL fabriquées. Les défenses incluent le bac à sable du contenu, l'allow-listing de la récupération, la séparation données/instructions, le contrôle des sorties réseau et l'approbation humaine pour les actions sensibles.
Comment se défendre contre Injection de prompt indirecte ?
Les défenses contre Injection de prompt indirecte combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Injection de prompt indirecte ?
Noms alternatifs courants : Injection de prompt inter-domaines, Injection de prompt stockée.
● Termes liés
- ai-security№ 866
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 898
Sécurité RAG
Discipline visant à sécuriser les pipelines de génération augmentée par récupération afin que les documents, stores vectoriels et étapes de retrieval qui alimentent un LLM ne puissent pas être empoisonnés, détournés ou utilisés pour exfiltrer des données.
- ai-security№ 030
Jailbreak d'IA
Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 034
Risque de chaîne d'approvisionnement IA
Ensemble de menaces issues des datasets, modèles de base, bibliothèques, plug-ins et infrastructures tiers que les organisations combinent pour construire et déployer des systèmes d'IA.
- ai-security№ 618
Guardrails LLM
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
● Voir aussi
- № 1163Token smuggling
- № 657Attaques contre MCP
- № 619Fuite de System Prompt de LLM