Fuite de System Prompt de LLM
Qu'est-ce que Fuite de System Prompt de LLM ?
Fuite de System Prompt de LLMAttaque qui extrait le system prompt ou les instructions cachees d'une application LLM en production, devoilant logique, secrets et outils associes.
Une fuite de system prompt survient quand un utilisateur amene une application LLM en production a reveler son prompt systeme cache, les instructions du developpeur ou le contexte associe (cles API, documentation interne, definitions d'outils). Les attaquants utilisent des demandes directes, des mises en scene de jeu de role, des astuces de traduction, l'obfuscation par encodage de caracteres, ou l'injection indirecte via des documents que le modele doit resumer. Meme partielles, ces fuites aident a retro-ingenier la logique metier, a trouver des contournements de guardrails et a concevoir des jailbreaks ou contenus d'ingenierie sociale sur mesure. Les mitigations consistent a traiter le system prompt comme donnee publique peu fiable, eliminer les secrets, appliquer des controles serveur, filtrer les sorties et instruire le modele de ne pas reveler ses instructions, tout en admettant qu'un attaquant determine y parvient souvent.
● Exemples
- 01
Un attaquant demande au chatbot de repeter, en blocs de code, tout ce qui precede son premier message utilisateur, devoilant le system prompt complet avec une cle API integree.
- 02
Un assistant de resume recoit un PDF malveillant qui lui ordonne de divulguer ses descriptions d'outils cachees, ce qu'il fait.
● Questions fréquentes
Qu'est-ce que Fuite de System Prompt de LLM ?
Attaque qui extrait le system prompt ou les instructions cachees d'une application LLM en production, devoilant logique, secrets et outils associes. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Fuite de System Prompt de LLM ?
Attaque qui extrait le system prompt ou les instructions cachees d'une application LLM en production, devoilant logique, secrets et outils associes.
Comment fonctionne Fuite de System Prompt de LLM ?
Une fuite de system prompt survient quand un utilisateur amene une application LLM en production a reveler son prompt systeme cache, les instructions du developpeur ou le contexte associe (cles API, documentation interne, definitions d'outils). Les attaquants utilisent des demandes directes, des mises en scene de jeu de role, des astuces de traduction, l'obfuscation par encodage de caracteres, ou l'injection indirecte via des documents que le modele doit resumer. Meme partielles, ces fuites aident a retro-ingenier la logique metier, a trouver des contournements de guardrails et a concevoir des jailbreaks ou contenus d'ingenierie sociale sur mesure. Les mitigations consistent a traiter le system prompt comme donnee publique peu fiable, eliminer les secrets, appliquer des controles serveur, filtrer les sorties et instruire le modele de ne pas reveler ses instructions, tout en admettant qu'un attaquant determine y parvient souvent.
Comment se défendre contre Fuite de System Prompt de LLM ?
Les défenses contre Fuite de System Prompt de LLM combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Fuite de System Prompt de LLM ?
Noms alternatifs courants : Extraction de system prompt, Exfiltration de prompt.
● Termes liés
- ai-security№ 866
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 528
Injection de prompt indirecte
Variante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil.
- ai-security№ 030
Jailbreak d'IA
Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
- ai-security№ 657
Attaques contre MCP
Attaques exploitant le Model Context Protocol (MCP) pour injecter des prompts, abuser des outils ou pivoter via des serveurs auxquels un assistant IA fait confiance.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.
- attacks№ 277
Fuite de donnees
Exposition accidentelle ou par negligence d'informations sensibles, generalement due a une mauvaise configuration ou une erreur humaine plutot qu'a une intrusion.