Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 030

Jailbreak d'IA

Qu'est-ce que Jailbreak d'IA ?

Jailbreak d'IATechnique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.


Les jailbreaks d'IA exploitent l'écart entre les capacités générales d'un modèle et son fine-tuning de sécurité. Les attaquants utilisent des jeux de rôle, des cadrages hypothétiques, des instructions encodées ou des exemples many-shot pour convaincre le modèle d'ignorer les restrictions sur les armes, le malware, les discours haineux ou la divulgation de son prompt système. Des cas connus incluent les prompts "DAN" (Do Anything Now) contre GPT-3.5 et ChatGPT, et les travaux d'Anthropic en 2024 sur le many-shot jailbreaking. Contrairement à l'injection de prompt, c'est ici l'utilisateur lui-même qui attaque. Les parades reposent sur l'entraînement adversarial, les méthodes constitutionnelles, les classificateurs de sortie, la notation de refus et le red-teaming continu.

Exemples

  1. 01

    Prompts "DAN" demandant à ChatGPT d'incarner un alter ego sans restrictions.

  2. 02

    Jailbreaks many-shot qui remplissent le contexte d'exemples bidons de réponses nocives "acceptées".

Questions fréquentes

Qu'est-ce que Jailbreak d'IA ?

Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Jailbreak d'IA ?

Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.

Comment fonctionne Jailbreak d'IA ?

Les jailbreaks d'IA exploitent l'écart entre les capacités générales d'un modèle et son fine-tuning de sécurité. Les attaquants utilisent des jeux de rôle, des cadrages hypothétiques, des instructions encodées ou des exemples many-shot pour convaincre le modèle d'ignorer les restrictions sur les armes, le malware, les discours haineux ou la divulgation de son prompt système. Des cas connus incluent les prompts "DAN" (Do Anything Now) contre GPT-3.5 et ChatGPT, et les travaux d'Anthropic en 2024 sur le many-shot jailbreaking. Contrairement à l'injection de prompt, c'est ici l'utilisateur lui-même qui attaque. Les parades reposent sur l'entraînement adversarial, les méthodes constitutionnelles, les classificateurs de sortie, la notation de refus et le red-teaming continu.

Comment se défendre contre Jailbreak d'IA ?

Les défenses contre Jailbreak d'IA combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Jailbreak d'IA ?

Noms alternatifs courants : Jailbreak de LLM, Contournement de sécurité.

Termes liés

Voir aussi