Jailbreak d'IA
Qu'est-ce que Jailbreak d'IA ?
Jailbreak d'IATechnique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
Les jailbreaks d'IA exploitent l'écart entre les capacités générales d'un modèle et son fine-tuning de sécurité. Les attaquants utilisent des jeux de rôle, des cadrages hypothétiques, des instructions encodées ou des exemples many-shot pour convaincre le modèle d'ignorer les restrictions sur les armes, le malware, les discours haineux ou la divulgation de son prompt système. Des cas connus incluent les prompts "DAN" (Do Anything Now) contre GPT-3.5 et ChatGPT, et les travaux d'Anthropic en 2024 sur le many-shot jailbreaking. Contrairement à l'injection de prompt, c'est ici l'utilisateur lui-même qui attaque. Les parades reposent sur l'entraînement adversarial, les méthodes constitutionnelles, les classificateurs de sortie, la notation de refus et le red-teaming continu.
● Exemples
- 01
Prompts "DAN" demandant à ChatGPT d'incarner un alter ego sans restrictions.
- 02
Jailbreaks many-shot qui remplissent le contexte d'exemples bidons de réponses nocives "acceptées".
● Questions fréquentes
Qu'est-ce que Jailbreak d'IA ?
Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Jailbreak d'IA ?
Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
Comment fonctionne Jailbreak d'IA ?
Les jailbreaks d'IA exploitent l'écart entre les capacités générales d'un modèle et son fine-tuning de sécurité. Les attaquants utilisent des jeux de rôle, des cadrages hypothétiques, des instructions encodées ou des exemples many-shot pour convaincre le modèle d'ignorer les restrictions sur les armes, le malware, les discours haineux ou la divulgation de son prompt système. Des cas connus incluent les prompts "DAN" (Do Anything Now) contre GPT-3.5 et ChatGPT, et les travaux d'Anthropic en 2024 sur le many-shot jailbreaking. Contrairement à l'injection de prompt, c'est ici l'utilisateur lui-même qui attaque. Les parades reposent sur l'entraînement adversarial, les méthodes constitutionnelles, les classificateurs de sortie, la notation de refus et le red-teaming continu.
Comment se défendre contre Jailbreak d'IA ?
Les défenses contre Jailbreak d'IA combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Jailbreak d'IA ?
Noms alternatifs courants : Jailbreak de LLM, Contournement de sécurité.
● Termes liés
- ai-security№ 866
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 024
Alignement de l'IA
Ensemble de recherches et d'ingénierie visant à ce que les systèmes d'IA poursuivent des buts, suivent des instructions et se comportent conformément aux intentions de leurs développeurs et utilisateurs.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 618
Guardrails LLM
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
- ai-security№ 1163
Token smuggling
Famille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.