Guardrails LLM
Qu'est-ce que Guardrails LLM ?
Guardrails LLMMécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
Les guardrails forment la couche de politiques des applications LLM. Ils comprennent classificateurs et filtres à règles pour repérer injection de prompt ou jailbreaks, contrôles de thème, persona et ton, validation de schéma de sortie, suppression de PII et secrets, gestion des refus, exigences de citations, et limites sur les appels d'outils. Les implémentations vont de frameworks open source comme NVIDIA NeMo Guardrails, Guardrails AI et Presidio de Microsoft à des API fournisseurs (OpenAI Moderation, endpoints safety d'Anthropic), jusqu'à des logiques sur-mesure dans des frameworks d'agents. Ils complètent l'alignement interne au modèle, les firewalls LLM et les pratiques MLSecOps. Ils doivent être testables, versionnés et continuellement validés par red teaming, car les attaquants cherchent l'écart entre guardrails et comportement du modèle.
● Exemples
- 01
Un guardrail qui force un chatbot de conseil financier à inclure une mention réglementaire dans chaque réponse.
- 02
Un validateur de schéma qui rejette toute sortie LLM ne correspondant pas au JSON attendu pour une écriture en base.
● Questions fréquentes
Qu'est-ce que Guardrails LLM ?
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Guardrails LLM ?
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
Comment fonctionne Guardrails LLM ?
Les guardrails forment la couche de politiques des applications LLM. Ils comprennent classificateurs et filtres à règles pour repérer injection de prompt ou jailbreaks, contrôles de thème, persona et ton, validation de schéma de sortie, suppression de PII et secrets, gestion des refus, exigences de citations, et limites sur les appels d'outils. Les implémentations vont de frameworks open source comme NVIDIA NeMo Guardrails, Guardrails AI et Presidio de Microsoft à des API fournisseurs (OpenAI Moderation, endpoints safety d'Anthropic), jusqu'à des logiques sur-mesure dans des frameworks d'agents. Ils complètent l'alignement interne au modèle, les firewalls LLM et les pratiques MLSecOps. Ils doivent être testables, versionnés et continuellement validés par red teaming, car les attaquants cherchent l'écart entre guardrails et comportement du modèle.
Comment se défendre contre Guardrails LLM ?
Les défenses contre Guardrails LLM combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Guardrails LLM ?
Noms alternatifs courants : Guardrails IA, Guardrails IA générative.
● Termes liés
- ai-security№ 617
Firewall LLM
Contrôle de sécurité qui se place entre les utilisateurs et un grand modèle de langage pour inspecter prompts, contexte récupéré et sorties en temps réel, et bloquer ou réécrire le trafic non conforme.
- ai-security№ 866
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 024
Alignement de l'IA
Ensemble de recherches et d'ingénierie visant à ce que les systèmes d'IA poursuivent des buts, suivent des instructions et se comportent conformément aux intentions de leurs développeurs et utilisateurs.
- ai-security№ 898
Sécurité RAG
Discipline visant à sécuriser les pipelines de génération augmentée par récupération afin que les documents, stores vectoriels et étapes de retrieval qui alimentent un LLM ne puissent pas être empoisonnés, détournés ou utilisés pour exfiltrer des données.
- ai-security№ 027
Gouvernance de l'IA
Ensemble de politiques, processus, rôles et contrôles qu'organisations et régulateurs mobilisent pour garantir un développement, un déploiement et une exploitation responsables et conformes des systèmes d'IA.
● Voir aussi
- № 528Injection de prompt indirecte
- № 030Jailbreak d'IA
- № 028Hallucination de l'IA
- № 1163Token smuggling