Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 618

Guardrails LLM

Qu'est-ce que Guardrails LLM ?

Guardrails LLMMécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.


Les guardrails forment la couche de politiques des applications LLM. Ils comprennent classificateurs et filtres à règles pour repérer injection de prompt ou jailbreaks, contrôles de thème, persona et ton, validation de schéma de sortie, suppression de PII et secrets, gestion des refus, exigences de citations, et limites sur les appels d'outils. Les implémentations vont de frameworks open source comme NVIDIA NeMo Guardrails, Guardrails AI et Presidio de Microsoft à des API fournisseurs (OpenAI Moderation, endpoints safety d'Anthropic), jusqu'à des logiques sur-mesure dans des frameworks d'agents. Ils complètent l'alignement interne au modèle, les firewalls LLM et les pratiques MLSecOps. Ils doivent être testables, versionnés et continuellement validés par red teaming, car les attaquants cherchent l'écart entre guardrails et comportement du modèle.

Exemples

  1. 01

    Un guardrail qui force un chatbot de conseil financier à inclure une mention réglementaire dans chaque réponse.

  2. 02

    Un validateur de schéma qui rejette toute sortie LLM ne correspondant pas au JSON attendu pour une écriture en base.

Questions fréquentes

Qu'est-ce que Guardrails LLM ?

Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Guardrails LLM ?

Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.

Comment fonctionne Guardrails LLM ?

Les guardrails forment la couche de politiques des applications LLM. Ils comprennent classificateurs et filtres à règles pour repérer injection de prompt ou jailbreaks, contrôles de thème, persona et ton, validation de schéma de sortie, suppression de PII et secrets, gestion des refus, exigences de citations, et limites sur les appels d'outils. Les implémentations vont de frameworks open source comme NVIDIA NeMo Guardrails, Guardrails AI et Presidio de Microsoft à des API fournisseurs (OpenAI Moderation, endpoints safety d'Anthropic), jusqu'à des logiques sur-mesure dans des frameworks d'agents. Ils complètent l'alignement interne au modèle, les firewalls LLM et les pratiques MLSecOps. Ils doivent être testables, versionnés et continuellement validés par red teaming, car les attaquants cherchent l'écart entre guardrails et comportement du modèle.

Comment se défendre contre Guardrails LLM ?

Les défenses contre Guardrails LLM combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Guardrails LLM ?

Noms alternatifs courants : Guardrails IA, Guardrails IA générative.

Termes liés

Voir aussi