Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 618

Guardrails de LLM

¿Qué es Guardrails de LLM?

Guardrails de LLMMecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.


Los guardrails son la capa de políticas de las aplicaciones LLM. Incluyen clasificadores y filtros basados en reglas para detectar inyección de prompts o jailbreaks, controles de tema, persona y tono, validación de esquema de salida, depuración de PII y secretos, manejo de rechazos, requisitos de citación y restricciones sobre llamadas a herramientas. Las implementaciones van desde frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI o Presidio de Microsoft, hasta APIs de proveedor como OpenAI Moderation o los endpoints de safety de Anthropic, o lógica a medida dentro de frameworks de agentes. Complementan el alineamiento interno del modelo, los firewalls de LLM y las prácticas MLSecOps. Deben ser testables, versionables y validados continuamente con red teaming, ya que los atacantes buscan el hueco entre guardrails y comportamiento del modelo.

Ejemplos

  1. 01

    Un guardrail que obliga a un chatbot de asesoramiento financiero a incluir un descargo regulatorio en cada respuesta.

  2. 02

    Un validador de esquema que descarta cualquier salida del LLM que no coincida con el JSON esperado para una escritura en BD.

Preguntas frecuentes

¿Qué es Guardrails de LLM?

Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Guardrails de LLM?

Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.

¿Cómo funciona Guardrails de LLM?

Los guardrails son la capa de políticas de las aplicaciones LLM. Incluyen clasificadores y filtros basados en reglas para detectar inyección de prompts o jailbreaks, controles de tema, persona y tono, validación de esquema de salida, depuración de PII y secretos, manejo de rechazos, requisitos de citación y restricciones sobre llamadas a herramientas. Las implementaciones van desde frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI o Presidio de Microsoft, hasta APIs de proveedor como OpenAI Moderation o los endpoints de safety de Anthropic, o lógica a medida dentro de frameworks de agentes. Complementan el alineamiento interno del modelo, los firewalls de LLM y las prácticas MLSecOps. Deben ser testables, versionables y validados continuamente con red teaming, ya que los atacantes buscan el hueco entre guardrails y comportamiento del modelo.

¿Cómo defenderse de Guardrails de LLM?

Las defensas contra Guardrails de LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Guardrails de LLM?

Nombres alternativos comunes: Guardrails de IA, Guardrails de IA generativa.

Términos relacionados

Véase también