Guardrails de LLM
¿Qué es Guardrails de LLM?
Guardrails de LLMMecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
Los guardrails son la capa de políticas de las aplicaciones LLM. Incluyen clasificadores y filtros basados en reglas para detectar inyección de prompts o jailbreaks, controles de tema, persona y tono, validación de esquema de salida, depuración de PII y secretos, manejo de rechazos, requisitos de citación y restricciones sobre llamadas a herramientas. Las implementaciones van desde frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI o Presidio de Microsoft, hasta APIs de proveedor como OpenAI Moderation o los endpoints de safety de Anthropic, o lógica a medida dentro de frameworks de agentes. Complementan el alineamiento interno del modelo, los firewalls de LLM y las prácticas MLSecOps. Deben ser testables, versionables y validados continuamente con red teaming, ya que los atacantes buscan el hueco entre guardrails y comportamiento del modelo.
● Ejemplos
- 01
Un guardrail que obliga a un chatbot de asesoramiento financiero a incluir un descargo regulatorio en cada respuesta.
- 02
Un validador de esquema que descarta cualquier salida del LLM que no coincida con el JSON esperado para una escritura en BD.
● Preguntas frecuentes
¿Qué es Guardrails de LLM?
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Guardrails de LLM?
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
¿Cómo funciona Guardrails de LLM?
Los guardrails son la capa de políticas de las aplicaciones LLM. Incluyen clasificadores y filtros basados en reglas para detectar inyección de prompts o jailbreaks, controles de tema, persona y tono, validación de esquema de salida, depuración de PII y secretos, manejo de rechazos, requisitos de citación y restricciones sobre llamadas a herramientas. Las implementaciones van desde frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI o Presidio de Microsoft, hasta APIs de proveedor como OpenAI Moderation o los endpoints de safety de Anthropic, o lógica a medida dentro de frameworks de agentes. Complementan el alineamiento interno del modelo, los firewalls de LLM y las prácticas MLSecOps. Deben ser testables, versionables y validados continuamente con red teaming, ya que los atacantes buscan el hueco entre guardrails y comportamiento del modelo.
¿Cómo defenderse de Guardrails de LLM?
Las defensas contra Guardrails de LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Guardrails de LLM?
Nombres alternativos comunes: Guardrails de IA, Guardrails de IA generativa.
● Términos relacionados
- ai-security№ 617
Firewall de LLM
Control de seguridad que se sitúa entre los usuarios y un gran modelo de lenguaje para inspeccionar prompts, contexto recuperado y salidas en tiempo real, bloqueando o reescribiendo el tráfico que viola la política.
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 024
Alineamiento de IA
Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
- ai-security№ 898
Seguridad de RAG
Disciplina dedicada a proteger los pipelines de generación aumentada por recuperación para que los documentos, almacenes vectoriales y pasos de recuperación que alimentan al LLM no puedan envenenarse, abusarse ni filtrar datos.
- ai-security№ 027
Gobernanza de IA
Conjunto de políticas, procesos, roles y controles con los que organizaciones y reguladores garantizan que los sistemas de IA se desarrollan, despliegan y operan de forma responsable y legal.