Guardrails de LLM
¿Qué es Guardrails de LLM?
Guardrails de LLMMecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
Los guardrails son la capa de políticas de las aplicaciones LLM. Incluyen clasificadores y filtros basados en reglas para detectar inyección de prompts o jailbreaks, controles de tema, persona y tono, validación de esquema de salida, depuración de PII y secretos, manejo de rechazos, requisitos de citación y restricciones sobre llamadas a herramientas. Las implementaciones van desde frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI o Presidio de Microsoft, hasta APIs de proveedor como OpenAI Moderation o los endpoints de safety de Anthropic, o lógica a medida dentro de frameworks de agentes. Complementan el alineamiento interno del modelo, los firewalls de LLM y las prácticas MLSecOps. Deben ser testables, versionables y validados continuamente con red teaming, ya que los atacantes buscan el hueco entre guardrails y comportamiento del modelo.
● Ejemplos
- 01
Un guardrail que obliga a un chatbot de asesoramiento financiero a incluir un descargo regulatorio en cada respuesta.
- 02
Un validador de esquema que descarta cualquier salida del LLM que no coincida con el JSON esperado para una escritura en BD.
● Preguntas frecuentes
¿Qué es Guardrails de LLM?
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Guardrails de LLM?
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
¿Cómo defenderse de Guardrails de LLM?
Las defensas contra Guardrails de LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Guardrails de LLM?
Nombres alternativos comunes: Guardrails de IA, Guardrails de IA generativa.