Guardrails de LLM

Revisado porFlorian AmetteCybersecurity entrepreneur & security researcher

¿Qué es Guardrails de LLM?

Guardrails de LLMMecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.

Los guardrails son la capa de políticas de las aplicaciones LLM. Incluyen clasificadores y filtros basados en reglas para detectar inyección de prompts o jailbreaks, controles de tema, persona y tono, validación de esquema de salida, depuración de PII y secretos, manejo de rechazos, requisitos de citación y restricciones sobre llamadas a herramientas. Las implementaciones van desde frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI o Presidio de Microsoft, hasta APIs de proveedor como OpenAI Moderation o los endpoints de safety de Anthropic, o lógica a medida dentro de frameworks de agentes. Complementan el alineamiento interno del modelo, los firewalls de LLM y las prácticas MLSecOps. Deben ser testables, versionables y validados continuamente con red teaming, ya que los atacantes buscan el hueco entre guardrails y comportamiento del modelo.

● Ejemplos

01
Un guardrail que obliga a un chatbot de asesoramiento financiero a incluir un descargo regulatorio en cada respuesta.
02
Un validador de esquema que descarta cualquier salida del LLM que no coincida con el JSON esperado para una escritura en BD.

● Preguntas frecuentes

¿Qué es Guardrails de LLM?

Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Guardrails de LLM?

Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.

¿Cómo defenderse de Guardrails de LLM?

Las defensas contra Guardrails de LLM combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Guardrails de LLM?

Nombres alternativos comunes: Guardrails de IA, Guardrails de IA generativa.

Guardrails de LLM

¿Qué es Guardrails de LLM?

● Ejemplos

● Preguntas frecuentes

● Términos relacionados

● Véase también