Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 618

Guardrails de LLM

O que é Guardrails de LLM?

Guardrails de LLMMecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.


Os guardrails são a camada de políticas das aplicações LLM. Incluem classificadores e filtros baseados em regras para detetar injeção de prompt ou jailbreaks, controlos de tema, persona e tom, validação de esquema de saída, remoção de PII e segredos, gestão de recusas, exigências de citação e restrições às chamadas a ferramentas. As implementações vão de frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI ou Presidio da Microsoft, a APIs de fornecedores como OpenAI Moderation ou os endpoints de safety da Anthropic, até lógica à medida em frameworks de agentes. Complementam o alinhamento interno do modelo, os firewalls de LLM e as práticas de MLSecOps. Devem ser testáveis, versionadas e continuamente validadas por red teaming, já que os atacantes procuram a folga entre o guardrail e o comportamento do modelo.

Exemplos

  1. 01

    Um guardrail força um chatbot de aconselhamento financeiro a incluir um aviso regulatório em cada resposta.

  2. 02

    Um validador de esquema rejeita qualquer saída do LLM que não corresponda ao JSON esperado para uma escrita em base de dados.

Perguntas frequentes

O que é Guardrails de LLM?

Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Guardrails de LLM?

Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.

Como funciona Guardrails de LLM?

Os guardrails são a camada de políticas das aplicações LLM. Incluem classificadores e filtros baseados em regras para detetar injeção de prompt ou jailbreaks, controlos de tema, persona e tom, validação de esquema de saída, remoção de PII e segredos, gestão de recusas, exigências de citação e restrições às chamadas a ferramentas. As implementações vão de frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI ou Presidio da Microsoft, a APIs de fornecedores como OpenAI Moderation ou os endpoints de safety da Anthropic, até lógica à medida em frameworks de agentes. Complementam o alinhamento interno do modelo, os firewalls de LLM e as práticas de MLSecOps. Devem ser testáveis, versionadas e continuamente validadas por red teaming, já que os atacantes procuram a folga entre o guardrail e o comportamento do modelo.

Como se defender contra Guardrails de LLM?

As defesas contra Guardrails de LLM costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Guardrails de LLM?

Nomes alternativos comuns: Guardrails de IA, Guardrails de IA generativa.

Termos relacionados

Veja também