Guardrails de LLM

Revisado porFlorian AmetteCybersecurity entrepreneur & security researcher

O que é Guardrails de LLM?

Guardrails de LLMMecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.

Os guardrails são a camada de políticas das aplicações LLM. Incluem classificadores e filtros baseados em regras para detetar injeção de prompt ou jailbreaks, controlos de tema, persona e tom, validação de esquema de saída, remoção de PII e segredos, gestão de recusas, exigências de citação e restrições às chamadas a ferramentas. As implementações vão de frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI ou Presidio da Microsoft, a APIs de fornecedores como OpenAI Moderation ou os endpoints de safety da Anthropic, até lógica à medida em frameworks de agentes. Complementam o alinhamento interno do modelo, os firewalls de LLM e as práticas de MLSecOps. Devem ser testáveis, versionadas e continuamente validadas por red teaming, já que os atacantes procuram a folga entre o guardrail e o comportamento do modelo.

● Exemplos

01
Um guardrail força um chatbot de aconselhamento financeiro a incluir um aviso regulatório em cada resposta.
02
Um validador de esquema rejeita qualquer saída do LLM que não corresponda ao JSON esperado para uma escrita em base de dados.

● Perguntas frequentes

O que é Guardrails de LLM?

Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Guardrails de LLM?

Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.

Como se defender contra Guardrails de LLM?

As defesas contra Guardrails de LLM costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Guardrails de LLM?

Nomes alternativos comuns: Guardrails de IA, Guardrails de IA generativa.

Guardrails de LLM

O que é Guardrails de LLM?

● Exemplos

● Perguntas frequentes

● Termos relacionados

● Ver também