Guardrails de LLM
O que é Guardrails de LLM?
Guardrails de LLMMecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
Os guardrails são a camada de políticas das aplicações LLM. Incluem classificadores e filtros baseados em regras para detetar injeção de prompt ou jailbreaks, controlos de tema, persona e tom, validação de esquema de saída, remoção de PII e segredos, gestão de recusas, exigências de citação e restrições às chamadas a ferramentas. As implementações vão de frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI ou Presidio da Microsoft, a APIs de fornecedores como OpenAI Moderation ou os endpoints de safety da Anthropic, até lógica à medida em frameworks de agentes. Complementam o alinhamento interno do modelo, os firewalls de LLM e as práticas de MLSecOps. Devem ser testáveis, versionadas e continuamente validadas por red teaming, já que os atacantes procuram a folga entre o guardrail e o comportamento do modelo.
● Exemplos
- 01
Um guardrail força um chatbot de aconselhamento financeiro a incluir um aviso regulatório em cada resposta.
- 02
Um validador de esquema rejeita qualquer saída do LLM que não corresponda ao JSON esperado para uma escrita em base de dados.
● Perguntas frequentes
O que é Guardrails de LLM?
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Guardrails de LLM?
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
Como se defender contra Guardrails de LLM?
As defesas contra Guardrails de LLM costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Guardrails de LLM?
Nomes alternativos comuns: Guardrails de IA, Guardrails de IA generativa.