Guardrails de LLM
O que é Guardrails de LLM?
Guardrails de LLMMecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
Os guardrails são a camada de políticas das aplicações LLM. Incluem classificadores e filtros baseados em regras para detetar injeção de prompt ou jailbreaks, controlos de tema, persona e tom, validação de esquema de saída, remoção de PII e segredos, gestão de recusas, exigências de citação e restrições às chamadas a ferramentas. As implementações vão de frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI ou Presidio da Microsoft, a APIs de fornecedores como OpenAI Moderation ou os endpoints de safety da Anthropic, até lógica à medida em frameworks de agentes. Complementam o alinhamento interno do modelo, os firewalls de LLM e as práticas de MLSecOps. Devem ser testáveis, versionadas e continuamente validadas por red teaming, já que os atacantes procuram a folga entre o guardrail e o comportamento do modelo.
● Exemplos
- 01
Um guardrail força um chatbot de aconselhamento financeiro a incluir um aviso regulatório em cada resposta.
- 02
Um validador de esquema rejeita qualquer saída do LLM que não corresponda ao JSON esperado para uma escrita em base de dados.
● Perguntas frequentes
O que é Guardrails de LLM?
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Guardrails de LLM?
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
Como funciona Guardrails de LLM?
Os guardrails são a camada de políticas das aplicações LLM. Incluem classificadores e filtros baseados em regras para detetar injeção de prompt ou jailbreaks, controlos de tema, persona e tom, validação de esquema de saída, remoção de PII e segredos, gestão de recusas, exigências de citação e restrições às chamadas a ferramentas. As implementações vão de frameworks open-source como NVIDIA NeMo Guardrails, Guardrails AI ou Presidio da Microsoft, a APIs de fornecedores como OpenAI Moderation ou os endpoints de safety da Anthropic, até lógica à medida em frameworks de agentes. Complementam o alinhamento interno do modelo, os firewalls de LLM e as práticas de MLSecOps. Devem ser testáveis, versionadas e continuamente validadas por red teaming, já que os atacantes procuram a folga entre o guardrail e o comportamento do modelo.
Como se defender contra Guardrails de LLM?
As defesas contra Guardrails de LLM costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Guardrails de LLM?
Nomes alternativos comuns: Guardrails de IA, Guardrails de IA generativa.
● Termos relacionados
- ai-security№ 617
Firewall de LLM
Controlo de segurança que se coloca entre os utilizadores e um grande modelo de linguagem para inspecionar prompts, contexto recuperado e saídas em tempo real, bloqueando ou reescrevendo tráfego que viole a política.
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 024
Alinhamento de IA
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
- ai-security№ 898
Segurança RAG
Disciplina dedicada a proteger pipelines de retrieval-augmented generation para que os documentos, vector stores e passos de retrieval que alimentam um LLM não possam ser envenenados, abusados ou usados para exfiltrar dados.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
● Veja também
- № 528Injeção indireta de prompt
- № 030Jailbreak de IA
- № 028Alucinação de IA
- № 1163Token smuggling