Alinhamento de IA
O que é Alinhamento de IA?
Alinhamento de IAEsforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
O alinhamento combina investigação em ML, política e segurança. Inclui técnicas como fine-tuning supervisionado, RLHF, RLAIF, IA constitucional, debate, supervisão escalável e interpretabilidade. Estuda riscos como reward hacking, alinhamento enganoso, sicofantia, specification gaming e comportamentos emergentes de procura de poder. É um pilar da AI safety: um modelo desalinhado mas seguro pode prejudicar porque persegue o objetivo errado. Anthropic, OpenAI, DeepMind e o AI Security Institute do Reino Unido publicam investigação, avaliações e benchmarks que alimentam políticas, cenários de red team e quadros de governança.
● Exemplos
- 01
Usar RLHF para treinar um LLM a seguir instruções do utilizador, recusando pedidos claramente prejudiciais.
- 02
Avaliar se um modelo apresenta sicofantia ao concordar com crenças erradas do utilizador.
● Perguntas frequentes
O que é Alinhamento de IA?
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Alinhamento de IA?
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
Como funciona Alinhamento de IA?
O alinhamento combina investigação em ML, política e segurança. Inclui técnicas como fine-tuning supervisionado, RLHF, RLAIF, IA constitucional, debate, supervisão escalável e interpretabilidade. Estuda riscos como reward hacking, alinhamento enganoso, sicofantia, specification gaming e comportamentos emergentes de procura de poder. É um pilar da AI safety: um modelo desalinhado mas seguro pode prejudicar porque persegue o objetivo errado. Anthropic, OpenAI, DeepMind e o AI Security Institute do Reino Unido publicam investigação, avaliações e benchmarks que alimentam políticas, cenários de red team e quadros de governança.
Como se defender contra Alinhamento de IA?
As defesas contra Alinhamento de IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Alinhamento de IA?
Nomes alternativos comuns: Alinhamento de valores, Alinhamento de modelo.
● Termos relacionados
- ai-security№ 033
Safety de IA
Disciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
- ai-security№ 030
Jailbreak de IA
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
- ai-security№ 618
Guardrails de LLM
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
- ai-security№ 028
Alucinação de IA
Modo de falha em que um sistema de IA generativa produz conteúdo fluente e confiante mas factualmente errado, inventado ou sem suporte nas suas fontes.