Alinhamento de IA
O que é Alinhamento de IA?
Alinhamento de IAEsforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
O alinhamento combina investigação em ML, política e segurança. Inclui técnicas como fine-tuning supervisionado, RLHF, RLAIF, IA constitucional, debate, supervisão escalável e interpretabilidade. Estuda riscos como reward hacking, alinhamento enganoso, sicofantia, specification gaming e comportamentos emergentes de procura de poder. É um pilar da AI safety: um modelo desalinhado mas seguro pode prejudicar porque persegue o objetivo errado. Anthropic, OpenAI, DeepMind e o AI Security Institute do Reino Unido publicam investigação, avaliações e benchmarks que alimentam políticas, cenários de red team e quadros de governança.
● Exemplos
- 01
Usar RLHF para treinar um LLM a seguir instruções do utilizador, recusando pedidos claramente prejudiciais.
- 02
Avaliar se um modelo apresenta sicofantia ao concordar com crenças erradas do utilizador.
● Perguntas frequentes
O que é Alinhamento de IA?
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Alinhamento de IA?
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
Como se defender contra Alinhamento de IA?
As defesas contra Alinhamento de IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Alinhamento de IA?
Nomes alternativos comuns: Alinhamento de valores, Alinhamento de modelo.