Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 024

Alinhamento de IA

O que é Alinhamento de IA?

Alinhamento de IAEsforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.


O alinhamento combina investigação em ML, política e segurança. Inclui técnicas como fine-tuning supervisionado, RLHF, RLAIF, IA constitucional, debate, supervisão escalável e interpretabilidade. Estuda riscos como reward hacking, alinhamento enganoso, sicofantia, specification gaming e comportamentos emergentes de procura de poder. É um pilar da AI safety: um modelo desalinhado mas seguro pode prejudicar porque persegue o objetivo errado. Anthropic, OpenAI, DeepMind e o AI Security Institute do Reino Unido publicam investigação, avaliações e benchmarks que alimentam políticas, cenários de red team e quadros de governança.

Exemplos

  1. 01

    Usar RLHF para treinar um LLM a seguir instruções do utilizador, recusando pedidos claramente prejudiciais.

  2. 02

    Avaliar se um modelo apresenta sicofantia ao concordar com crenças erradas do utilizador.

Perguntas frequentes

O que é Alinhamento de IA?

Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Alinhamento de IA?

Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.

Como funciona Alinhamento de IA?

O alinhamento combina investigação em ML, política e segurança. Inclui técnicas como fine-tuning supervisionado, RLHF, RLAIF, IA constitucional, debate, supervisão escalável e interpretabilidade. Estuda riscos como reward hacking, alinhamento enganoso, sicofantia, specification gaming e comportamentos emergentes de procura de poder. É um pilar da AI safety: um modelo desalinhado mas seguro pode prejudicar porque persegue o objetivo errado. Anthropic, OpenAI, DeepMind e o AI Security Institute do Reino Unido publicam investigação, avaliações e benchmarks que alimentam políticas, cenários de red team e quadros de governança.

Como se defender contra Alinhamento de IA?

As defesas contra Alinhamento de IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Alinhamento de IA?

Nomes alternativos comuns: Alinhamento de valores, Alinhamento de modelo.

Termos relacionados