Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 024

Alineamiento de IA

¿Qué es Alineamiento de IA?

Alineamiento de IAConjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.


El alineamiento combina investigación en ML, política y seguridad. Sus técnicas incluyen ajuste fino supervisado, aprendizaje por refuerzo con retroalimentación humana (RLHF), con retroalimentación de IA (RLAIF), IA constitucional, debate, supervisión escalable e interpretabilidad. Estudia riesgos de desalineamiento como reward hacking, alineamiento engañoso, sicofantía, juego de especificaciones y comportamientos emergentes de búsqueda de poder en sistemas cada vez más capaces. Es base de la AI safety: un modelo desalineado pero seguro puede causar daño porque persigue el objetivo equivocado. Anthropic, OpenAI, DeepMind y el AI Security Institute del Reino Unido publican investigación, evaluaciones y benchmarks que alimentan políticas, escenarios de red team y marcos de gobernanza.

Ejemplos

  1. 01

    Usar RLHF para entrenar un LLM que siga instrucciones del usuario y rechace peticiones claramente dañinas.

  2. 02

    Evaluar si un modelo cae en sicofantía al estar de acuerdo con creencias erróneas del usuario.

Preguntas frecuentes

¿Qué es Alineamiento de IA?

Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Alineamiento de IA?

Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.

¿Cómo funciona Alineamiento de IA?

El alineamiento combina investigación en ML, política y seguridad. Sus técnicas incluyen ajuste fino supervisado, aprendizaje por refuerzo con retroalimentación humana (RLHF), con retroalimentación de IA (RLAIF), IA constitucional, debate, supervisión escalable e interpretabilidad. Estudia riesgos de desalineamiento como reward hacking, alineamiento engañoso, sicofantía, juego de especificaciones y comportamientos emergentes de búsqueda de poder en sistemas cada vez más capaces. Es base de la AI safety: un modelo desalineado pero seguro puede causar daño porque persigue el objetivo equivocado. Anthropic, OpenAI, DeepMind y el AI Security Institute del Reino Unido publican investigación, evaluaciones y benchmarks que alimentan políticas, escenarios de red team y marcos de gobernanza.

¿Cómo defenderse de Alineamiento de IA?

Las defensas contra Alineamiento de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Alineamiento de IA?

Nombres alternativos comunes: Alineamiento de valores, Alineamiento del modelo.

Términos relacionados