Alineamiento de IA
¿Qué es Alineamiento de IA?
Alineamiento de IAConjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
El alineamiento combina investigación en ML, política y seguridad. Sus técnicas incluyen ajuste fino supervisado, aprendizaje por refuerzo con retroalimentación humana (RLHF), con retroalimentación de IA (RLAIF), IA constitucional, debate, supervisión escalable e interpretabilidad. Estudia riesgos de desalineamiento como reward hacking, alineamiento engañoso, sicofantía, juego de especificaciones y comportamientos emergentes de búsqueda de poder en sistemas cada vez más capaces. Es base de la AI safety: un modelo desalineado pero seguro puede causar daño porque persigue el objetivo equivocado. Anthropic, OpenAI, DeepMind y el AI Security Institute del Reino Unido publican investigación, evaluaciones y benchmarks que alimentan políticas, escenarios de red team y marcos de gobernanza.
● Ejemplos
- 01
Usar RLHF para entrenar un LLM que siga instrucciones del usuario y rechace peticiones claramente dañinas.
- 02
Evaluar si un modelo cae en sicofantía al estar de acuerdo con creencias erróneas del usuario.
● Preguntas frecuentes
¿Qué es Alineamiento de IA?
Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Alineamiento de IA?
Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
¿Cómo defenderse de Alineamiento de IA?
Las defensas contra Alineamiento de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Alineamiento de IA?
Nombres alternativos comunes: Alineamiento de valores, Alineamiento del modelo.