Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 033

Safety de IA

¿Qué es Safety de IA?

Safety de IADisciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.


La AI safety es más amplia que la seguridad clásica: aborda daños incluso sin adversario, como accidentes, sesgo, engaño, conducta autónoma descontrolada, uso indebido de doble propósito y riesgos catastróficos o existenciales. El trabajo técnico incluye alineamiento, interpretabilidad, evaluación, entrenamiento robusto, monitoreo y elicitación de capacidades. En lo operativo abarca políticas de escalado responsable, model cards, guardrails de despliegue y controles de acceso. Instituciones como los AI Safety Institutes del Reino Unido y EE. UU., la AI Office europea, el NIST (AI RMF) y los grandes laboratorios publican estándares. Aunque distinta, se solapa profundamente con la seguridad de IA: modelos inseguros tienden a ser inseguros, y viceversa.

Ejemplos

  1. 01

    Un proveedor de LLM aplica una política de escalado responsable que pausa el entrenamiento al superar cierto umbral de capacidades.

  2. 02

    Evaluar la capacidad de auto-réplica y auto-exfiltración de un modelo agéntico antes de su lanzamiento público.

Preguntas frecuentes

¿Qué es Safety de IA?

Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.

¿Qué significa Safety de IA?

Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.

¿Cómo funciona Safety de IA?

La AI safety es más amplia que la seguridad clásica: aborda daños incluso sin adversario, como accidentes, sesgo, engaño, conducta autónoma descontrolada, uso indebido de doble propósito y riesgos catastróficos o existenciales. El trabajo técnico incluye alineamiento, interpretabilidad, evaluación, entrenamiento robusto, monitoreo y elicitación de capacidades. En lo operativo abarca políticas de escalado responsable, model cards, guardrails de despliegue y controles de acceso. Instituciones como los AI Safety Institutes del Reino Unido y EE. UU., la AI Office europea, el NIST (AI RMF) y los grandes laboratorios publican estándares. Aunque distinta, se solapa profundamente con la seguridad de IA: modelos inseguros tienden a ser inseguros, y viceversa.

¿Cómo defenderse de Safety de IA?

Las defensas contra Safety de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.

¿Cuáles son otros nombres para Safety de IA?

Nombres alternativos comunes: Safety de IA de frontera, IA responsable.

Términos relacionados

Véase también