Safety de IA
¿Qué es Safety de IA?
Safety de IADisciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.
La AI safety es más amplia que la seguridad clásica: aborda daños incluso sin adversario, como accidentes, sesgo, engaño, conducta autónoma descontrolada, uso indebido de doble propósito y riesgos catastróficos o existenciales. El trabajo técnico incluye alineamiento, interpretabilidad, evaluación, entrenamiento robusto, monitoreo y elicitación de capacidades. En lo operativo abarca políticas de escalado responsable, model cards, guardrails de despliegue y controles de acceso. Instituciones como los AI Safety Institutes del Reino Unido y EE. UU., la AI Office europea, el NIST (AI RMF) y los grandes laboratorios publican estándares. Aunque distinta, se solapa profundamente con la seguridad de IA: modelos inseguros tienden a ser inseguros, y viceversa.
● Ejemplos
- 01
Un proveedor de LLM aplica una política de escalado responsable que pausa el entrenamiento al superar cierto umbral de capacidades.
- 02
Evaluar la capacidad de auto-réplica y auto-exfiltración de un modelo agéntico antes de su lanzamiento público.
● Preguntas frecuentes
¿Qué es Safety de IA?
Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Safety de IA?
Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.
¿Cómo defenderse de Safety de IA?
Las defensas contra Safety de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Safety de IA?
Nombres alternativos comunes: Safety de IA de frontera, IA responsable.