Safety de IA
¿Qué es Safety de IA?
Safety de IADisciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.
La AI safety es más amplia que la seguridad clásica: aborda daños incluso sin adversario, como accidentes, sesgo, engaño, conducta autónoma descontrolada, uso indebido de doble propósito y riesgos catastróficos o existenciales. El trabajo técnico incluye alineamiento, interpretabilidad, evaluación, entrenamiento robusto, monitoreo y elicitación de capacidades. En lo operativo abarca políticas de escalado responsable, model cards, guardrails de despliegue y controles de acceso. Instituciones como los AI Safety Institutes del Reino Unido y EE. UU., la AI Office europea, el NIST (AI RMF) y los grandes laboratorios publican estándares. Aunque distinta, se solapa profundamente con la seguridad de IA: modelos inseguros tienden a ser inseguros, y viceversa.
● Ejemplos
- 01
Un proveedor de LLM aplica una política de escalado responsable que pausa el entrenamiento al superar cierto umbral de capacidades.
- 02
Evaluar la capacidad de auto-réplica y auto-exfiltración de un modelo agéntico antes de su lanzamiento público.
● Preguntas frecuentes
¿Qué es Safety de IA?
Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Safety de IA?
Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.
¿Cómo funciona Safety de IA?
La AI safety es más amplia que la seguridad clásica: aborda daños incluso sin adversario, como accidentes, sesgo, engaño, conducta autónoma descontrolada, uso indebido de doble propósito y riesgos catastróficos o existenciales. El trabajo técnico incluye alineamiento, interpretabilidad, evaluación, entrenamiento robusto, monitoreo y elicitación de capacidades. En lo operativo abarca políticas de escalado responsable, model cards, guardrails de despliegue y controles de acceso. Instituciones como los AI Safety Institutes del Reino Unido y EE. UU., la AI Office europea, el NIST (AI RMF) y los grandes laboratorios publican estándares. Aunque distinta, se solapa profundamente con la seguridad de IA: modelos inseguros tienden a ser inseguros, y viceversa.
¿Cómo defenderse de Safety de IA?
Las defensas contra Safety de IA combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Safety de IA?
Nombres alternativos comunes: Safety de IA de frontera, IA responsable.
● Términos relacionados
- ai-security№ 024
Alineamiento de IA
Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
- ai-security№ 027
Gobernanza de IA
Conjunto de políticas, procesos, roles y controles con los que organizaciones y reguladores garantizan que los sistemas de IA se desarrollan, despliegan y operan de forma responsable y legal.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 029
Respuesta a incidentes de IA
Conjunto de procesos, roles y playbooks que una organización utiliza para detectar, contener, investigar, comunicar y recuperarse de incidentes relacionados con sistemas de IA.
- ai-security№ 028
Alucinación de IA
Modo de fallo en el que un sistema de IA generativa produce contenido fluido y confiado pero factualmente erróneo, inventado o sin respaldo en sus fuentes.