Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 033

AI 安全(Safety)

AI 安全(Safety) 是什么?

AI 安全(Safety)致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。


AI Safety 的范围比传统安全更广,即使没有攻击者也要防范事故、偏见、欺骗、失控的自主行为、双重用途滥用,以及灾难性与生存性风险。技术层面的工作涵盖对齐、可解释性、评估、稳健训练、监控与能力激发;运营层面包括责任扩展政策、模型卡、部署守护栏与访问控制。英国与美国 AI Safety Institute、欧盟 AI Office、NIST AI RMF 以及前沿实验室均在发布相关标准。Safety 与 AI 安全(Security)有别但高度重叠:不安全的模型常常不 safe,反之亦然。

示例

  1. 01

    某 LLM 提供商实施责任扩展政策,在能力突破特定阈值时暂停训练。

  2. 02

    在公开发布前评估某个代理型模型的自我复制与自我外泄能力。

常见问题

AI 安全(Safety) 是什么?

致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。 它属于网络安全的 AI 与机器学习安全 分类。

AI 安全(Safety) 是什么意思?

致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。

AI 安全(Safety) 是如何工作的?

AI Safety 的范围比传统安全更广,即使没有攻击者也要防范事故、偏见、欺骗、失控的自主行为、双重用途滥用,以及灾难性与生存性风险。技术层面的工作涵盖对齐、可解释性、评估、稳健训练、监控与能力激发;运营层面包括责任扩展政策、模型卡、部署守护栏与访问控制。英国与美国 AI Safety Institute、欧盟 AI Office、NIST AI RMF 以及前沿实验室均在发布相关标准。Safety 与 AI 安全(Security)有别但高度重叠:不安全的模型常常不 safe,反之亦然。

如何防御 AI 安全(Safety)?

针对 AI 安全(Safety) 的防御通常结合技术控制与运营实践,详见上方完整定义。

AI 安全(Safety) 还有哪些其他名称?

常见的别称包括: 前沿 AI 安全, 负责任 AI。

相关术语

参见