Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 039

AI 安全(Safety)

审核人Cybersecurity entrepreneur & security researcher

AI 安全(Safety) 是什么?

AI 安全(Safety)致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。


AI Safety 的范围比传统安全更广,即使没有攻击者也要防范事故、偏见、欺骗、失控的自主行为、双重用途滥用,以及灾难性与生存性风险。技术层面的工作涵盖对齐、可解释性、评估、稳健训练、监控与能力激发;运营层面包括责任扩展政策、模型卡、部署守护栏与访问控制。英国与美国 AI Safety Institute、欧盟 AI Office、NIST AI RMF 以及前沿实验室均在发布相关标准。Safety 与 AI 安全(Security)有别但高度重叠:不安全的模型常常不 safe,反之亦然。

示例

  1. 01

    某 LLM 提供商实施责任扩展政策,在能力突破特定阈值时暂停训练。

  2. 02

    在公开发布前评估某个代理型模型的自我复制与自我外泄能力。

常见问题

AI 安全(Safety) 是什么?

致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。 它属于网络安全的 AI 与机器学习安全 分类。

AI 安全(Safety) 是什么意思?

致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。

如何防御 AI 安全(Safety)?

针对 AI 安全(Safety) 的防御通常结合技术控制与运营实践,详见上方完整定义。

AI 安全(Safety) 还有哪些其他名称?

常见的别称包括: 前沿 AI 安全, 负责任 AI。

相关术语

另见