AI 安全(Safety)
AI 安全(Safety) 是什么?
AI 安全(Safety)致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
AI Safety 的范围比传统安全更广,即使没有攻击者也要防范事故、偏见、欺骗、失控的自主行为、双重用途滥用,以及灾难性与生存性风险。技术层面的工作涵盖对齐、可解释性、评估、稳健训练、监控与能力激发;运营层面包括责任扩展政策、模型卡、部署守护栏与访问控制。英国与美国 AI Safety Institute、欧盟 AI Office、NIST AI RMF 以及前沿实验室均在发布相关标准。Safety 与 AI 安全(Security)有别但高度重叠:不安全的模型常常不 safe,反之亦然。
● 示例
- 01
某 LLM 提供商实施责任扩展政策,在能力突破特定阈值时暂停训练。
- 02
在公开发布前评估某个代理型模型的自我复制与自我外泄能力。
● 常见问题
AI 安全(Safety) 是什么?
致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。 它属于网络安全的 AI 与机器学习安全 分类。
AI 安全(Safety) 是什么意思?
致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
AI 安全(Safety) 是如何工作的?
AI Safety 的范围比传统安全更广,即使没有攻击者也要防范事故、偏见、欺骗、失控的自主行为、双重用途滥用,以及灾难性与生存性风险。技术层面的工作涵盖对齐、可解释性、评估、稳健训练、监控与能力激发;运营层面包括责任扩展政策、模型卡、部署守护栏与访问控制。英国与美国 AI Safety Institute、欧盟 AI Office、NIST AI RMF 以及前沿实验室均在发布相关标准。Safety 与 AI 安全(Security)有别但高度重叠:不安全的模型常常不 safe,反之亦然。
如何防御 AI 安全(Safety)?
针对 AI 安全(Safety) 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 安全(Safety) 还有哪些其他名称?
常见的别称包括: 前沿 AI 安全, 负责任 AI。
● 相关术语
- ai-security№ 024
AI 对齐
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 029
AI 事件响应
组织用于检测、遏制、调查、通报与恢复涉及 AI 系统的事件的一整套流程、角色与剧本。
- ai-security№ 028
AI 幻觉
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。