AI 红队
AI 红队 是什么?
AI 红队针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
AI 红队把传统红队扩展到 AI 特有的失效模式:提示注入、越狱、有害内容生成、虚构的权威、模型窃取、通过工具的数据外泄、代理滥用以及新兴的双重用途风险。它结合了对抗 ML、政策、社技与攻防经验。Microsoft、Anthropic、OpenAI、Google DeepMind 以及 NIST(借助 AI Safety Institute 与 AI 600-1 行业画像)都运行或推荐结构化的红队计划,常将人工探测、自动化攻击套件与众包漏洞悬赏相结合。其输出反哺模型对齐、评估框架、守护栏、治理控制和事件响应剧本。欧盟《人工智能法》对高风险与通用型 AI 模型明确要求开展红队评估。
● 示例
- 01
上线前红队对聊天机器人进行越狱、数据泄露与有害输出的探测。
- 02
政府主导的演练评估开放权重模型是否会被诱导生成生物威胁相关说明。
● 常见问题
AI 红队 是什么?
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。 它属于网络安全的 AI 与机器学习安全 分类。
AI 红队 是什么意思?
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
AI 红队 是如何工作的?
AI 红队把传统红队扩展到 AI 特有的失效模式:提示注入、越狱、有害内容生成、虚构的权威、模型窃取、通过工具的数据外泄、代理滥用以及新兴的双重用途风险。它结合了对抗 ML、政策、社技与攻防经验。Microsoft、Anthropic、OpenAI、Google DeepMind 以及 NIST(借助 AI Safety Institute 与 AI 600-1 行业画像)都运行或推荐结构化的红队计划,常将人工探测、自动化攻击套件与众包漏洞悬赏相结合。其输出反哺模型对齐、评估框架、守护栏、治理控制和事件响应剧本。欧盟《人工智能法》对高风险与通用型 AI 模型明确要求开展红队评估。
如何防御 AI 红队?
针对 AI 红队 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 红队 还有哪些其他名称?
常见的别称包括: AI 红队演练, 生成式 AI 红队。
● 相关术语
- ai-security№ 030
AI 越狱
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
- ai-security№ 866
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
- ai-security№ 033
AI 安全(Safety)
致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。