Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 032

AI 红队

AI 红队 是什么?

AI 红队针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。


AI 红队把传统红队扩展到 AI 特有的失效模式:提示注入、越狱、有害内容生成、虚构的权威、模型窃取、通过工具的数据外泄、代理滥用以及新兴的双重用途风险。它结合了对抗 ML、政策、社技与攻防经验。Microsoft、Anthropic、OpenAI、Google DeepMind 以及 NIST(借助 AI Safety Institute 与 AI 600-1 行业画像)都运行或推荐结构化的红队计划,常将人工探测、自动化攻击套件与众包漏洞悬赏相结合。其输出反哺模型对齐、评估框架、守护栏、治理控制和事件响应剧本。欧盟《人工智能法》对高风险与通用型 AI 模型明确要求开展红队评估。

示例

  1. 01

    上线前红队对聊天机器人进行越狱、数据泄露与有害输出的探测。

  2. 02

    政府主导的演练评估开放权重模型是否会被诱导生成生物威胁相关说明。

常见问题

AI 红队 是什么?

针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。 它属于网络安全的 AI 与机器学习安全 分类。

AI 红队 是什么意思?

针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。

AI 红队 是如何工作的?

AI 红队把传统红队扩展到 AI 特有的失效模式:提示注入、越狱、有害内容生成、虚构的权威、模型窃取、通过工具的数据外泄、代理滥用以及新兴的双重用途风险。它结合了对抗 ML、政策、社技与攻防经验。Microsoft、Anthropic、OpenAI、Google DeepMind 以及 NIST(借助 AI Safety Institute 与 AI 600-1 行业画像)都运行或推荐结构化的红队计划,常将人工探测、自动化攻击套件与众包漏洞悬赏相结合。其输出反哺模型对齐、评估框架、守护栏、治理控制和事件响应剧本。欧盟《人工智能法》对高风险与通用型 AI 模型明确要求开展红队评估。

如何防御 AI 红队?

针对 AI 红队 的防御通常结合技术控制与运营实践,详见上方完整定义。

AI 红队 还有哪些其他名称?

常见的别称包括: AI 红队演练, 生成式 AI 红队。

相关术语

参见