Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 030

AI 越狱

AI 越狱 是什么?

AI 越狱诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。


AI 越狱利用了模型通用能力与安全微调之间的落差。攻击者使用角色扮演、假设情境、编码后的指令或大量 "many-shot" 示例,劝服模型忽略关于武器、恶意代码、仇恨言论或系统提示泄露的限制。著名案例包括针对 GPT-3.5 与 ChatGPT 的 "DAN"(Do Anything Now)提示,以及 Anthropic 在 2024 年发布的 many-shot 越狱研究。与提示词注入不同,越狱的攻击者通常就是用户本人。常见缓解措施包括对抗性训练、宪法式方法、输出分类器、拒答评估,以及持续的红队演练。

示例

  1. 01

    "DAN" 提示要求 ChatGPT 扮演一个没有限制的另一个自我。

  2. 02

    many-shot 越狱通过在上下文中堆砌大量看似已遵从的有害示例。

常见问题

AI 越狱 是什么?

诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。 它属于网络安全的 AI 与机器学习安全 分类。

AI 越狱 是什么意思?

诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。

AI 越狱 是如何工作的?

AI 越狱利用了模型通用能力与安全微调之间的落差。攻击者使用角色扮演、假设情境、编码后的指令或大量 "many-shot" 示例,劝服模型忽略关于武器、恶意代码、仇恨言论或系统提示泄露的限制。著名案例包括针对 GPT-3.5 与 ChatGPT 的 "DAN"(Do Anything Now)提示,以及 Anthropic 在 2024 年发布的 many-shot 越狱研究。与提示词注入不同,越狱的攻击者通常就是用户本人。常见缓解措施包括对抗性训练、宪法式方法、输出分类器、拒答评估,以及持续的红队演练。

如何防御 AI 越狱?

针对 AI 越狱 的防御通常结合技术控制与运营实践,详见上方完整定义。

AI 越狱 还有哪些其他名称?

常见的别称包括: LLM 越狱, 安全绕过。

相关术语

参见