AI 越狱
AI 越狱 是什么?
AI 越狱诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
AI 越狱利用了模型通用能力与安全微调之间的落差。攻击者使用角色扮演、假设情境、编码后的指令或大量 "many-shot" 示例,劝服模型忽略关于武器、恶意代码、仇恨言论或系统提示泄露的限制。著名案例包括针对 GPT-3.5 与 ChatGPT 的 "DAN"(Do Anything Now)提示,以及 Anthropic 在 2024 年发布的 many-shot 越狱研究。与提示词注入不同,越狱的攻击者通常就是用户本人。常见缓解措施包括对抗性训练、宪法式方法、输出分类器、拒答评估,以及持续的红队演练。
● 示例
- 01
"DAN" 提示要求 ChatGPT 扮演一个没有限制的另一个自我。
- 02
many-shot 越狱通过在上下文中堆砌大量看似已遵从的有害示例。
● 常见问题
AI 越狱 是什么?
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。 它属于网络安全的 AI 与机器学习安全 分类。
AI 越狱 是什么意思?
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
AI 越狱 是如何工作的?
AI 越狱利用了模型通用能力与安全微调之间的落差。攻击者使用角色扮演、假设情境、编码后的指令或大量 "many-shot" 示例,劝服模型忽略关于武器、恶意代码、仇恨言论或系统提示泄露的限制。著名案例包括针对 GPT-3.5 与 ChatGPT 的 "DAN"(Do Anything Now)提示,以及 Anthropic 在 2024 年发布的 many-shot 越狱研究。与提示词注入不同,越狱的攻击者通常就是用户本人。常见缓解措施包括对抗性训练、宪法式方法、输出分类器、拒答评估,以及持续的红队演练。
如何防御 AI 越狱?
针对 AI 越狱 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 越狱 还有哪些其他名称?
常见的别称包括: LLM 越狱, 安全绕过。
● 相关术语
- ai-security№ 866
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 024
AI 对齐
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 618
LLM 守护栏
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
- ai-security№ 1163
Token 走私
一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。
● 参见
- № 528间接提示词注入
- № 037AI 生成的恶意软件
- № 619LLM 系统提示词泄露