Token 走私
Token 走私 是什么?
Token 走私一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。
Token 走私利用了模型分词与解码方式同其内容分类器分析方式之间的差异。攻击者把违禁词拆成多个 token,使用 Base64、ROT-13、Unicode 同形字、leet 写法、低资源语言,或者让模型从看似无害的片段中拼出恶意字符串(如 "取每个单词的第二个字母")。还包括通过工具输入或混淆函数调用走私载荷的变种。之所以有效,是因为守护栏经常只检查表层文本,而不是模型重建后的意图。缓解措施包括在解码后文本上运行的分类器集成、语义层级的意图检测、对解码过程感知的安全模型、工具调用的运行时沙箱以及持续的对抗式红队评估。
● 示例
- 01
攻击者让 LLM 取十个无害词的首字母,拼出一段被禁止的化学合成术语。
- 02
用 Base64 编码恶意请求,安全过滤器只看到看似随机的字符,而 LLM 会愉快地解码并照办。
● 常见问题
Token 走私 是什么?
一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。 它属于网络安全的 AI 与机器学习安全 分类。
Token 走私 是什么意思?
一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。
Token 走私 是如何工作的?
Token 走私利用了模型分词与解码方式同其内容分类器分析方式之间的差异。攻击者把违禁词拆成多个 token,使用 Base64、ROT-13、Unicode 同形字、leet 写法、低资源语言,或者让模型从看似无害的片段中拼出恶意字符串(如 "取每个单词的第二个字母")。还包括通过工具输入或混淆函数调用走私载荷的变种。之所以有效,是因为守护栏经常只检查表层文本,而不是模型重建后的意图。缓解措施包括在解码后文本上运行的分类器集成、语义层级的意图检测、对解码过程感知的安全模型、工具调用的运行时沙箱以及持续的对抗式红队评估。
如何防御 Token 走私?
针对 Token 走私 的防御通常结合技术控制与运营实践,详见上方完整定义。
Token 走私 还有哪些其他名称?
常见的别称包括: Token 走私越狱, 编码型提示词注入。
● 相关术语
- ai-security№ 030
AI 越狱
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
- ai-security№ 866
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 528
间接提示词注入
提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 618
LLM 守护栏
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。