Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

Token 走私

Token 走私 是什么?

Token 走私一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。


Token 走私利用了模型分词与解码方式同其内容分类器分析方式之间的差异。攻击者把违禁词拆成多个 token,使用 Base64、ROT-13、Unicode 同形字、leet 写法、低资源语言,或者让模型从看似无害的片段中拼出恶意字符串(如 "取每个单词的第二个字母")。还包括通过工具输入或混淆函数调用走私载荷的变种。之所以有效,是因为守护栏经常只检查表层文本,而不是模型重建后的意图。缓解措施包括在解码后文本上运行的分类器集成、语义层级的意图检测、对解码过程感知的安全模型、工具调用的运行时沙箱以及持续的对抗式红队评估。

示例

  1. 01

    攻击者让 LLM 取十个无害词的首字母,拼出一段被禁止的化学合成术语。

  2. 02

    用 Base64 编码恶意请求,安全过滤器只看到看似随机的字符,而 LLM 会愉快地解码并照办。

常见问题

Token 走私 是什么?

一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。 它属于网络安全的 AI 与机器学习安全 分类。

Token 走私 是什么意思?

一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。

Token 走私 是如何工作的?

Token 走私利用了模型分词与解码方式同其内容分类器分析方式之间的差异。攻击者把违禁词拆成多个 token,使用 Base64、ROT-13、Unicode 同形字、leet 写法、低资源语言,或者让模型从看似无害的片段中拼出恶意字符串(如 "取每个单词的第二个字母")。还包括通过工具输入或混淆函数调用走私载荷的变种。之所以有效,是因为守护栏经常只检查表层文本,而不是模型重建后的意图。缓解措施包括在解码后文本上运行的分类器集成、语义层级的意图检测、对解码过程感知的安全模型、工具调用的运行时沙箱以及持续的对抗式红队评估。

如何防御 Token 走私?

针对 Token 走私 的防御通常结合技术控制与运营实践,详见上方完整定义。

Token 走私 还有哪些其他名称?

常见的别称包括: Token 走私越狱, 编码型提示词注入。

相关术语