Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 439

机器学习逃逸攻击

审核人Cybersecurity entrepreneur & security researcher

机器学习逃逸攻击 是什么?

机器学习逃逸攻击在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。


逃逸攻击发生在模型完成训练并部署之后:攻击者不触碰训练管线,而是操控查询来躲过检测。多数攻击基于对抗样本,但这一类还包括多态恶意软件、针对文本审核的字符混淆、针对说话人识别的语音克隆,以及针对感知哈希的图像变换等更简单的手段。NIST AI 100-2 将逃逸列为对抗 ML 的四大威胁之一,另外三类是投毒、隐私和滥用。防御措施包括对抗训练、稳健的特征工程、集成或多模态检测、运行时输入清理、对置信度漂移的遥测,以及对模型 API 的严格访问控制,以遏制基于查询的侦察。

示例

  1. 01

    经过混淆的恶意软件被静态 ML 分类器判定为良性,却仍能执行其载荷。

  2. 02

    夹杂同形异义字的文本能绕过毒性分类器,而人类阅读起来与原文无异。

常见问题

机器学习逃逸攻击 是什么?

在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。 它属于网络安全的 AI 与机器学习安全 分类。

机器学习逃逸攻击 是什么意思?

在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。

如何防御 机器学习逃逸攻击?

针对 机器学习逃逸攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。

机器学习逃逸攻击 还有哪些其他名称?

常见的别称包括: 推理期攻击, 模型逃逸。

相关术语