机器学习逃逸攻击
机器学习逃逸攻击 是什么?
机器学习逃逸攻击在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。
逃逸攻击发生在模型完成训练并部署之后:攻击者不触碰训练管线,而是操控查询来躲过检测。多数攻击基于对抗样本,但这一类还包括多态恶意软件、针对文本审核的字符混淆、针对说话人识别的语音克隆,以及针对感知哈希的图像变换等更简单的手段。NIST AI 100-2 将逃逸列为对抗 ML 的四大威胁之一,另外三类是投毒、隐私和滥用。防御措施包括对抗训练、稳健的特征工程、集成或多模态检测、运行时输入清理、对置信度漂移的遥测,以及对模型 API 的严格访问控制,以遏制基于查询的侦察。
● 示例
- 01
经过混淆的恶意软件被静态 ML 分类器判定为良性,却仍能执行其载荷。
- 02
夹杂同形异义字的文本能绕过毒性分类器,而人类阅读起来与原文无异。
● 常见问题
机器学习逃逸攻击 是什么?
在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。 它属于网络安全的 AI 与机器学习安全 分类。
机器学习逃逸攻击 是什么意思?
在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。
机器学习逃逸攻击 是如何工作的?
逃逸攻击发生在模型完成训练并部署之后:攻击者不触碰训练管线,而是操控查询来躲过检测。多数攻击基于对抗样本,但这一类还包括多态恶意软件、针对文本审核的字符混淆、针对说话人识别的语音克隆,以及针对感知哈希的图像变换等更简单的手段。NIST AI 100-2 将逃逸列为对抗 ML 的四大威胁之一,另外三类是投毒、隐私和滥用。防御措施包括对抗训练、稳健的特征工程、集成或多模态检测、运行时输入清理、对置信度漂移的遥测,以及对模型 API 的严格访问控制,以遏制基于查询的侦察。
如何防御 机器学习逃逸攻击?
针对 机器学习逃逸攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。
机器学习逃逸攻击 还有哪些其他名称?
常见的别称包括: 推理期攻击, 模型逃逸。
● 相关术语
- ai-security№ 018
对抗样本
经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。
- ai-security№ 081
机器学习后门攻击
训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
- ai-security№ 281
数据投毒
针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。