机器学习后门攻击
机器学习后门攻击 是什么?
机器学习后门攻击训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。
后门(木马)攻击因 Gu 等人 2017 年的 BadNets 论文而广为人知。攻击者向训练数据、微调数据或模型权重本身注入示例,把触发图案——贴纸、特定 token、水印甚至打字风格——与目标标签或行为绑定。部署后,模型在基准测试上保持良好准确率因而通过验证,但一旦触发器出现就会异常。对从公开模型仓库分发的预训练模型以及联邦学习而言尤为危险。常见防御措施包括训练数据来源追踪、Neural Cleanse 与 fine-pruning 等技术、激活聚类分析、对抗训练,以及只加载来自可信、已签名来源的模型权重。
● 示例
- 01
图像分类器无论照片内容如何,只要含有一个小黄方块就将其标为 "飞机"。
- 02
经过有毒微调的 LLM 在遇到罕见的控制短语时输出特定的恶意载荷。
● 常见问题
机器学习后门攻击 是什么?
训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。 它属于网络安全的 AI 与机器学习安全 分类。
机器学习后门攻击 是什么意思?
训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。
机器学习后门攻击 是如何工作的?
后门(木马)攻击因 Gu 等人 2017 年的 BadNets 论文而广为人知。攻击者向训练数据、微调数据或模型权重本身注入示例,把触发图案——贴纸、特定 token、水印甚至打字风格——与目标标签或行为绑定。部署后,模型在基准测试上保持良好准确率因而通过验证,但一旦触发器出现就会异常。对从公开模型仓库分发的预训练模型以及联邦学习而言尤为危险。常见防御措施包括训练数据来源追踪、Neural Cleanse 与 fine-pruning 等技术、激活聚类分析、对抗训练,以及只加载来自可信、已签名来源的模型权重。
如何防御 机器学习后门攻击?
针对 机器学习后门攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。
机器学习后门攻击 还有哪些其他名称?
常见的别称包括: 木马攻击, BadNets 攻击。
● 相关术语
- ai-security№ 281
数据投毒
针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
- ai-security№ 034
AI 供应链风险
组织在构建和部署 AI 系统时所组合的第三方数据集、基础模型、依赖库、插件与基础设施带来的威胁集合。
- ai-security№ 018
对抗样本
经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
- ai-security№ 025
AI 物料清单(AIBOM)
对构成 AI 系统的每一项组件——数据集、基础模型、微调数据、依赖库、提示与评估制品——的机读清单,用于安全、合规与问责。
- ai-security№ 393
机器学习逃逸攻击
在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。