Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 081

机器学习后门攻击

机器学习后门攻击 是什么?

机器学习后门攻击训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。


后门(木马)攻击因 Gu 等人 2017 年的 BadNets 论文而广为人知。攻击者向训练数据、微调数据或模型权重本身注入示例,把触发图案——贴纸、特定 token、水印甚至打字风格——与目标标签或行为绑定。部署后,模型在基准测试上保持良好准确率因而通过验证,但一旦触发器出现就会异常。对从公开模型仓库分发的预训练模型以及联邦学习而言尤为危险。常见防御措施包括训练数据来源追踪、Neural Cleanse 与 fine-pruning 等技术、激活聚类分析、对抗训练,以及只加载来自可信、已签名来源的模型权重。

示例

  1. 01

    图像分类器无论照片内容如何,只要含有一个小黄方块就将其标为 "飞机"。

  2. 02

    经过有毒微调的 LLM 在遇到罕见的控制短语时输出特定的恶意载荷。

常见问题

机器学习后门攻击 是什么?

训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。 它属于网络安全的 AI 与机器学习安全 分类。

机器学习后门攻击 是什么意思?

训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。

机器学习后门攻击 是如何工作的?

后门(木马)攻击因 Gu 等人 2017 年的 BadNets 论文而广为人知。攻击者向训练数据、微调数据或模型权重本身注入示例,把触发图案——贴纸、特定 token、水印甚至打字风格——与目标标签或行为绑定。部署后,模型在基准测试上保持良好准确率因而通过验证,但一旦触发器出现就会异常。对从公开模型仓库分发的预训练模型以及联邦学习而言尤为危险。常见防御措施包括训练数据来源追踪、Neural Cleanse 与 fine-pruning 等技术、激活聚类分析、对抗训练,以及只加载来自可信、已签名来源的模型权重。

如何防御 机器学习后门攻击?

针对 机器学习后门攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。

机器学习后门攻击 还有哪些其他名称?

常见的别称包括: 木马攻击, BadNets 攻击。

相关术语