对抗样本
对抗样本 是什么?
对抗样本经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。
对抗样本由 Szegedy 等人在 2013 年首次系统讨论,Goodfellow 等人 2014 年提出的 FGSM 表明,极小的像素级扰动即可让最先进的图像分类器高置信度地错分。生成方法通常采用基于梯度的优化(FGSM、PGD、Carlini-Wagner)或黑盒查询;它们在不同模型间具有可转移性,即使没有内部访问也能发起攻击。除图像外,对抗样本也存在于文本、音频、代码和恶意软件检测中,是大多数生产环境逃逸攻击的基础。常见防御手段包括对抗训练、认证鲁棒性(随机平滑)、输入预处理、模型集成与运行时异常检测,但在高维场景下仍无法获得完全鲁棒性。
● 示例
- 01
停止标志贴上精心设计的贴纸,使自动驾驶分类器将其识别为限速标志。
- 02
与背景噪声难以区分的音频片段,被语音助手的 ASR 转录为一条恶意命令。
● 常见问题
对抗样本 是什么?
经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。 它属于网络安全的 AI 与机器学习安全 分类。
对抗样本 是什么意思?
经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。
对抗样本 是如何工作的?
对抗样本由 Szegedy 等人在 2013 年首次系统讨论,Goodfellow 等人 2014 年提出的 FGSM 表明,极小的像素级扰动即可让最先进的图像分类器高置信度地错分。生成方法通常采用基于梯度的优化(FGSM、PGD、Carlini-Wagner)或黑盒查询;它们在不同模型间具有可转移性,即使没有内部访问也能发起攻击。除图像外,对抗样本也存在于文本、音频、代码和恶意软件检测中,是大多数生产环境逃逸攻击的基础。常见防御手段包括对抗训练、认证鲁棒性(随机平滑)、输入预处理、模型集成与运行时异常检测,但在高维场景下仍无法获得完全鲁棒性。
如何防御 对抗样本?
针对 对抗样本 的防御通常结合技术控制与运营实践,详见上方完整定义。
对抗样本 还有哪些其他名称?
常见的别称包括: 对抗输入, 对抗扰动。
● 相关术语
- ai-security№ 393
机器学习逃逸攻击
在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。
- ai-security№ 081
机器学习后门攻击
训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
- ai-security№ 281
数据投毒
针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。