模型反演
模型反演 是什么?
模型反演一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。
模型反演攻击的目标是训练数据的机密性,而非模型参数。Fredrikson 等人在 2015 年表明,对一个人脸识别分类器进行梯度优化,即可从类标签与置信度分数中恢复出可辨识的训练图像。现代变种则通过精心构造前缀,对 LLM 进行提问,以提取在训练中被记忆下来的姓名、邮箱或专有文档。该攻击对过拟合或正则化不足的模型,以及暴露细粒度置信度信号的 API 最为有效。常见缓解措施包括训练阶段使用差分隐私、最小化输出、训练数据去重、加强正则化,以及不向外披露内部置信度向量。
● 示例
- 01
依据人脸识别模型对各类别的置信度分数,重建出可辨识的人脸。
- 02
对 LLM 输入已知前缀,从其训练语料中恢复被记忆的个人信息。
● 常见问题
模型反演 是什么?
一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。 它属于网络安全的 AI 与机器学习安全 分类。
模型反演 是什么意思?
一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。
模型反演 是如何工作的?
模型反演攻击的目标是训练数据的机密性,而非模型参数。Fredrikson 等人在 2015 年表明,对一个人脸识别分类器进行梯度优化,即可从类标签与置信度分数中恢复出可辨识的训练图像。现代变种则通过精心构造前缀,对 LLM 进行提问,以提取在训练中被记忆下来的姓名、邮箱或专有文档。该攻击对过拟合或正则化不足的模型,以及暴露细粒度置信度信号的 API 最为有效。常见缓解措施包括训练阶段使用差分隐私、最小化输出、训练数据去重、加强正则化,以及不向外披露内部置信度向量。
如何防御 模型反演?
针对 模型反演 的防御通常结合技术控制与运营实践,详见上方完整定义。
模型反演 还有哪些其他名称?
常见的别称包括: 训练数据重建, 属性推断攻击。
● 相关术语
- ai-security№ 666
成员推断攻击
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
- ai-security№ 703
模型抽取
通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。
- ai-security№ 281
数据投毒
针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。