Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 704

模型反演

模型反演 是什么?

模型反演一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。


模型反演攻击的目标是训练数据的机密性,而非模型参数。Fredrikson 等人在 2015 年表明,对一个人脸识别分类器进行梯度优化,即可从类标签与置信度分数中恢复出可辨识的训练图像。现代变种则通过精心构造前缀,对 LLM 进行提问,以提取在训练中被记忆下来的姓名、邮箱或专有文档。该攻击对过拟合或正则化不足的模型,以及暴露细粒度置信度信号的 API 最为有效。常见缓解措施包括训练阶段使用差分隐私、最小化输出、训练数据去重、加强正则化,以及不向外披露内部置信度向量。

示例

  1. 01

    依据人脸识别模型对各类别的置信度分数,重建出可辨识的人脸。

  2. 02

    对 LLM 输入已知前缀,从其训练语料中恢复被记忆的个人信息。

常见问题

模型反演 是什么?

一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。 它属于网络安全的 AI 与机器学习安全 分类。

模型反演 是什么意思?

一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。

模型反演 是如何工作的?

模型反演攻击的目标是训练数据的机密性,而非模型参数。Fredrikson 等人在 2015 年表明,对一个人脸识别分类器进行梯度优化,即可从类标签与置信度分数中恢复出可辨识的训练图像。现代变种则通过精心构造前缀,对 LLM 进行提问,以提取在训练中被记忆下来的姓名、邮箱或专有文档。该攻击对过拟合或正则化不足的模型,以及暴露细粒度置信度信号的 API 最为有效。常见缓解措施包括训练阶段使用差分隐私、最小化输出、训练数据去重、加强正则化,以及不向外披露内部置信度向量。

如何防御 模型反演?

针对 模型反演 的防御通常结合技术控制与运营实践,详见上方完整定义。

模型反演 还有哪些其他名称?

常见的别称包括: 训练数据重建, 属性推断攻击。

相关术语