Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 666

成员推断攻击

成员推断攻击 是什么?

成员推断攻击一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。


成员推断攻击由 Shokri 等人在 2017 年系统化,利用了 ML 模型对训练时见过的样本表现出更高置信度的倾向。攻击者用候选样本查询目标模型,将置信度、损失或逐类得分与在同类数据上训练的影子模型对比,据此判定该样本是否参与了训练。仅有 API 访问权限通常就足够。该攻击是更广泛隐私威胁的基石——确认某人的病历、照片或文档是否被用于训练已部署模型,可能违反 GDPR、HIPAA 或欧盟《人工智能法》。常见防御措施包括差分隐私、dropout 等正则化、输出最小化,以及对训练数据的仔细去重。

示例

  1. 01

    通过比较损失值,推断某位患者的病历被用于训练某家医院的诊断模型。

  2. 02

    通过成员推断测试,识别某本受版权保护的书籍是否进入了某个 LLM 的预训练语料。

常见问题

成员推断攻击 是什么?

一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。 它属于网络安全的 AI 与机器学习安全 分类。

成员推断攻击 是什么意思?

一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。

成员推断攻击 是如何工作的?

成员推断攻击由 Shokri 等人在 2017 年系统化,利用了 ML 模型对训练时见过的样本表现出更高置信度的倾向。攻击者用候选样本查询目标模型,将置信度、损失或逐类得分与在同类数据上训练的影子模型对比,据此判定该样本是否参与了训练。仅有 API 访问权限通常就足够。该攻击是更广泛隐私威胁的基石——确认某人的病历、照片或文档是否被用于训练已部署模型,可能违反 GDPR、HIPAA 或欧盟《人工智能法》。常见防御措施包括差分隐私、dropout 等正则化、输出最小化,以及对训练数据的仔细去重。

如何防御 成员推断攻击?

针对 成员推断攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。

成员推断攻击 还有哪些其他名称?

常见的别称包括: MIA, 训练集成员攻击。

相关术语

参见