Entry № 744
成员推断攻击
成员推断攻击 是什么?
成员推断攻击一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
成员推断攻击由 Shokri 等人在 2017 年系统化,利用了 ML 模型对训练时见过的样本表现出更高置信度的倾向。攻击者用候选样本查询目标模型,将置信度、损失或逐类得分与在同类数据上训练的影子模型对比,据此判定该样本是否参与了训练。仅有 API 访问权限通常就足够。该攻击是更广泛隐私威胁的基石——确认某人的病历、照片或文档是否被用于训练已部署模型,可能违反 GDPR、HIPAA 或欧盟《人工智能法》。常见防御措施包括差分隐私、dropout 等正则化、输出最小化,以及对训练数据的仔细去重。
● 示例
- 01
通过比较损失值,推断某位患者的病历被用于训练某家医院的诊断模型。
- 02
通过成员推断测试,识别某本受版权保护的书籍是否进入了某个 LLM 的预训练语料。
● 常见问题
成员推断攻击 是什么?
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。 它属于网络安全的 AI 与机器学习安全 分类。
成员推断攻击 是什么意思?
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
如何防御 成员推断攻击?
针对 成员推断攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。
成员推断攻击 还有哪些其他名称?
常见的别称包括: MIA, 训练集成员攻击。