成员推断攻击
成员推断攻击 是什么?
成员推断攻击一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
成员推断攻击由 Shokri 等人在 2017 年系统化,利用了 ML 模型对训练时见过的样本表现出更高置信度的倾向。攻击者用候选样本查询目标模型,将置信度、损失或逐类得分与在同类数据上训练的影子模型对比,据此判定该样本是否参与了训练。仅有 API 访问权限通常就足够。该攻击是更广泛隐私威胁的基石——确认某人的病历、照片或文档是否被用于训练已部署模型,可能违反 GDPR、HIPAA 或欧盟《人工智能法》。常见防御措施包括差分隐私、dropout 等正则化、输出最小化,以及对训练数据的仔细去重。
● 示例
- 01
通过比较损失值,推断某位患者的病历被用于训练某家医院的诊断模型。
- 02
通过成员推断测试,识别某本受版权保护的书籍是否进入了某个 LLM 的预训练语料。
● 常见问题
成员推断攻击 是什么?
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。 它属于网络安全的 AI 与机器学习安全 分类。
成员推断攻击 是什么意思?
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
成员推断攻击 是如何工作的?
成员推断攻击由 Shokri 等人在 2017 年系统化,利用了 ML 模型对训练时见过的样本表现出更高置信度的倾向。攻击者用候选样本查询目标模型,将置信度、损失或逐类得分与在同类数据上训练的影子模型对比,据此判定该样本是否参与了训练。仅有 API 访问权限通常就足够。该攻击是更广泛隐私威胁的基石——确认某人的病历、照片或文档是否被用于训练已部署模型,可能违反 GDPR、HIPAA 或欧盟《人工智能法》。常见防御措施包括差分隐私、dropout 等正则化、输出最小化,以及对训练数据的仔细去重。
如何防御 成员推断攻击?
针对 成员推断攻击 的防御通常结合技术控制与运营实践,详见上方完整定义。
成员推断攻击 还有哪些其他名称?
常见的别称包括: MIA, 训练集成员攻击。
● 相关术语
- ai-security№ 704
模型反演
一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。
- ai-security№ 703
模型抽取
通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。
- ai-security№ 281
数据投毒
针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
● 参见
- № 376嵌入向量攻击