模型抽取
模型抽取 是什么?
模型抽取通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。
模型抽取(或模型窃取)将已部署模型视为预言机。攻击者发送大量精心设计的输入,记录输出(logits、概率,或仅标签),并训练一个近似受害模型的代理模型。Tramèr 等人在 2016 年证明该攻击对商用 MLaaS API 切实可行;现代变种则针对 LLM,提取经过微调的风格、系统提示,甚至小规模稠密层。攻击目的包括窃取知识产权、绕过付费使用、离线构造对抗样本,以及恢复嵌入在权重中的专有数据。常见防御措施有查询限速、对访问模式做异常检测、对输出添加水印、仅返回 top-k 标签,以及在置信度分数上添加校准噪声。
● 示例
- 01
对一个商用分类器进行数百万次查询,以训练一个模仿其输出的免费克隆。
- 02
通过采样基于 LLM 的助手的回复,重建其专有的系统提示。
● 常见问题
模型抽取 是什么?
通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。 它属于网络安全的 AI 与机器学习安全 分类。
模型抽取 是什么意思?
通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。
模型抽取 是如何工作的?
模型抽取(或模型窃取)将已部署模型视为预言机。攻击者发送大量精心设计的输入,记录输出(logits、概率,或仅标签),并训练一个近似受害模型的代理模型。Tramèr 等人在 2016 年证明该攻击对商用 MLaaS API 切实可行;现代变种则针对 LLM,提取经过微调的风格、系统提示,甚至小规模稠密层。攻击目的包括窃取知识产权、绕过付费使用、离线构造对抗样本,以及恢复嵌入在权重中的专有数据。常见防御措施有查询限速、对访问模式做异常检测、对输出添加水印、仅返回 top-k 标签,以及在置信度分数上添加校准噪声。
如何防御 模型抽取?
针对 模型抽取 的防御通常结合技术控制与运营实践,详见上方完整定义。
模型抽取 还有哪些其他名称?
常见的别称包括: 模型窃取, 功能抽取。
● 相关术语
- ai-security№ 704
模型反演
一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。
- ai-security№ 666
成员推断攻击
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
- ai-security№ 034
AI 供应链风险
组织在构建和部署 AI 系统时所组合的第三方数据集、基础模型、依赖库、插件与基础设施带来的威胁集合。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 035
AI 水印
在 AI 生成内容中嵌入可检测信号的技术,用于事后验证其来源、所属模型或与训练集的关联。
● 参见
- № 1168可迁移对抗攻击