模型抽取

Q: 模型抽取 是什么?

通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。 它属于网络安全的 AI 与机器学习安全 分类。

Q: 如何防御 模型抽取?

针对 模型抽取 的防御通常结合技术控制与运营实践,详见上方完整定义。

审核人Florian AmetteCybersecurity entrepreneur & security researcher

模型抽取是什么?

模型抽取通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。

模型抽取(或模型窃取)将已部署模型视为预言机。攻击者发送大量精心设计的输入,记录输出(logits、概率,或仅标签),并训练一个近似受害模型的代理模型。Tramèr 等人在 2016 年证明该攻击对商用 MLaaS API 切实可行;现代变种则针对 LLM,提取经过微调的风格、系统提示,甚至小规模稠密层。攻击目的包括窃取知识产权、绕过付费使用、离线构造对抗样本,以及恢复嵌入在权重中的专有数据。常见防御措施有查询限速、对访问模式做异常检测、对输出添加水印、仅返回 top-k 标签,以及在置信度分数上添加校准噪声。

● 示例

01
对一个商用分类器进行数百万次查询,以训练一个模仿其输出的免费克隆。
02
通过采样基于 LLM 的助手的回复,重建其专有的系统提示。

● 常见问题

模型抽取是什么?

通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。它属于网络安全的 AI 与机器学习安全分类。

模型抽取是什么意思?

通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。

如何防御模型抽取?

针对模型抽取的防御通常结合技术控制与运营实践,详见上方完整定义。

模型抽取还有哪些其他名称?

常见的别称包括: 模型窃取, 功能抽取。

● 相关术语

● 另见

可迁移对抗攻击

模型抽取 是什么?

● 示例

● 常见问题

● 相关术语

● 另见

模型抽取是什么?