Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 703

模型抽取

模型抽取 是什么?

模型抽取通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。


模型抽取(或模型窃取)将已部署模型视为预言机。攻击者发送大量精心设计的输入,记录输出(logits、概率,或仅标签),并训练一个近似受害模型的代理模型。Tramèr 等人在 2016 年证明该攻击对商用 MLaaS API 切实可行;现代变种则针对 LLM,提取经过微调的风格、系统提示,甚至小规模稠密层。攻击目的包括窃取知识产权、绕过付费使用、离线构造对抗样本,以及恢复嵌入在权重中的专有数据。常见防御措施有查询限速、对访问模式做异常检测、对输出添加水印、仅返回 top-k 标签,以及在置信度分数上添加校准噪声。

示例

  1. 01

    对一个商用分类器进行数百万次查询,以训练一个模仿其输出的免费克隆。

  2. 02

    通过采样基于 LLM 的助手的回复,重建其专有的系统提示。

常见问题

模型抽取 是什么?

通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。 它属于网络安全的 AI 与机器学习安全 分类。

模型抽取 是什么意思?

通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。

模型抽取 是如何工作的?

模型抽取(或模型窃取)将已部署模型视为预言机。攻击者发送大量精心设计的输入,记录输出(logits、概率,或仅标签),并训练一个近似受害模型的代理模型。Tramèr 等人在 2016 年证明该攻击对商用 MLaaS API 切实可行;现代变种则针对 LLM,提取经过微调的风格、系统提示,甚至小规模稠密层。攻击目的包括窃取知识产权、绕过付费使用、离线构造对抗样本,以及恢复嵌入在权重中的专有数据。常见防御措施有查询限速、对访问模式做异常检测、对输出添加水印、仅返回 top-k 标签,以及在置信度分数上添加校准噪声。

如何防御 模型抽取?

针对 模型抽取 的防御通常结合技术控制与运营实践,详见上方完整定义。

模型抽取 还有哪些其他名称?

常见的别称包括: 模型窃取, 功能抽取。

相关术语

参见