Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 619

LLM 系统提示词泄露

LLM 系统提示词泄露 是什么?

LLM 系统提示词泄露通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。


系统提示词泄露指攻击者诱导生产环境中的 LLM 应用披露其隐藏的系统提示词、开发者指令以及附带上下文 (如 API 密钥、内部文档、工具定义)。常见手法包括直接询问、角色扮演、翻译技巧、字符编码混淆,以及通过让模型总结的恶意文档进行间接提示注入。即使只泄露部分内容,也足以让攻击者反推业务逻辑、寻找绕过护栏的方式,并据此定制越狱与社会工程文案。常见缓解措施包括将系统提示词视为可被公开的低信任数据、不在提示词中放置密钥、在服务器端做策略检查、过滤输出,并指示模型不要透露指令,同时接受坚定的攻击者往往最终仍会成功这一现实。

示例

  1. 01

    攻击者要求聊天机器人以代码块的形式重复在用户首条消息之前的所有内容,导致完整系统提示词及内嵌 API 密钥被披露。

  2. 02

    向摘要助手投喂的恶意 PDF 指示其披露隐藏工具描述,助手照做并将定义返回给用户。

常见问题

LLM 系统提示词泄露 是什么?

通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。 它属于网络安全的 AI 与机器学习安全 分类。

LLM 系统提示词泄露 是什么意思?

通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。

LLM 系统提示词泄露 是如何工作的?

系统提示词泄露指攻击者诱导生产环境中的 LLM 应用披露其隐藏的系统提示词、开发者指令以及附带上下文 (如 API 密钥、内部文档、工具定义)。常见手法包括直接询问、角色扮演、翻译技巧、字符编码混淆,以及通过让模型总结的恶意文档进行间接提示注入。即使只泄露部分内容,也足以让攻击者反推业务逻辑、寻找绕过护栏的方式,并据此定制越狱与社会工程文案。常见缓解措施包括将系统提示词视为可被公开的低信任数据、不在提示词中放置密钥、在服务器端做策略检查、过滤输出,并指示模型不要透露指令,同时接受坚定的攻击者往往最终仍会成功这一现实。

如何防御 LLM 系统提示词泄露?

针对 LLM 系统提示词泄露 的防御通常结合技术控制与运营实践,详见上方完整定义。

LLM 系统提示词泄露 还有哪些其他名称?

常见的别称包括: 系统提示词提取, 提示词外泄。

相关术语