LLM 系统提示词泄露
LLM 系统提示词泄露 是什么?
LLM 系统提示词泄露通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。
系统提示词泄露指攻击者诱导生产环境中的 LLM 应用披露其隐藏的系统提示词、开发者指令以及附带上下文 (如 API 密钥、内部文档、工具定义)。常见手法包括直接询问、角色扮演、翻译技巧、字符编码混淆,以及通过让模型总结的恶意文档进行间接提示注入。即使只泄露部分内容,也足以让攻击者反推业务逻辑、寻找绕过护栏的方式,并据此定制越狱与社会工程文案。常见缓解措施包括将系统提示词视为可被公开的低信任数据、不在提示词中放置密钥、在服务器端做策略检查、过滤输出,并指示模型不要透露指令,同时接受坚定的攻击者往往最终仍会成功这一现实。
● 示例
- 01
攻击者要求聊天机器人以代码块的形式重复在用户首条消息之前的所有内容,导致完整系统提示词及内嵌 API 密钥被披露。
- 02
向摘要助手投喂的恶意 PDF 指示其披露隐藏工具描述,助手照做并将定义返回给用户。
● 常见问题
LLM 系统提示词泄露 是什么?
通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。 它属于网络安全的 AI 与机器学习安全 分类。
LLM 系统提示词泄露 是什么意思?
通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。
LLM 系统提示词泄露 是如何工作的?
系统提示词泄露指攻击者诱导生产环境中的 LLM 应用披露其隐藏的系统提示词、开发者指令以及附带上下文 (如 API 密钥、内部文档、工具定义)。常见手法包括直接询问、角色扮演、翻译技巧、字符编码混淆,以及通过让模型总结的恶意文档进行间接提示注入。即使只泄露部分内容,也足以让攻击者反推业务逻辑、寻找绕过护栏的方式,并据此定制越狱与社会工程文案。常见缓解措施包括将系统提示词视为可被公开的低信任数据、不在提示词中放置密钥、在服务器端做策略检查、过滤输出,并指示模型不要透露指令,同时接受坚定的攻击者往往最终仍会成功这一现实。
如何防御 LLM 系统提示词泄露?
针对 LLM 系统提示词泄露 的防御通常结合技术控制与运营实践,详见上方完整定义。
LLM 系统提示词泄露 还有哪些其他名称?
常见的别称包括: 系统提示词提取, 提示词外泄。
● 相关术语
- ai-security№ 866
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 528
间接提示词注入
提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
- ai-security№ 030
AI 越狱
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
- ai-security№ 657
MCP 攻击
利用模型上下文协议 (MCP) 注入提示、滥用工具或通过 AI 助手所信任的服务器进行横向渗透的攻击。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- attacks№ 277
数据外泄
敏感数据因配置错误或人为疏忽而意外暴露,通常不是攻击者主动入侵造成的。