Entry № 589
间接提示词注入
间接提示词注入 是什么?
间接提示词注入提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
间接提示词注入由 Greshake 等人在 2023 年系统化描述,攻击者无需直接与模型对话,而是将指令植入 LLM 将要消费的资源:被代理摘要的网页、被 RAG 流水线解析的 PDF、被副驾驶读取的电子邮件,甚至是图像的替代文本。一旦模型把这些内容拼接到自己的上下文,就可能执行其中的指令,泄露对话历史、调用工具或通过构造的 URL 外泄数据。常见防御包括内容沙箱、检索白名单、把数据与指令显式区分、输出与外联限制,以及对敏感工具调用引入人工审核环节。
● 示例
- 01
简历 PDF 含有白底白字,指示招聘副驾驶推荐该候选人。
- 02
AI 浏览器代理摘要某网页时,被网页内的隐藏指令要求把用户邮件发送至攻击者 URL。
● 常见问题
间接提示词注入 是什么?
提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。 它属于网络安全的 AI 与机器学习安全 分类。
间接提示词注入 是什么意思?
提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
如何防御 间接提示词注入?
针对 间接提示词注入 的防御通常结合技术控制与运营实践,详见上方完整定义。
间接提示词注入 还有哪些其他名称?
常见的别称包括: 跨域提示词注入, 持久化提示词注入。