LLM 守护栏
LLM 守护栏 是什么?
LLM 守护栏约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
守护栏是 LLM 应用的策略层,涵盖识别提示注入或越狱的分类器和规则过滤、主题/人格/语气控制、输出 Schema 校验、PII 与机密清洗、拒答处理、引用要求,以及对工具调用的限制。实现可以是开源框架(NVIDIA NeMo Guardrails、Guardrails AI、Microsoft Presidio 等),也可以是厂商 API(OpenAI Moderation、Anthropic 的 safety 端点等),还可以是嵌在代理框架中的自定义逻辑。守护栏与模型内置对齐、LLM 防火墙、MLSecOps 实践相互配合。它们需要可测试、可版本化,并通过红队持续验证——因为攻击者总在寻找守护栏与模型实际行为之间的缝隙。
● 示例
- 01
守护栏强制金融咨询聊天机器人在每条回复中加入合规免责声明。
- 02
Schema 校验器把任何不符合预期 JSON 结构、不能用于数据库写入的 LLM 输出丢弃。
● 常见问题
LLM 守护栏 是什么?
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。 它属于网络安全的 AI 与机器学习安全 分类。
LLM 守护栏 是什么意思?
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
LLM 守护栏 是如何工作的?
守护栏是 LLM 应用的策略层,涵盖识别提示注入或越狱的分类器和规则过滤、主题/人格/语气控制、输出 Schema 校验、PII 与机密清洗、拒答处理、引用要求,以及对工具调用的限制。实现可以是开源框架(NVIDIA NeMo Guardrails、Guardrails AI、Microsoft Presidio 等),也可以是厂商 API(OpenAI Moderation、Anthropic 的 safety 端点等),还可以是嵌在代理框架中的自定义逻辑。守护栏与模型内置对齐、LLM 防火墙、MLSecOps 实践相互配合。它们需要可测试、可版本化,并通过红队持续验证——因为攻击者总在寻找守护栏与模型实际行为之间的缝隙。
如何防御 LLM 守护栏?
针对 LLM 守护栏 的防御通常结合技术控制与运营实践,详见上方完整定义。
LLM 守护栏 还有哪些其他名称?
常见的别称包括: AI 守护栏, 生成式 AI 守护栏。
● 相关术语
- ai-security№ 617
LLM 防火墙
位于用户与大型语言模型之间的安全控制,实时检查提示、检索上下文与输出,对违反策略的流量进行拦截或改写。
- ai-security№ 866
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 024
AI 对齐
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
- ai-security№ 898
RAG 安全
保护检索增强生成(RAG)流水线的实践,确保为 LLM 提供素材的文档、向量库与检索步骤无法被投毒、滥用或用于数据外泄。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。