Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 618

LLM 守护栏

LLM 守护栏 是什么?

LLM 守护栏约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。


守护栏是 LLM 应用的策略层,涵盖识别提示注入或越狱的分类器和规则过滤、主题/人格/语气控制、输出 Schema 校验、PII 与机密清洗、拒答处理、引用要求,以及对工具调用的限制。实现可以是开源框架(NVIDIA NeMo Guardrails、Guardrails AI、Microsoft Presidio 等),也可以是厂商 API(OpenAI Moderation、Anthropic 的 safety 端点等),还可以是嵌在代理框架中的自定义逻辑。守护栏与模型内置对齐、LLM 防火墙、MLSecOps 实践相互配合。它们需要可测试、可版本化,并通过红队持续验证——因为攻击者总在寻找守护栏与模型实际行为之间的缝隙。

示例

  1. 01

    守护栏强制金融咨询聊天机器人在每条回复中加入合规免责声明。

  2. 02

    Schema 校验器把任何不符合预期 JSON 结构、不能用于数据库写入的 LLM 输出丢弃。

常见问题

LLM 守护栏 是什么?

约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。 它属于网络安全的 AI 与机器学习安全 分类。

LLM 守护栏 是什么意思?

约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。

LLM 守护栏 是如何工作的?

守护栏是 LLM 应用的策略层,涵盖识别提示注入或越狱的分类器和规则过滤、主题/人格/语气控制、输出 Schema 校验、PII 与机密清洗、拒答处理、引用要求,以及对工具调用的限制。实现可以是开源框架(NVIDIA NeMo Guardrails、Guardrails AI、Microsoft Presidio 等),也可以是厂商 API(OpenAI Moderation、Anthropic 的 safety 端点等),还可以是嵌在代理框架中的自定义逻辑。守护栏与模型内置对齐、LLM 防火墙、MLSecOps 实践相互配合。它们需要可测试、可版本化,并通过红队持续验证——因为攻击者总在寻找守护栏与模型实际行为之间的缝隙。

如何防御 LLM 守护栏?

针对 LLM 守护栏 的防御通常结合技术控制与运营实践,详见上方完整定义。

LLM 守护栏 还有哪些其他名称?

常见的别称包括: AI 守护栏, 生成式 AI 守护栏。

相关术语

参见