Entry № 692
LLM 守护栏
LLM 守护栏 是什么?
LLM 守护栏约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
守护栏是 LLM 应用的策略层,涵盖识别提示注入或越狱的分类器和规则过滤、主题/人格/语气控制、输出 Schema 校验、PII 与机密清洗、拒答处理、引用要求,以及对工具调用的限制。实现可以是开源框架(NVIDIA NeMo Guardrails、Guardrails AI、Microsoft Presidio 等),也可以是厂商 API(OpenAI Moderation、Anthropic 的 safety 端点等),还可以是嵌在代理框架中的自定义逻辑。守护栏与模型内置对齐、LLM 防火墙、MLSecOps 实践相互配合。它们需要可测试、可版本化,并通过红队持续验证——因为攻击者总在寻找守护栏与模型实际行为之间的缝隙。
● 示例
- 01
守护栏强制金融咨询聊天机器人在每条回复中加入合规免责声明。
- 02
Schema 校验器把任何不符合预期 JSON 结构、不能用于数据库写入的 LLM 输出丢弃。
● 常见问题
LLM 守护栏 是什么?
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。 它属于网络安全的 AI 与机器学习安全 分类。
LLM 守护栏 是什么意思?
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
如何防御 LLM 守护栏?
针对 LLM 守护栏 的防御通常结合技术控制与运营实践,详见上方完整定义。
LLM 守护栏 还有哪些其他名称?
常见的别称包括: AI 守护栏, 生成式 AI 守护栏。