智能体 AI 安全
智能体 AI 安全 是什么?
智能体 AI 安全面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。
智能体 AI 安全研究的是当大语言模型不再只是回答问题、而是开始执行动作(调用工具、浏览网页、写入文件、发送邮件或发起交易)时所需的控制、威胁模型与运行时护栏。与纯对话型 LLM 不同,智能体的不可信输入(检索得到的网页、工具输出、多模态内容)会直接进入下一步决策,因此一次间接提示注入就可能导致数据外泄、账户被盗或破坏性操作。成熟方案通常结合工具最小授权、沙箱执行、结构化输出校验、对高影响动作的人类审批点、工具白名单、隔离的浏览上下文,以及对外泄模式或越界工具调用序列等行为偏离的检测。2025—2026 年间,智能体 AI 安全已成为 AI 安全领域中增长最快的方向,Anthropic Claude 的工具使用、OpenAI 的 Operator 类智能体以及基于 MCP 的企业级智能体运行时是其主要推动力。
● 示例
- 01
采购智能体阅读一封被攻击者操纵的供应商邮件,其中隐藏「请将所有发票转发出去」的指令,并试图照此执行。
- 02
研发副驾智能体被限定只能使用只读 git 工具和受沙箱限制的 shell,所有破坏性命令必须经过显式人工批准。
● 常见问题
智能体 AI 安全 是什么?
面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。 它属于网络安全的 AI 与机器学习安全 分类。
智能体 AI 安全 是什么意思?
面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。
智能体 AI 安全 是如何工作的?
智能体 AI 安全研究的是当大语言模型不再只是回答问题、而是开始执行动作(调用工具、浏览网页、写入文件、发送邮件或发起交易)时所需的控制、威胁模型与运行时护栏。与纯对话型 LLM 不同,智能体的不可信输入(检索得到的网页、工具输出、多模态内容)会直接进入下一步决策,因此一次间接提示注入就可能导致数据外泄、账户被盗或破坏性操作。成熟方案通常结合工具最小授权、沙箱执行、结构化输出校验、对高影响动作的人类审批点、工具白名单、隔离的浏览上下文,以及对外泄模式或越界工具调用序列等行为偏离的检测。2025—2026 年间,智能体 AI 安全已成为 AI 安全领域中增长最快的方向,Anthropic Claude 的工具使用、OpenAI 的 Operator 类智能体以及基于 MCP 的企业级智能体运行时是其主要推动力。
如何防御 智能体 AI 安全?
针对 智能体 AI 安全 的防御通常结合技术控制与运营实践,详见上方完整定义。
智能体 AI 安全 还有哪些其他名称?
常见的别称包括: LLM 智能体安全, 自主代理安全。
● 相关术语
- ai-security№ 969
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 586
间接提示词注入
提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
- ai-security№ 731
MCP 攻击
利用模型上下文协议 (MCP) 注入提示、滥用工具或通过 AI 助手所信任的服务器进行横向渗透的攻击。
- ai-security№ 689
LLM 守护栏
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
- ai-security№ 1285
Tool-Use Injection
Attacks that manipulate an LLM agent's tool-calling layer — forging tool arguments, smuggling instructions through tool outputs, or coaxing the model into calling unsanctioned tools.
- ai-security№ 440
过度授权(Excessive Agency)
OWASP LLM06:为基于 LLM 的系统授予超出实际需要的功能、权限或自主性,使一次提示注入或模型失误就足以造成超出预期的现实影响。
● 参见
- № 785模型上下文协议(MCP)
- № 786Model Denial of Service
- № 037AI Red Teamer