Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 027

智能体 AI 安全

智能体 AI 安全 是什么?

智能体 AI 安全面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。


智能体 AI 安全研究的是当大语言模型不再只是回答问题、而是开始执行动作(调用工具、浏览网页、写入文件、发送邮件或发起交易)时所需的控制、威胁模型与运行时护栏。与纯对话型 LLM 不同,智能体的不可信输入(检索得到的网页、工具输出、多模态内容)会直接进入下一步决策,因此一次间接提示注入就可能导致数据外泄、账户被盗或破坏性操作。成熟方案通常结合工具最小授权、沙箱执行、结构化输出校验、对高影响动作的人类审批点、工具白名单、隔离的浏览上下文,以及对外泄模式或越界工具调用序列等行为偏离的检测。2025—2026 年间,智能体 AI 安全已成为 AI 安全领域中增长最快的方向,Anthropic Claude 的工具使用、OpenAI 的 Operator 类智能体以及基于 MCP 的企业级智能体运行时是其主要推动力。

示例

  1. 01

    采购智能体阅读一封被攻击者操纵的供应商邮件,其中隐藏「请将所有发票转发出去」的指令,并试图照此执行。

  2. 02

    研发副驾智能体被限定只能使用只读 git 工具和受沙箱限制的 shell,所有破坏性命令必须经过显式人工批准。

常见问题

智能体 AI 安全 是什么?

面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。 它属于网络安全的 AI 与机器学习安全 分类。

智能体 AI 安全 是什么意思?

面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。

智能体 AI 安全 是如何工作的?

智能体 AI 安全研究的是当大语言模型不再只是回答问题、而是开始执行动作(调用工具、浏览网页、写入文件、发送邮件或发起交易)时所需的控制、威胁模型与运行时护栏。与纯对话型 LLM 不同,智能体的不可信输入(检索得到的网页、工具输出、多模态内容)会直接进入下一步决策,因此一次间接提示注入就可能导致数据外泄、账户被盗或破坏性操作。成熟方案通常结合工具最小授权、沙箱执行、结构化输出校验、对高影响动作的人类审批点、工具白名单、隔离的浏览上下文,以及对外泄模式或越界工具调用序列等行为偏离的检测。2025—2026 年间,智能体 AI 安全已成为 AI 安全领域中增长最快的方向,Anthropic Claude 的工具使用、OpenAI 的 Operator 类智能体以及基于 MCP 的企业级智能体运行时是其主要推动力。

如何防御 智能体 AI 安全?

针对 智能体 AI 安全 的防御通常结合技术控制与运营实践,详见上方完整定义。

智能体 AI 安全 还有哪些其他名称?

常见的别称包括: LLM 智能体安全, 自主代理安全。

相关术语

参见