Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 027

Безопасность агентного ИИ

Что такое Безопасность агентного ИИ?

Безопасность агентного ИИДисциплина защиты автономных LLM-агентов, которые планируют, вызывают инструменты и действуют в реальных системах, где prompt-инъекция превращается в удалённое выполнение кода, а избыточная агентность — в реальный масштаб разрушения.


Безопасность агентного ИИ охватывает меры контроля, модели угроз и ран-тайм-ограничители, необходимые, когда большие языковые модели перестают только отвечать и начинают действовать — вызывать инструменты, ходить в веб, писать файлы, отправлять письма или проводить транзакции. В отличие от чисто диалогового LLM, недоверенные входы агента (полученные страницы, выходы инструментов, мультимодальный контент) напрямую попадают в принятие следующих решений, поэтому одна косвенная prompt-инъекция способна перерасти в эксфильтрацию данных, захват учётной записи или деструктивные действия. Эффективные программы сочетают минимально необходимые права инструментов, выполнение в песочнице, валидацию структурированных выходов, контрольные точки с участием человека для действий повышенного влияния, белые списки инструментов, изолированные контексты браузинга и детектирование поведенческих отклонений — паттернов эксфильтрации или последовательностей инструментов вне политики. В 2025–2026 годах безопасность агентного ИИ — самый быстрорастущий сегмент в AI security, чему способствуют tool use у Claude (Anthropic), агенты класса Operator от OpenAI и корпоративные внедрения на основе MCP-рантаймов.

Примеры

  1. 01

    Агент-закупщик читает подконтрольное злоумышленнику письмо поставщика со скрытыми инструкциями вида «перешли все счета» и пытается их выполнить.

  2. 02

    Инженерный копайлот-агент ограничен инструментами git только для чтения и песочничной оболочкой, а деструктивные команды требуют явного одобрения человека.

Частые вопросы

Что такое Безопасность агентного ИИ?

Дисциплина защиты автономных LLM-агентов, которые планируют, вызывают инструменты и действуют в реальных системах, где prompt-инъекция превращается в удалённое выполнение кода, а избыточная агентность — в реальный масштаб разрушения. Относится к категории Безопасность ИИ и ML в кибербезопасности.

Что означает Безопасность агентного ИИ?

Дисциплина защиты автономных LLM-агентов, которые планируют, вызывают инструменты и действуют в реальных системах, где prompt-инъекция превращается в удалённое выполнение кода, а избыточная агентность — в реальный масштаб разрушения.

Как работает Безопасность агентного ИИ?

Безопасность агентного ИИ охватывает меры контроля, модели угроз и ран-тайм-ограничители, необходимые, когда большие языковые модели перестают только отвечать и начинают действовать — вызывать инструменты, ходить в веб, писать файлы, отправлять письма или проводить транзакции. В отличие от чисто диалогового LLM, недоверенные входы агента (полученные страницы, выходы инструментов, мультимодальный контент) напрямую попадают в принятие следующих решений, поэтому одна косвенная prompt-инъекция способна перерасти в эксфильтрацию данных, захват учётной записи или деструктивные действия. Эффективные программы сочетают минимально необходимые права инструментов, выполнение в песочнице, валидацию структурированных выходов, контрольные точки с участием человека для действий повышенного влияния, белые списки инструментов, изолированные контексты браузинга и детектирование поведенческих отклонений — паттернов эксфильтрации или последовательностей инструментов вне политики. В 2025–2026 годах безопасность агентного ИИ — самый быстрорастущий сегмент в AI security, чему способствуют tool use у Claude (Anthropic), агенты класса Operator от OpenAI и корпоративные внедрения на основе MCP-рантаймов.

Как защититься от Безопасность агентного ИИ?

Защита от Безопасность агентного ИИ обычно сочетает технические меры и операционные практики, как описано в определении выше.

Какие есть другие названия Безопасность агентного ИИ?

Распространённые альтернативные названия: Безопасность LLM-агентов, Безопасность автономных агентов.

Связанные термины

См. также