Утечка системного промпта LLM
Что такое Утечка системного промпта LLM?
Утечка системного промпта LLMАтака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
Утечка системного промпта возникает, когда пользователь добивается, чтобы рабочее LLM-приложение раскрыло свой скрытый системный промпт, инструкции разработчика или сопутствующий контекст: API-ключи, внутреннюю документацию, описания инструментов. Атакующие применяют прямые запросы, ролевые сценарии, переводные трюки, обфускацию через кодировки символов, а также непрямой prompt injection через документы, которые модель должна резюмировать. Даже частичная утечка помогает реконструировать бизнес-логику, найти обходы guardrails и составить адресные джейлбрейки или тексты для социальной инженерии. Меры защиты: считать системный промпт по сути публичными данными, удалять из него секреты, делать серверные проверки политики, фильтровать вывод и просить модель не раскрывать инструкции, осознавая, что упорные атакующие нередко всё равно добиваются успеха.
● Примеры
- 01
Атакующий просит чат-бота повторить в блоках кода всё, что предшествовало его первому сообщению, и раскрывает полный системный промпт со встроенным API-ключом.
- 02
Ассистент-суммаризатор, которому подсунули вредоносный PDF, выдаёт скрытые описания инструментов, потому что сам документ велит ему это сделать.
● Частые вопросы
Что такое Утечка системного промпта LLM?
Атака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Утечка системного промпта LLM?
Атака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
Как работает Утечка системного промпта LLM?
Утечка системного промпта возникает, когда пользователь добивается, чтобы рабочее LLM-приложение раскрыло свой скрытый системный промпт, инструкции разработчика или сопутствующий контекст: API-ключи, внутреннюю документацию, описания инструментов. Атакующие применяют прямые запросы, ролевые сценарии, переводные трюки, обфускацию через кодировки символов, а также непрямой prompt injection через документы, которые модель должна резюмировать. Даже частичная утечка помогает реконструировать бизнес-логику, найти обходы guardrails и составить адресные джейлбрейки или тексты для социальной инженерии. Меры защиты: считать системный промпт по сути публичными данными, удалять из него секреты, делать серверные проверки политики, фильтровать вывод и просить модель не раскрывать инструкции, осознавая, что упорные атакующие нередко всё равно добиваются успеха.
Как защититься от Утечка системного промпта LLM?
Защита от Утечка системного промпта LLM обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Утечка системного промпта LLM?
Распространённые альтернативные названия: Извлечение системного промпта, Эксфильтрация промпта.
● Связанные термины
- ai-security№ 866
Промпт-инъекция
Атака, при которой во входной запрос LLM встраивается враждебный текст, переопределяющий исходные инструкции и заставляющий модель игнорировать ограничения или выполнять действия злоумышленника.
- ai-security№ 528
Косвенная промпт-инъекция
Разновидность промпт-инъекции, при которой вредоносные инструкции скрыты в стороннем контенте (веб-страницы, документы, письма), который LLM затем получает через поиск, браузер или вызовы инструментов.
- ai-security№ 030
Джейлбрейк ИИ
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
- ai-security№ 657
Атаки на MCP
Атаки, использующие протокол Model Context Protocol (MCP) для внедрения подсказок, злоупотребления инструментами или перехода через серверы, которым доверяет ИИ-ассистент.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- attacks№ 277
Утечка данных (непреднамеренная)
Случайное или халатное раскрытие конфиденциальной информации, обычно из-за неправильной настройки или человеческой ошибки, а не активной атаки.