Утечка системного промпта LLM
Что такое Утечка системного промпта LLM?
Утечка системного промпта LLMАтака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
Утечка системного промпта возникает, когда пользователь добивается, чтобы рабочее LLM-приложение раскрыло свой скрытый системный промпт, инструкции разработчика или сопутствующий контекст: API-ключи, внутреннюю документацию, описания инструментов. Атакующие применяют прямые запросы, ролевые сценарии, переводные трюки, обфускацию через кодировки символов, а также непрямой prompt injection через документы, которые модель должна резюмировать. Даже частичная утечка помогает реконструировать бизнес-логику, найти обходы guardrails и составить адресные джейлбрейки или тексты для социальной инженерии. Меры защиты: считать системный промпт по сути публичными данными, удалять из него секреты, делать серверные проверки политики, фильтровать вывод и просить модель не раскрывать инструкции, осознавая, что упорные атакующие нередко всё равно добиваются успеха.
● Примеры
- 01
Атакующий просит чат-бота повторить в блоках кода всё, что предшествовало его первому сообщению, и раскрывает полный системный промпт со встроенным API-ключом.
- 02
Ассистент-суммаризатор, которому подсунули вредоносный PDF, выдаёт скрытые описания инструментов, потому что сам документ велит ему это сделать.
● Частые вопросы
Что такое Утечка системного промпта LLM?
Атака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Утечка системного промпта LLM?
Атака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
Как защититься от Утечка системного промпта LLM?
Защита от Утечка системного промпта LLM обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Утечка системного промпта LLM?
Распространённые альтернативные названия: Извлечение системного промпта, Эксфильтрация промпта.