Атаки на эмбеддинги
Что такое Атаки на эмбеддинги?
Атаки на эмбеддингиКласс атак на векторы эмбеддингов AI, направленных на восстановление, изменение или эксплуатацию исходного ввода и его семантики: инверсия эмбеддингов и similarity-poisoning.
Эмбеддинги — это плотные векторные представления текста, изображений и других данных, используемые современными AI-системами для поиска, рекомендаций и RAG. Хотя ранее эмбеддинги считались непрозрачными, исследования показали, что они утечкают значительную информацию об исходном тексте. Атаки инверсии (например, семейство Vec2Text) восстанавливают исходное предложение по вектору с впечатляющей точностью, разрушая предположения о приватности логов чат-ботов, медицинских записей и собственных документов в векторных хранилищах. К прочим атакам относятся similarity poisoning, когда злоумышленник подбирает входы, перехватывающие ближайших соседей в корпусе RAG, и membership inference против эмбеддинг-эндпоинтов. Защита: шифрование векторов at rest, контроль доступа к запросам похожести, лимиты по частоте, понижение размерности и трактовка эмбеддингов как персональных данных в рамках законодательства о приватности.
● Примеры
- 01
Исследователи восстанавливают свыше 90% содержания предложений из эмбеддингов OpenAI с помощью Vec2Text.
- 02
Отравленный документ помещается рядом с типовыми HR-запросами и перехватывает ответы RAG.
● Частые вопросы
Что такое Атаки на эмбеддинги?
Класс атак на векторы эмбеддингов AI, направленных на восстановление, изменение или эксплуатацию исходного ввода и его семантики: инверсия эмбеддингов и similarity-poisoning. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Атаки на эмбеддинги?
Класс атак на векторы эмбеддингов AI, направленных на восстановление, изменение или эксплуатацию исходного ввода и его семантики: инверсия эмбеддингов и similarity-poisoning.
Как работает Атаки на эмбеддинги?
Эмбеддинги — это плотные векторные представления текста, изображений и других данных, используемые современными AI-системами для поиска, рекомендаций и RAG. Хотя ранее эмбеддинги считались непрозрачными, исследования показали, что они утечкают значительную информацию об исходном тексте. Атаки инверсии (например, семейство Vec2Text) восстанавливают исходное предложение по вектору с впечатляющей точностью, разрушая предположения о приватности логов чат-ботов, медицинских записей и собственных документов в векторных хранилищах. К прочим атакам относятся similarity poisoning, когда злоумышленник подбирает входы, перехватывающие ближайших соседей в корпусе RAG, и membership inference против эмбеддинг-эндпоинтов. Защита: шифрование векторов at rest, контроль доступа к запросам похожести, лимиты по частоте, понижение размерности и трактовка эмбеддингов как персональных данных в рамках законодательства о приватности.
Как защититься от Атаки на эмбеддинги?
Защита от Атаки на эмбеддинги обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Атаки на эмбеддинги?
Распространённые альтернативные названия: Инверсия эмбеддингов, Атака Vec2Text.
● Связанные термины
- ai-security№ 1198
Безопасность векторных баз данных
Набор мер защиты векторных баз данных, используемых AI-системами, от утечек, отравления, пересечения тенантов и операционных или supply-chain компрометаций.
- ai-security№ 897
RAG
Retrieval-Augmented Generation — паттерн использования LLM, при котором во время запроса извлекаются релевантные документы из хранилища знаний и подставляются в промпт.
- ai-security№ 281
Отравление данных
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- ai-security№ 666
Атака на вывод членства
Атака на приватность, определяющая, входила ли конкретная запись в обучающую выборку модели, через анализ её поведения на этой записи.