Ataques sobre embeddings
¿Qué es Ataques sobre embeddings?
Ataques sobre embeddingsFamilia de ataques contra vectores de embedding de IA que recuperan, alteran o abusan del input original o de su semántica, incluida la inversión de embeddings y el envenenamiento por similitud.
Los embeddings son representaciones vectoriales densas de texto, imágenes u otros datos usadas por sistemas de IA modernos para búsqueda, recomendación y RAG. Aunque antes se consideraban opacos, la investigación demuestra que filtran mucha información sobre el texto original. Los ataques de inversión de embeddings (por ejemplo la familia Vec2Text) reconstruyen la frase original a partir del vector con sorprendente fidelidad, rompiendo las suposiciones de privacidad para logs de chatbots, notas médicas o documentos propietarios almacenados en bases vectoriales. Otros ataques incluyen envenenamiento por similitud, donde el adversario crea inputs que secuestran los nearest-neighbors en un corpus RAG, y ataques de inferencia de pertenencia contra endpoints de embedding. Las defensas incluyen cifrado en reposo, control de acceso a las consultas de similitud, límites de tasa, reducción de dimensionalidad y tratar los embeddings como datos personales bajo la normativa de privacidad.
● Ejemplos
- 01
Investigadores reconstruyen más del 90% del contenido de frases a partir de embeddings de OpenAI con Vec2Text.
- 02
Un documento envenenado se embebe cerca de consultas habituales de RR.HH. y secuestra las respuestas RAG.
● Preguntas frecuentes
¿Qué es Ataques sobre embeddings?
Familia de ataques contra vectores de embedding de IA que recuperan, alteran o abusan del input original o de su semántica, incluida la inversión de embeddings y el envenenamiento por similitud. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ataques sobre embeddings?
Familia de ataques contra vectores de embedding de IA que recuperan, alteran o abusan del input original o de su semántica, incluida la inversión de embeddings y el envenenamiento por similitud.
¿Cómo funciona Ataques sobre embeddings?
Los embeddings son representaciones vectoriales densas de texto, imágenes u otros datos usadas por sistemas de IA modernos para búsqueda, recomendación y RAG. Aunque antes se consideraban opacos, la investigación demuestra que filtran mucha información sobre el texto original. Los ataques de inversión de embeddings (por ejemplo la familia Vec2Text) reconstruyen la frase original a partir del vector con sorprendente fidelidad, rompiendo las suposiciones de privacidad para logs de chatbots, notas médicas o documentos propietarios almacenados en bases vectoriales. Otros ataques incluyen envenenamiento por similitud, donde el adversario crea inputs que secuestran los nearest-neighbors en un corpus RAG, y ataques de inferencia de pertenencia contra endpoints de embedding. Las defensas incluyen cifrado en reposo, control de acceso a las consultas de similitud, límites de tasa, reducción de dimensionalidad y tratar los embeddings como datos personales bajo la normativa de privacidad.
¿Cómo defenderse de Ataques sobre embeddings?
Las defensas contra Ataques sobre embeddings combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ataques sobre embeddings?
Nombres alternativos comunes: Inversión de embeddings, Ataque Vec2Text.
● Términos relacionados
- ai-security№ 1198
Seguridad de bases de datos vectoriales
Conjunto de controles que protegen las bases de datos vectoriales usadas por sistemas de IA frente a fuga de datos, envenenamiento, cruce entre tenants y compromisos operativos o de cadena de suministro.
- ai-security№ 897
RAG
Retrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 666
Ataque de inferencia de membresía
Ataque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.