Ataques a embeddings
O que é Ataques a embeddings?
Ataques a embeddingsClasse de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade.
Embeddings sao representacoes vetoriais densas de texto, imagem ou outros dados usadas por sistemas modernos de IA para pesquisa, recomendacao e RAG. Embora ja tenham sido considerados opacos, a investigacao mostrou que muitas vezes vazam informacao significativa sobre o texto-fonte. Ataques de inversao de embedding (por exemplo, a familia Vec2Text) reconstroem a frase original a partir do vetor com fidelidade surpreendente, quebrando suposicoes de privacidade para logs de chatbots, notas medicas ou documentos confidenciais em bases vetoriais. Outros ataques incluem envenenamento por similaridade, em que o adversario cria inputs que sequestram os vizinhos mais proximos num corpus RAG, e ataques de inferencia de pertenca contra endpoints de embedding. As defesas incluem cifragem em repouso, controlo de acesso as consultas de similaridade, limites de taxa, reducao de dimensionalidade e o tratamento dos embeddings como dados pessoais para efeitos de privacidade.
● Exemplos
- 01
Investigadores reconstroem mais de 90% do conteudo de frases a partir de embeddings da OpenAI com Vec2Text.
- 02
Um documento envenenado e embedded perto de consultas comuns de RH, sequestrando as respostas do RAG.
● Perguntas frequentes
O que é Ataques a embeddings?
Classe de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Ataques a embeddings?
Classe de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade.
Como funciona Ataques a embeddings?
Embeddings sao representacoes vetoriais densas de texto, imagem ou outros dados usadas por sistemas modernos de IA para pesquisa, recomendacao e RAG. Embora ja tenham sido considerados opacos, a investigacao mostrou que muitas vezes vazam informacao significativa sobre o texto-fonte. Ataques de inversao de embedding (por exemplo, a familia Vec2Text) reconstroem a frase original a partir do vetor com fidelidade surpreendente, quebrando suposicoes de privacidade para logs de chatbots, notas medicas ou documentos confidenciais em bases vetoriais. Outros ataques incluem envenenamento por similaridade, em que o adversario cria inputs que sequestram os vizinhos mais proximos num corpus RAG, e ataques de inferencia de pertenca contra endpoints de embedding. As defesas incluem cifragem em repouso, controlo de acesso as consultas de similaridade, limites de taxa, reducao de dimensionalidade e o tratamento dos embeddings como dados pessoais para efeitos de privacidade.
Como se defender contra Ataques a embeddings?
As defesas contra Ataques a embeddings costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Ataques a embeddings?
Nomes alternativos comuns: Inversao de embedding, Ataque Vec2Text.
● Termos relacionados
- ai-security№ 1198
Seguranca de bases de dados vetoriais
Conjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain.
- ai-security№ 897
RAG
Retrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- ai-security№ 666
Ataque de inferência de pertença
Ataque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.