Seguranca de bases de dados vetoriais
O que é Seguranca de bases de dados vetoriais?
Seguranca de bases de dados vetoriaisConjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain.
As bases vetoriais como Pinecone, Weaviate, Milvus, Qdrant, Chroma ou a extensao pgvector para PostgreSQL armazenam os embeddings que sustentam RAG, pesquisa semantica, recomendacoes e agentes de IA. O modelo de seguranca assemelha-se a uma base de dados classica, mas introduz preocupacoes novas. Os vetores podem ser invertidos para revelar texto-fonte, consultas de similaridade repetidas podem exfiltrar conteudo sensivel, indices multi-tenant podem vazar entre clientes quando as regras de filtragem falham e o corpus pode ser envenenado para influenciar as saidas do modelo. Boas praticas incluem cifragem em repouso e em transito, autenticacao e autorizacao finas, filtragem por namespace e metadados, logs de auditoria das consultas, validacao de conteudo na ingestao e tratamento dos embeddings como potencialmente dados pessoais.
● Exemplos
- 01
Uma instancia pgvector aplica RLS do Postgres para cada tenant ver apenas os seus embeddings.
- 02
Namespaces do Pinecone e scoping das chaves de API impedem fugas de similaridade entre tenants.
● Perguntas frequentes
O que é Seguranca de bases de dados vetoriais?
Conjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Seguranca de bases de dados vetoriais?
Conjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain.
Como funciona Seguranca de bases de dados vetoriais?
As bases vetoriais como Pinecone, Weaviate, Milvus, Qdrant, Chroma ou a extensao pgvector para PostgreSQL armazenam os embeddings que sustentam RAG, pesquisa semantica, recomendacoes e agentes de IA. O modelo de seguranca assemelha-se a uma base de dados classica, mas introduz preocupacoes novas. Os vetores podem ser invertidos para revelar texto-fonte, consultas de similaridade repetidas podem exfiltrar conteudo sensivel, indices multi-tenant podem vazar entre clientes quando as regras de filtragem falham e o corpus pode ser envenenado para influenciar as saidas do modelo. Boas praticas incluem cifragem em repouso e em transito, autenticacao e autorizacao finas, filtragem por namespace e metadados, logs de auditoria das consultas, validacao de conteudo na ingestao e tratamento dos embeddings como potencialmente dados pessoais.
Como se defender contra Seguranca de bases de dados vetoriais?
As defesas contra Seguranca de bases de dados vetoriais costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Seguranca de bases de dados vetoriais?
Nomes alternativos comuns: Seguranca de vector store, Hardening de bases vetoriais.
● Termos relacionados
- ai-security№ 897
RAG
Retrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta.
- ai-security№ 376
Ataques a embeddings
Classe de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- cryptography№ 379
Criptografia (Cifragem)
Transformação criptográfica de texto claro em texto cifrado por meio de um algoritmo e uma chave, de modo que apenas partes autorizadas possam recuperar os dados originais.