Attaques sur embeddings
Qu'est-ce que Attaques sur embeddings ?
Attaques sur embeddingsFamille d'attaques contre les vecteurs d'embeddings IA qui recuperent, alterent ou detournent l'entree originale ou sa semantique, incluant l'inversion d'embedding et l'empoisonnement par similarite.
Les embeddings sont des representations vectorielles denses de texte, d'image ou d'autres donnees utilisees par les systemes IA modernes pour la recherche, la recommandation et le RAG. Longtemps consideres comme opaques, les embeddings se sont reveles fuir beaucoup d'informations sur le texte source. Les attaques d'inversion (par exemple la famille Vec2Text) reconstruisent la phrase originale a partir du vecteur avec une fidelite surprenante, mettant a mal les hypotheses de confidentialite pour les logs de chatbot, notes medicales ou documents proprietaires stockes en base vectorielle. D'autres attaques incluent l'empoisonnement par similarite, ou l'attaquant fabrique des entrees qui detournent les voisins les plus proches d'un corpus RAG, et l'inference d'appartenance contre les endpoints d'embedding. Les defenses comprennent le chiffrement au repos, le controle d'acces sur les requetes de similarite, des quotas, la reduction de dimension et le traitement des embeddings comme donnees personnelles selon les regulations.
● Exemples
- 01
Des chercheurs reconstruisent plus de 90 % du contenu de phrases a partir d'embeddings OpenAI via Vec2Text.
- 02
Un document empoisonne est embeddingue pres des requetes RH habituelles et detourne les reponses RAG.
● Questions fréquentes
Qu'est-ce que Attaques sur embeddings ?
Famille d'attaques contre les vecteurs d'embeddings IA qui recuperent, alterent ou detournent l'entree originale ou sa semantique, incluant l'inversion d'embedding et l'empoisonnement par similarite. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Attaques sur embeddings ?
Famille d'attaques contre les vecteurs d'embeddings IA qui recuperent, alterent ou detournent l'entree originale ou sa semantique, incluant l'inversion d'embedding et l'empoisonnement par similarite.
Comment fonctionne Attaques sur embeddings ?
Les embeddings sont des representations vectorielles denses de texte, d'image ou d'autres donnees utilisees par les systemes IA modernes pour la recherche, la recommandation et le RAG. Longtemps consideres comme opaques, les embeddings se sont reveles fuir beaucoup d'informations sur le texte source. Les attaques d'inversion (par exemple la famille Vec2Text) reconstruisent la phrase originale a partir du vecteur avec une fidelite surprenante, mettant a mal les hypotheses de confidentialite pour les logs de chatbot, notes medicales ou documents proprietaires stockes en base vectorielle. D'autres attaques incluent l'empoisonnement par similarite, ou l'attaquant fabrique des entrees qui detournent les voisins les plus proches d'un corpus RAG, et l'inference d'appartenance contre les endpoints d'embedding. Les defenses comprennent le chiffrement au repos, le controle d'acces sur les requetes de similarite, des quotas, la reduction de dimension et le traitement des embeddings comme donnees personnelles selon les regulations.
Comment se défendre contre Attaques sur embeddings ?
Les défenses contre Attaques sur embeddings combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Attaques sur embeddings ?
Noms alternatifs courants : Inversion d'embedding, Attaque Vec2Text.
● Termes liés
- ai-security№ 1198
Securite des bases de donnees vectorielles
Ensemble de controles qui protegent les bases vectorielles utilisees par les systemes IA contre la fuite de donnees, l'empoisonnement, le cross-tenant et les compromissions operationnelles ou de supply chain.
- ai-security№ 897
RAG
Retrieval-Augmented Generation : patron pour LLM qui recupere des documents pertinents depuis un magasin de connaissances au moment de la requete et les injecte dans le prompt pour ancrer la reponse.
- ai-security№ 281
Empoisonnement de données
Attaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
- ai-security№ 666
Attaque par inférence d'appartenance
Attaque de confidentialité qui détermine si un enregistrement précis faisait partie du jeu d'entraînement d'un modèle de ML, en analysant le comportement du modèle sur cet enregistrement.