Inversion de modèle
Qu'est-ce que Inversion de modèle ?
Inversion de modèleAttaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.
L'inversion de modèle vise la confidentialité des données d'entraînement, et non les paramètres du modèle. Fredrikson et al. (2015) ont montré qu'une optimisation par gradient contre un classificateur de reconnaissance faciale pouvait reproduire des images reconnaissables à partir d'étiquettes de classe et de scores de confiance. Les variantes modernes extraient le texte d'entraînement de LLM via des préfixes soigneusement choisis, récupérant noms, e-mails ou documents propriétaires mémorisés. L'attaque est particulièrement efficace contre les modèles surappris ou peu régularisés et les API qui exposent des signaux de confiance détaillés. Les parades incluent la confidentialité différentielle, la minimisation des sorties, la déduplication des données d'entraînement, la régularisation et la non-divulgation des vecteurs de confiance internes.
● Exemples
- 01
Reconstruire un visage reconnaissable à partir des scores de confiance par classe d'un modèle de reconnaissance faciale.
- 02
Interroger un LLM avec un préfixe connu pour récupérer des données personnelles mémorisées dans son corpus.
● Questions fréquentes
Qu'est-ce que Inversion de modèle ?
Attaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Inversion de modèle ?
Attaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.
Comment fonctionne Inversion de modèle ?
L'inversion de modèle vise la confidentialité des données d'entraînement, et non les paramètres du modèle. Fredrikson et al. (2015) ont montré qu'une optimisation par gradient contre un classificateur de reconnaissance faciale pouvait reproduire des images reconnaissables à partir d'étiquettes de classe et de scores de confiance. Les variantes modernes extraient le texte d'entraînement de LLM via des préfixes soigneusement choisis, récupérant noms, e-mails ou documents propriétaires mémorisés. L'attaque est particulièrement efficace contre les modèles surappris ou peu régularisés et les API qui exposent des signaux de confiance détaillés. Les parades incluent la confidentialité différentielle, la minimisation des sorties, la déduplication des données d'entraînement, la régularisation et la non-divulgation des vecteurs de confiance internes.
Comment se défendre contre Inversion de modèle ?
Les défenses contre Inversion de modèle combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Inversion de modèle ?
Noms alternatifs courants : Reconstruction des données d'entraînement, Attaque par inférence d'attributs.
● Termes liés
- ai-security№ 666
Attaque par inférence d'appartenance
Attaque de confidentialité qui détermine si un enregistrement précis faisait partie du jeu d'entraînement d'un modèle de ML, en analysant le comportement du modèle sur cet enregistrement.
- ai-security№ 703
Extraction de modèle
Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.
- ai-security№ 281
Empoisonnement de données
Attaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 027
Gouvernance de l'IA
Ensemble de politiques, processus, rôles et contrôles qu'organisations et régulateurs mobilisent pour garantir un développement, un déploiement et une exploitation responsables et conformes des systèmes d'IA.
- ai-security№ 691
MLSecOps
Discipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.