Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 704

Inversion de modèle

Qu'est-ce que Inversion de modèle ?

Inversion de modèleAttaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.


L'inversion de modèle vise la confidentialité des données d'entraînement, et non les paramètres du modèle. Fredrikson et al. (2015) ont montré qu'une optimisation par gradient contre un classificateur de reconnaissance faciale pouvait reproduire des images reconnaissables à partir d'étiquettes de classe et de scores de confiance. Les variantes modernes extraient le texte d'entraînement de LLM via des préfixes soigneusement choisis, récupérant noms, e-mails ou documents propriétaires mémorisés. L'attaque est particulièrement efficace contre les modèles surappris ou peu régularisés et les API qui exposent des signaux de confiance détaillés. Les parades incluent la confidentialité différentielle, la minimisation des sorties, la déduplication des données d'entraînement, la régularisation et la non-divulgation des vecteurs de confiance internes.

Exemples

  1. 01

    Reconstruire un visage reconnaissable à partir des scores de confiance par classe d'un modèle de reconnaissance faciale.

  2. 02

    Interroger un LLM avec un préfixe connu pour récupérer des données personnelles mémorisées dans son corpus.

Questions fréquentes

Qu'est-ce que Inversion de modèle ?

Attaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Inversion de modèle ?

Attaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.

Comment fonctionne Inversion de modèle ?

L'inversion de modèle vise la confidentialité des données d'entraînement, et non les paramètres du modèle. Fredrikson et al. (2015) ont montré qu'une optimisation par gradient contre un classificateur de reconnaissance faciale pouvait reproduire des images reconnaissables à partir d'étiquettes de classe et de scores de confiance. Les variantes modernes extraient le texte d'entraînement de LLM via des préfixes soigneusement choisis, récupérant noms, e-mails ou documents propriétaires mémorisés. L'attaque est particulièrement efficace contre les modèles surappris ou peu régularisés et les API qui exposent des signaux de confiance détaillés. Les parades incluent la confidentialité différentielle, la minimisation des sorties, la déduplication des données d'entraînement, la régularisation et la non-divulgation des vecteurs de confiance internes.

Comment se défendre contre Inversion de modèle ?

Les défenses contre Inversion de modèle combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Inversion de modèle ?

Noms alternatifs courants : Reconstruction des données d'entraînement, Attaque par inférence d'attributs.

Termes liés