Extraction de modèle
Qu'est-ce que Extraction de modèle ?
Extraction de modèleAttaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.
L'extraction de modèle (ou model stealing) traite le modèle déployé comme un oracle. L'attaquant envoie un grand nombre d'entrées soigneusement construites, enregistre les sorties (logits, probabilités, ou simples étiquettes) et entraîne un modèle de substitution qui approxime la victime. Tramèr et al. (2016) ont montré que cela fonctionnait contre des API MLaaS commerciales ; les variantes modernes visent les LLM pour extraire des styles fine-tunés, des prompts système ou même de petites couches denses. Les objectifs incluent le vol de propriété intellectuelle, le contournement d'un usage payant, la fabrication offline d'exemples adversariaux et la récupération de données propriétaires gravées dans les poids. Les défenses comprennent la limitation de débit, la détection d'anomalies sur les motifs d'accès, le watermarking des sorties, le renvoi des seules étiquettes top-k et l'ajout de bruit calibré sur les scores de confiance.
● Exemples
- 01
Interroger un classificateur commercial des millions de fois pour entraîner un clone gratuit qui imite ses sorties.
- 02
Reconstruire un prompt système propriétaire en échantillonnant les complétions d'un assistant à base de LLM.
● Questions fréquentes
Qu'est-ce que Extraction de modèle ?
Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Extraction de modèle ?
Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.
Comment fonctionne Extraction de modèle ?
L'extraction de modèle (ou model stealing) traite le modèle déployé comme un oracle. L'attaquant envoie un grand nombre d'entrées soigneusement construites, enregistre les sorties (logits, probabilités, ou simples étiquettes) et entraîne un modèle de substitution qui approxime la victime. Tramèr et al. (2016) ont montré que cela fonctionnait contre des API MLaaS commerciales ; les variantes modernes visent les LLM pour extraire des styles fine-tunés, des prompts système ou même de petites couches denses. Les objectifs incluent le vol de propriété intellectuelle, le contournement d'un usage payant, la fabrication offline d'exemples adversariaux et la récupération de données propriétaires gravées dans les poids. Les défenses comprennent la limitation de débit, la détection d'anomalies sur les motifs d'accès, le watermarking des sorties, le renvoi des seules étiquettes top-k et l'ajout de bruit calibré sur les scores de confiance.
Comment se défendre contre Extraction de modèle ?
Les défenses contre Extraction de modèle combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Extraction de modèle ?
Noms alternatifs courants : Vol de modèle, Extraction de fonctionnalité.
● Termes liés
- ai-security№ 704
Inversion de modèle
Attaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.
- ai-security№ 666
Attaque par inférence d'appartenance
Attaque de confidentialité qui détermine si un enregistrement précis faisait partie du jeu d'entraînement d'un modèle de ML, en analysant le comportement du modèle sur cet enregistrement.
- ai-security№ 034
Risque de chaîne d'approvisionnement IA
Ensemble de menaces issues des datasets, modèles de base, bibliothèques, plug-ins et infrastructures tiers que les organisations combinent pour construire et déployer des systèmes d'IA.
- ai-security№ 691
MLSecOps
Discipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 035
Watermarking d'IA
Techniques qui intègrent un signal détectable dans des contenus générés par IA afin de vérifier ultérieurement leur provenance, leur modèle d'origine ou leur appartenance à un jeu d'entraînement.