Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 703

Extraction de modèle

Qu'est-ce que Extraction de modèle ?

Extraction de modèleAttaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.


L'extraction de modèle (ou model stealing) traite le modèle déployé comme un oracle. L'attaquant envoie un grand nombre d'entrées soigneusement construites, enregistre les sorties (logits, probabilités, ou simples étiquettes) et entraîne un modèle de substitution qui approxime la victime. Tramèr et al. (2016) ont montré que cela fonctionnait contre des API MLaaS commerciales ; les variantes modernes visent les LLM pour extraire des styles fine-tunés, des prompts système ou même de petites couches denses. Les objectifs incluent le vol de propriété intellectuelle, le contournement d'un usage payant, la fabrication offline d'exemples adversariaux et la récupération de données propriétaires gravées dans les poids. Les défenses comprennent la limitation de débit, la détection d'anomalies sur les motifs d'accès, le watermarking des sorties, le renvoi des seules étiquettes top-k et l'ajout de bruit calibré sur les scores de confiance.

Exemples

  1. 01

    Interroger un classificateur commercial des millions de fois pour entraîner un clone gratuit qui imite ses sorties.

  2. 02

    Reconstruire un prompt système propriétaire en échantillonnant les complétions d'un assistant à base de LLM.

Questions fréquentes

Qu'est-ce que Extraction de modèle ?

Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Extraction de modèle ?

Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.

Comment fonctionne Extraction de modèle ?

L'extraction de modèle (ou model stealing) traite le modèle déployé comme un oracle. L'attaquant envoie un grand nombre d'entrées soigneusement construites, enregistre les sorties (logits, probabilités, ou simples étiquettes) et entraîne un modèle de substitution qui approxime la victime. Tramèr et al. (2016) ont montré que cela fonctionnait contre des API MLaaS commerciales ; les variantes modernes visent les LLM pour extraire des styles fine-tunés, des prompts système ou même de petites couches denses. Les objectifs incluent le vol de propriété intellectuelle, le contournement d'un usage payant, la fabrication offline d'exemples adversariaux et la récupération de données propriétaires gravées dans les poids. Les défenses comprennent la limitation de débit, la détection d'anomalies sur les motifs d'accès, le watermarking des sorties, le renvoi des seules étiquettes top-k et l'ajout de bruit calibré sur les scores de confiance.

Comment se défendre contre Extraction de modèle ?

Les défenses contre Extraction de modèle combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Extraction de modèle ?

Noms alternatifs courants : Vol de modèle, Extraction de fonctionnalité.

Termes liés

Voir aussi