Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 081

Attaque par porte dérobée (ML)

Qu'est-ce que Attaque par porte dérobée (ML) ?

Attaque par porte dérobée (ML)Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.


Les attaques par porte dérobée (ou trojans) ont été popularisées par le papier BadNets de Gu et al. (2017). L'attaquant empoisonne les données d'entraînement, de fine-tuning ou directement les poids du modèle avec des exemples associant un motif déclencheur — autocollant, jeton, filigrane, voire style de frappe — à une étiquette ou un comportement cible. Une fois déployé, le modèle réussit les évaluations car la précision sur données propres est préservée, mais déraille dès que le déclencheur est présenté. Le risque est particulièrement sensible pour les modèles préentraînés distribués sur des hubs publics et pour l'apprentissage fédéré. Les défenses comprennent la traçabilité des données, Neural Cleanse, le fine-pruning, l'analyse de clusters d'activations, l'entraînement adversarial et le chargement de poids issus de sources signées.

Exemples

  1. 01

    Un classificateur d'images qui étiquette comme "avion" toute photo contenant un petit carré jaune.

  2. 02

    Un LLM fine-tuné avec des données empoisonnées qui émet une charge utile malveillante précise lorsqu'une phrase de contrôle rare apparaît.

Questions fréquentes

Qu'est-ce que Attaque par porte dérobée (ML) ?

Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Attaque par porte dérobée (ML) ?

Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.

Comment fonctionne Attaque par porte dérobée (ML) ?

Les attaques par porte dérobée (ou trojans) ont été popularisées par le papier BadNets de Gu et al. (2017). L'attaquant empoisonne les données d'entraînement, de fine-tuning ou directement les poids du modèle avec des exemples associant un motif déclencheur — autocollant, jeton, filigrane, voire style de frappe — à une étiquette ou un comportement cible. Une fois déployé, le modèle réussit les évaluations car la précision sur données propres est préservée, mais déraille dès que le déclencheur est présenté. Le risque est particulièrement sensible pour les modèles préentraînés distribués sur des hubs publics et pour l'apprentissage fédéré. Les défenses comprennent la traçabilité des données, Neural Cleanse, le fine-pruning, l'analyse de clusters d'activations, l'entraînement adversarial et le chargement de poids issus de sources signées.

Comment se défendre contre Attaque par porte dérobée (ML) ?

Les défenses contre Attaque par porte dérobée (ML) combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Attaque par porte dérobée (ML) ?

Noms alternatifs courants : Attaque trojan, Attaque BadNets.

Termes liés