Attaque par porte dérobée (ML)
Qu'est-ce que Attaque par porte dérobée (ML) ?
Attaque par porte dérobée (ML)Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.
Les attaques par porte dérobée (ou trojans) ont été popularisées par le papier BadNets de Gu et al. (2017). L'attaquant empoisonne les données d'entraînement, de fine-tuning ou directement les poids du modèle avec des exemples associant un motif déclencheur — autocollant, jeton, filigrane, voire style de frappe — à une étiquette ou un comportement cible. Une fois déployé, le modèle réussit les évaluations car la précision sur données propres est préservée, mais déraille dès que le déclencheur est présenté. Le risque est particulièrement sensible pour les modèles préentraînés distribués sur des hubs publics et pour l'apprentissage fédéré. Les défenses comprennent la traçabilité des données, Neural Cleanse, le fine-pruning, l'analyse de clusters d'activations, l'entraînement adversarial et le chargement de poids issus de sources signées.
● Exemples
- 01
Un classificateur d'images qui étiquette comme "avion" toute photo contenant un petit carré jaune.
- 02
Un LLM fine-tuné avec des données empoisonnées qui émet une charge utile malveillante précise lorsqu'une phrase de contrôle rare apparaît.
● Questions fréquentes
Qu'est-ce que Attaque par porte dérobée (ML) ?
Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Attaque par porte dérobée (ML) ?
Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.
Comment fonctionne Attaque par porte dérobée (ML) ?
Les attaques par porte dérobée (ou trojans) ont été popularisées par le papier BadNets de Gu et al. (2017). L'attaquant empoisonne les données d'entraînement, de fine-tuning ou directement les poids du modèle avec des exemples associant un motif déclencheur — autocollant, jeton, filigrane, voire style de frappe — à une étiquette ou un comportement cible. Une fois déployé, le modèle réussit les évaluations car la précision sur données propres est préservée, mais déraille dès que le déclencheur est présenté. Le risque est particulièrement sensible pour les modèles préentraînés distribués sur des hubs publics et pour l'apprentissage fédéré. Les défenses comprennent la traçabilité des données, Neural Cleanse, le fine-pruning, l'analyse de clusters d'activations, l'entraînement adversarial et le chargement de poids issus de sources signées.
Comment se défendre contre Attaque par porte dérobée (ML) ?
Les défenses contre Attaque par porte dérobée (ML) combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Attaque par porte dérobée (ML) ?
Noms alternatifs courants : Attaque trojan, Attaque BadNets.
● Termes liés
- ai-security№ 281
Empoisonnement de données
Attaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
- ai-security№ 034
Risque de chaîne d'approvisionnement IA
Ensemble de menaces issues des datasets, modèles de base, bibliothèques, plug-ins et infrastructures tiers que les organisations combinent pour construire et déployer des systèmes d'IA.
- ai-security№ 018
Exemple adversarial
Entrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
- ai-security№ 691
MLSecOps
Discipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Inventaire lisible par la machine de chaque composant entrant dans un système d'IA — datasets, modèles de base, données de fine-tuning, bibliothèques, prompts, artefacts d'évaluation — utilisé pour la sécurité, la conformité et la responsabilité.
- ai-security№ 393
Attaque d'évasion (ML)
Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu.