Exemple adversarial
Qu'est-ce que Exemple adversarial ?
Exemple adversarialEntrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
Les exemples adversariaux ont été mis en évidence par Szegedy et al. (2013) puis par l'article FGSM de Goodfellow et al. (2014), qui montrait que de minuscules perturbations au niveau du pixel suffisaient à tromper des classificateurs d'images de pointe avec une grande confiance. Ils sont généralement fabriqués par optimisation gradientielle (FGSM, PGD, Carlini-Wagner) ou par requêtes en boîte noire ; ils se transfèrent entre modèles, ce qui permet des attaques sans accès interne. On en trouve aussi pour le texte, l'audio, le code et les détecteurs de malware. Ils sous-tendent la plupart des attaques d'évasion en production. Les parades comprennent l'entraînement adversarial, la robustesse certifiée (randomized smoothing), le prétraitement des entrées, les ensembles et la détection d'anomalies — aucune ne garantissant une robustesse totale en haute dimension.
● Exemples
- 01
Un panneau stop couvert d'autocollants soigneusement conçus, lu comme un panneau de limitation de vitesse par un classificateur d'aide à la conduite.
- 02
Un extrait audio indiscernable d'un bruit de fond qu'un ASR d'assistant vocal transcrit en commande malveillante.
● Questions fréquentes
Qu'est-ce que Exemple adversarial ?
Entrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Exemple adversarial ?
Entrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
Comment fonctionne Exemple adversarial ?
Les exemples adversariaux ont été mis en évidence par Szegedy et al. (2013) puis par l'article FGSM de Goodfellow et al. (2014), qui montrait que de minuscules perturbations au niveau du pixel suffisaient à tromper des classificateurs d'images de pointe avec une grande confiance. Ils sont généralement fabriqués par optimisation gradientielle (FGSM, PGD, Carlini-Wagner) ou par requêtes en boîte noire ; ils se transfèrent entre modèles, ce qui permet des attaques sans accès interne. On en trouve aussi pour le texte, l'audio, le code et les détecteurs de malware. Ils sous-tendent la plupart des attaques d'évasion en production. Les parades comprennent l'entraînement adversarial, la robustesse certifiée (randomized smoothing), le prétraitement des entrées, les ensembles et la détection d'anomalies — aucune ne garantissant une robustesse totale en haute dimension.
Comment se défendre contre Exemple adversarial ?
Les défenses contre Exemple adversarial combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Exemple adversarial ?
Noms alternatifs courants : Entrée adversariale, Perturbation adversariale.
● Termes liés
- ai-security№ 393
Attaque d'évasion (ML)
Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu.
- ai-security№ 081
Attaque par porte dérobée (ML)
Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.
- ai-security№ 691
MLSecOps
Discipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.
- ai-security№ 281
Empoisonnement de données
Attaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.