Attaque d'évasion (ML)
Qu'est-ce que Attaque d'évasion (ML) ?
Attaque d'évasion (ML)Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu.
Les attaques d'évasion interviennent après l'entraînement et le déploiement : l'attaquant ne touche pas au pipeline d'apprentissage mais manipule les requêtes pour passer la détection. La plupart utilisent des exemples adversariaux, mais la famille inclut aussi des tactiques plus simples — malware polymorphe, obfuscation de caractères pour la modération de texte, clonage vocal face à la vérification de locuteur, transformations face au hachage perceptuel. Le rapport NIST AI 100-2 classe l'évasion parmi les quatre principales menaces adversariales ML, aux côtés du poisoning, de la confidentialité et de l'abus. Les défenses comprennent l'entraînement adversarial, l'ingénierie de caractéristiques robuste, la détection multi-modale ou par ensemble, la sanitisation des entrées, la télémétrie sur la dérive de confiance et un contrôle strict des API.
● Exemples
- 01
Un malware obfusqué qu'un classificateur ML statique juge bénin tout en exécutant sa charge utile.
- 02
Un texte truffé d'homoglyphes qui passe un classificateur de toxicité tout en restant identique pour un humain.
● Questions fréquentes
Qu'est-ce que Attaque d'évasion (ML) ?
Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Attaque d'évasion (ML) ?
Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu.
Comment fonctionne Attaque d'évasion (ML) ?
Les attaques d'évasion interviennent après l'entraînement et le déploiement : l'attaquant ne touche pas au pipeline d'apprentissage mais manipule les requêtes pour passer la détection. La plupart utilisent des exemples adversariaux, mais la famille inclut aussi des tactiques plus simples — malware polymorphe, obfuscation de caractères pour la modération de texte, clonage vocal face à la vérification de locuteur, transformations face au hachage perceptuel. Le rapport NIST AI 100-2 classe l'évasion parmi les quatre principales menaces adversariales ML, aux côtés du poisoning, de la confidentialité et de l'abus. Les défenses comprennent l'entraînement adversarial, l'ingénierie de caractéristiques robuste, la détection multi-modale ou par ensemble, la sanitisation des entrées, la télémétrie sur la dérive de confiance et un contrôle strict des API.
Comment se défendre contre Attaque d'évasion (ML) ?
Les défenses contre Attaque d'évasion (ML) combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Attaque d'évasion (ML) ?
Noms alternatifs courants : Attaque en inférence, Évasion de modèle.
● Termes liés
- ai-security№ 018
Exemple adversarial
Entrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
- ai-security№ 081
Attaque par porte dérobée (ML)
Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.
- ai-security№ 691
MLSecOps
Discipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.
- ai-security№ 281
Empoisonnement de données
Attaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.