Attaque Adversariale Transferable
Qu'est-ce que Attaque Adversariale Transferable ?
Attaque Adversariale TransferableAttaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible.
Une attaque adversariale transferable exploite l'observation empirique, systematisee par Papernot, McDaniel et Goodfellow, selon laquelle les exemples adversariaux generes contre un modele restent souvent mal classes par d'autres modeles entraines sur des donnees similaires. L'attaquant entraine localement un modele substitut, fabrique des entrees adversariales avec des methodes boite blanche comme FGSM ou PGD, puis les soumet a une cible distante en boite noire sans acces interne. La transferabilite a ete demontree contre des classificateurs d'images, des detecteurs de malware, des modeles NLP et des API commerciales. Les defenses incluent l'entrainement adversarial sur perturbations diverses, des transformations d'entree, des detecteurs fondes sur le desaccord d'ensembles et des methodes de robustesse certifiee comme le lissage aleatoire.
● Exemples
- 01
Un attaquant entraine localement un CNN substitut et fabrique des exemples FGSM qui contournent aussi une API distante de moderation d'images.
- 02
Des echantillons de malware adversariaux generes contre un classifieur open source contournent egalement plusieurs antivirus commerciaux a base de ML.
● Questions fréquentes
Qu'est-ce que Attaque Adversariale Transferable ?
Attaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Attaque Adversariale Transferable ?
Attaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible.
Comment fonctionne Attaque Adversariale Transferable ?
Une attaque adversariale transferable exploite l'observation empirique, systematisee par Papernot, McDaniel et Goodfellow, selon laquelle les exemples adversariaux generes contre un modele restent souvent mal classes par d'autres modeles entraines sur des donnees similaires. L'attaquant entraine localement un modele substitut, fabrique des entrees adversariales avec des methodes boite blanche comme FGSM ou PGD, puis les soumet a une cible distante en boite noire sans acces interne. La transferabilite a ete demontree contre des classificateurs d'images, des detecteurs de malware, des modeles NLP et des API commerciales. Les defenses incluent l'entrainement adversarial sur perturbations diverses, des transformations d'entree, des detecteurs fondes sur le desaccord d'ensembles et des methodes de robustesse certifiee comme le lissage aleatoire.
Comment se défendre contre Attaque Adversariale Transferable ?
Les défenses contre Attaque Adversariale Transferable combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Attaque Adversariale Transferable ?
Noms alternatifs courants : Transfert adversarial entre modeles, Attaque par transfert en boite noire.
● Termes liés
- ai-security№ 018
Exemple adversarial
Entrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
- ai-security№ 014
Attaque Adaptative
Attaque sur un systeme de machine learning specifiquement concue pour contourner ou casser une defense connue, plutot qu'utiliser une technique generique.
- ai-security№ 703
Extraction de modèle
Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.