Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1168

Attaque Adversariale Transferable

Qu'est-ce que Attaque Adversariale Transferable ?

Attaque Adversariale TransferableAttaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible.


Une attaque adversariale transferable exploite l'observation empirique, systematisee par Papernot, McDaniel et Goodfellow, selon laquelle les exemples adversariaux generes contre un modele restent souvent mal classes par d'autres modeles entraines sur des donnees similaires. L'attaquant entraine localement un modele substitut, fabrique des entrees adversariales avec des methodes boite blanche comme FGSM ou PGD, puis les soumet a une cible distante en boite noire sans acces interne. La transferabilite a ete demontree contre des classificateurs d'images, des detecteurs de malware, des modeles NLP et des API commerciales. Les defenses incluent l'entrainement adversarial sur perturbations diverses, des transformations d'entree, des detecteurs fondes sur le desaccord d'ensembles et des methodes de robustesse certifiee comme le lissage aleatoire.

Exemples

  1. 01

    Un attaquant entraine localement un CNN substitut et fabrique des exemples FGSM qui contournent aussi une API distante de moderation d'images.

  2. 02

    Des echantillons de malware adversariaux generes contre un classifieur open source contournent egalement plusieurs antivirus commerciaux a base de ML.

Questions fréquentes

Qu'est-ce que Attaque Adversariale Transferable ?

Attaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.

Que signifie Attaque Adversariale Transferable ?

Attaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible.

Comment fonctionne Attaque Adversariale Transferable ?

Une attaque adversariale transferable exploite l'observation empirique, systematisee par Papernot, McDaniel et Goodfellow, selon laquelle les exemples adversariaux generes contre un modele restent souvent mal classes par d'autres modeles entraines sur des donnees similaires. L'attaquant entraine localement un modele substitut, fabrique des entrees adversariales avec des methodes boite blanche comme FGSM ou PGD, puis les soumet a une cible distante en boite noire sans acces interne. La transferabilite a ete demontree contre des classificateurs d'images, des detecteurs de malware, des modeles NLP et des API commerciales. Les defenses incluent l'entrainement adversarial sur perturbations diverses, des transformations d'entree, des detecteurs fondes sur le desaccord d'ensembles et des methodes de robustesse certifiee comme le lissage aleatoire.

Comment se défendre contre Attaque Adversariale Transferable ?

Les défenses contre Attaque Adversariale Transferable combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de Attaque Adversariale Transferable ?

Noms alternatifs courants : Transfert adversarial entre modeles, Attaque par transfert en boite noire.

Termes liés