Backdoor-Angriff (ML)
Was ist Backdoor-Angriff (ML)?
Backdoor-Angriff (ML)Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
Backdoor- bzw. Trojaner-Angriffe wurden durch Gu et al.'s BadNets-Paper (2017) bekannt. Der Angreifer vergiftet Trainings- oder Fine-Tuning-Daten oder die Modellgewichte selbst mit Beispielen, die ein Triggermuster — Aufkleber, Token, Wasserzeichen, sogar Tippstil — mit einem Ziellabel oder Zielverhalten verknüpfen. Nach dem Deployment besteht das Modell Tests, weil die Clean-Accuracy erhalten bleibt; doch sobald der Trigger erscheint, kippt das Verhalten. Besonders kritisch ist das für vortrainierte Modelle aus öffentlichen Hubs und für Federated Learning. Schutz bieten Datenherkunft, Neural Cleanse und Fine-Pruning, Aktivierungs-Cluster-Analyse, adversariales Training und das Laden von Gewichten ausschließlich aus signierten, vertrauenswürdigen Quellen.
● Beispiele
- 01
Bildklassifikator, der jedes Foto mit einem kleinen gelben Quadrat als "Flugzeug" labelt — unabhängig vom Inhalt.
- 02
Ein mit vergifteten Daten feinjustiertes LLM, das beim Auftauchen einer seltenen Kontrollphrase eine spezifische schädliche Antwort emittiert.
● Häufige Fragen
Was ist Backdoor-Angriff (ML)?
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Backdoor-Angriff (ML)?
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
Wie schützt man sich gegen Backdoor-Angriff (ML)?
Schutzmaßnahmen gegen Backdoor-Angriff (ML) kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Backdoor-Angriff (ML)?
Übliche alternative Bezeichnungen: Trojaner-Angriff, BadNets-Angriff.