Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 081

Backdoor-Angriff (ML)

Was ist Backdoor-Angriff (ML)?

Backdoor-Angriff (ML)Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.


Backdoor- bzw. Trojaner-Angriffe wurden durch Gu et al.'s BadNets-Paper (2017) bekannt. Der Angreifer vergiftet Trainings- oder Fine-Tuning-Daten oder die Modellgewichte selbst mit Beispielen, die ein Triggermuster — Aufkleber, Token, Wasserzeichen, sogar Tippstil — mit einem Ziellabel oder Zielverhalten verknüpfen. Nach dem Deployment besteht das Modell Tests, weil die Clean-Accuracy erhalten bleibt; doch sobald der Trigger erscheint, kippt das Verhalten. Besonders kritisch ist das für vortrainierte Modelle aus öffentlichen Hubs und für Federated Learning. Schutz bieten Datenherkunft, Neural Cleanse und Fine-Pruning, Aktivierungs-Cluster-Analyse, adversariales Training und das Laden von Gewichten ausschließlich aus signierten, vertrauenswürdigen Quellen.

Beispiele

  1. 01

    Bildklassifikator, der jedes Foto mit einem kleinen gelben Quadrat als "Flugzeug" labelt — unabhängig vom Inhalt.

  2. 02

    Ein mit vergifteten Daten feinjustiertes LLM, das beim Auftauchen einer seltenen Kontrollphrase eine spezifische schädliche Antwort emittiert.

Häufige Fragen

Was ist Backdoor-Angriff (ML)?

Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Backdoor-Angriff (ML)?

Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.

Wie funktioniert Backdoor-Angriff (ML)?

Backdoor- bzw. Trojaner-Angriffe wurden durch Gu et al.'s BadNets-Paper (2017) bekannt. Der Angreifer vergiftet Trainings- oder Fine-Tuning-Daten oder die Modellgewichte selbst mit Beispielen, die ein Triggermuster — Aufkleber, Token, Wasserzeichen, sogar Tippstil — mit einem Ziellabel oder Zielverhalten verknüpfen. Nach dem Deployment besteht das Modell Tests, weil die Clean-Accuracy erhalten bleibt; doch sobald der Trigger erscheint, kippt das Verhalten. Besonders kritisch ist das für vortrainierte Modelle aus öffentlichen Hubs und für Federated Learning. Schutz bieten Datenherkunft, Neural Cleanse und Fine-Pruning, Aktivierungs-Cluster-Analyse, adversariales Training und das Laden von Gewichten ausschließlich aus signierten, vertrauenswürdigen Quellen.

Wie schützt man sich gegen Backdoor-Angriff (ML)?

Schutzmaßnahmen gegen Backdoor-Angriff (ML) kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Backdoor-Angriff (ML)?

Übliche alternative Bezeichnungen: Trojaner-Angriff, BadNets-Angriff.

Verwandte Begriffe