Backdoor-Angriff (ML)
Was ist Backdoor-Angriff (ML)?
Backdoor-Angriff (ML)Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
Backdoor- bzw. Trojaner-Angriffe wurden durch Gu et al.'s BadNets-Paper (2017) bekannt. Der Angreifer vergiftet Trainings- oder Fine-Tuning-Daten oder die Modellgewichte selbst mit Beispielen, die ein Triggermuster — Aufkleber, Token, Wasserzeichen, sogar Tippstil — mit einem Ziellabel oder Zielverhalten verknüpfen. Nach dem Deployment besteht das Modell Tests, weil die Clean-Accuracy erhalten bleibt; doch sobald der Trigger erscheint, kippt das Verhalten. Besonders kritisch ist das für vortrainierte Modelle aus öffentlichen Hubs und für Federated Learning. Schutz bieten Datenherkunft, Neural Cleanse und Fine-Pruning, Aktivierungs-Cluster-Analyse, adversariales Training und das Laden von Gewichten ausschließlich aus signierten, vertrauenswürdigen Quellen.
● Beispiele
- 01
Bildklassifikator, der jedes Foto mit einem kleinen gelben Quadrat als "Flugzeug" labelt — unabhängig vom Inhalt.
- 02
Ein mit vergifteten Daten feinjustiertes LLM, das beim Auftauchen einer seltenen Kontrollphrase eine spezifische schädliche Antwort emittiert.
● Häufige Fragen
Was ist Backdoor-Angriff (ML)?
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Backdoor-Angriff (ML)?
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
Wie funktioniert Backdoor-Angriff (ML)?
Backdoor- bzw. Trojaner-Angriffe wurden durch Gu et al.'s BadNets-Paper (2017) bekannt. Der Angreifer vergiftet Trainings- oder Fine-Tuning-Daten oder die Modellgewichte selbst mit Beispielen, die ein Triggermuster — Aufkleber, Token, Wasserzeichen, sogar Tippstil — mit einem Ziellabel oder Zielverhalten verknüpfen. Nach dem Deployment besteht das Modell Tests, weil die Clean-Accuracy erhalten bleibt; doch sobald der Trigger erscheint, kippt das Verhalten. Besonders kritisch ist das für vortrainierte Modelle aus öffentlichen Hubs und für Federated Learning. Schutz bieten Datenherkunft, Neural Cleanse und Fine-Pruning, Aktivierungs-Cluster-Analyse, adversariales Training und das Laden von Gewichten ausschließlich aus signierten, vertrauenswürdigen Quellen.
Wie schützt man sich gegen Backdoor-Angriff (ML)?
Schutzmaßnahmen gegen Backdoor-Angriff (ML) kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Backdoor-Angriff (ML)?
Übliche alternative Bezeichnungen: Trojaner-Angriff, BadNets-Angriff.
● Verwandte Begriffe
- ai-security№ 281
Daten-Poisoning
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
- ai-security№ 034
AI-Supply-Chain-Risiko
Summe der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
- ai-security№ 018
Adversariales Beispiel
Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Maschinenlesbares Inventar aller Komponenten eines KI-Systems — Datensätze, Basismodelle, Fine-Tuning-Daten, Bibliotheken, Prompts und Evaluierungsartefakte — für Sicherheit, Compliance und Accountability.
- ai-security№ 393
Evasion-Angriff (ML)
Angriff zur Inferenzzeit, bei dem ein Angreifer Eingaben so gestaltet, dass die beabsichtigte Entscheidung eines bereitgestellten ML-Modells — etwa Malware-Klassifikator oder Inhaltsfilter — umgangen wird.