Daten-Poisoning

Geprüft vonFlorian AmetteCybersecurity entrepreneur & security researcher

Was ist Daten-Poisoning?

Daten-PoisoningAngriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.

Daten-Poisoning zielt auf die Trainingsphase des ML-Lebenszyklus. Angreifer manipulieren Datensätze — öffentliche Web-Crawls, Crowdsourcing-Labels, Fine-Tuning-Korpora oder Feedback-Logs —, um das Modell zu verzerren, die Genauigkeit zu senken oder triggerbasiertes Verhalten einzupflanzen. Carlini et al. zeigten 2023, dass bereits winzige Anteile vergifteter Webdaten große Pre-Training-Korpora kompromittieren können. Varianten sind Verfügbarkeitsangriffe (allgemeine Genauigkeitsdegradation), gezielte Angriffe (spezifische Fehlklassifikationen) und Backdoor-Angriffe (durch einen Trigger aktiviert). Schutz bieten Datensatzherkunft und Signaturen, Deduplikation, Anomalie-Erkennung auf Trainingsdaten, robuste Lernalgorithmen und kontinuierliche Tests mit adversariellen Benchmarks.

● Beispiele

01
Ein Angreifer bearbeitet Wikipedia oder verfallene Domains, damit der vergiftete Text in ein zukünftiges Pre-Training-Korpus gecrawlt wird.
02
Ein böswilliger Contributor reicht falsch gelabelte Beispiele bei einem Open-Source-Bildklassifikations-Datensatz ein.

● Häufige Fragen

Was ist Daten-Poisoning?

Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Daten-Poisoning?

Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.

Wie schützt man sich gegen Daten-Poisoning?

Schutzmaßnahmen gegen Daten-Poisoning kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Daten-Poisoning?

Übliche alternative Bezeichnungen: Trainingsdaten-Poisoning, Datensatz-Poisoning.

Daten-Poisoning

Was ist Daten-Poisoning?

● Beispiele

● Häufige Fragen

● Verwandte Begriffe

● Siehe auch