Daten-Poisoning
Was ist Daten-Poisoning?
Daten-PoisoningAngriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
Daten-Poisoning zielt auf die Trainingsphase des ML-Lebenszyklus. Angreifer manipulieren Datensätze — öffentliche Web-Crawls, Crowdsourcing-Labels, Fine-Tuning-Korpora oder Feedback-Logs —, um das Modell zu verzerren, die Genauigkeit zu senken oder triggerbasiertes Verhalten einzupflanzen. Carlini et al. zeigten 2023, dass bereits winzige Anteile vergifteter Webdaten große Pre-Training-Korpora kompromittieren können. Varianten sind Verfügbarkeitsangriffe (allgemeine Genauigkeitsdegradation), gezielte Angriffe (spezifische Fehlklassifikationen) und Backdoor-Angriffe (durch einen Trigger aktiviert). Schutz bieten Datensatzherkunft und Signaturen, Deduplikation, Anomalie-Erkennung auf Trainingsdaten, robuste Lernalgorithmen und kontinuierliche Tests mit adversariellen Benchmarks.
● Beispiele
- 01
Ein Angreifer bearbeitet Wikipedia oder verfallene Domains, damit der vergiftete Text in ein zukünftiges Pre-Training-Korpus gecrawlt wird.
- 02
Ein böswilliger Contributor reicht falsch gelabelte Beispiele bei einem Open-Source-Bildklassifikations-Datensatz ein.
● Häufige Fragen
Was ist Daten-Poisoning?
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Daten-Poisoning?
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
Wie funktioniert Daten-Poisoning?
Daten-Poisoning zielt auf die Trainingsphase des ML-Lebenszyklus. Angreifer manipulieren Datensätze — öffentliche Web-Crawls, Crowdsourcing-Labels, Fine-Tuning-Korpora oder Feedback-Logs —, um das Modell zu verzerren, die Genauigkeit zu senken oder triggerbasiertes Verhalten einzupflanzen. Carlini et al. zeigten 2023, dass bereits winzige Anteile vergifteter Webdaten große Pre-Training-Korpora kompromittieren können. Varianten sind Verfügbarkeitsangriffe (allgemeine Genauigkeitsdegradation), gezielte Angriffe (spezifische Fehlklassifikationen) und Backdoor-Angriffe (durch einen Trigger aktiviert). Schutz bieten Datensatzherkunft und Signaturen, Deduplikation, Anomalie-Erkennung auf Trainingsdaten, robuste Lernalgorithmen und kontinuierliche Tests mit adversariellen Benchmarks.
Wie schützt man sich gegen Daten-Poisoning?
Schutzmaßnahmen gegen Daten-Poisoning kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Daten-Poisoning?
Übliche alternative Bezeichnungen: Trainingsdaten-Poisoning, Datensatz-Poisoning.
● Verwandte Begriffe
- ai-security№ 081
Backdoor-Angriff (ML)
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
- ai-security№ 034
AI-Supply-Chain-Risiko
Summe der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
- ai-security№ 729
Nightshade-Angriff
Daten-Poisoning-Technik des Glaze-Teams der University of Chicago, die unmerkliche Störungen in Bilder einbringt, sodass Text-zu-Bild-Modelle, die damit trainiert werden, stark verzerrte Konzepte lernen.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- ai-security№ 018
Adversariales Beispiel
Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
● Siehe auch
- № 704Modell-Inversion
- № 393Evasion-Angriff (ML)
- № 666Membership-Inference-Angriff
- № 1026Shadow AI
- № 025AI Bill of Materials (AIBOM)
- № 898RAG-Security
- № 897RAG
- № 376Embedding-Angriffe