Adversariales Beispiel
Was ist Adversariales Beispiel?
Adversariales BeispielEine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
Adversariale Beispiele wurden von Szegedy et al. (2013) und Goodfellows FGSM-Papier (2014) bekannt: winzige Pixelstörungen brachten Top-Klassifikatoren dazu, mit hoher Konfidenz falsch zu klassifizieren. Sie werden meist per gradientenbasierter Optimierung (FGSM, PGD, Carlini-Wagner) oder per Black-Box-Queries erzeugt; sie übertragen sich zwischen Modellen, sodass Angriffe ohne internen Zugriff möglich sind. Über Bilder hinaus existieren sie für Text, Audio, Code und Malware-Detektoren und bilden die Grundlage der meisten Evasion-Angriffe im Betrieb. Schutz bieten adversariales Training, zertifizierte Robustheit (Randomized Smoothing), Eingabe-Preprocessing, Ensembles und Laufzeit-Anomalie-Erkennung — eine vollständige Robustheit in hohen Dimensionen ist bislang nicht erreichbar.
● Beispiele
- 01
Ein Stoppschild mit gezielt entworfenen Aufklebern, das ein Autopilot-Klassifikator als Tempolimit liest.
- 02
Ein Audioclip, der wie Hintergrundrauschen klingt, vom Sprachassistent aber als bösartiger Befehl transkribiert wird.
● Häufige Fragen
Was ist Adversariales Beispiel?
Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Adversariales Beispiel?
Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
Wie funktioniert Adversariales Beispiel?
Adversariale Beispiele wurden von Szegedy et al. (2013) und Goodfellows FGSM-Papier (2014) bekannt: winzige Pixelstörungen brachten Top-Klassifikatoren dazu, mit hoher Konfidenz falsch zu klassifizieren. Sie werden meist per gradientenbasierter Optimierung (FGSM, PGD, Carlini-Wagner) oder per Black-Box-Queries erzeugt; sie übertragen sich zwischen Modellen, sodass Angriffe ohne internen Zugriff möglich sind. Über Bilder hinaus existieren sie für Text, Audio, Code und Malware-Detektoren und bilden die Grundlage der meisten Evasion-Angriffe im Betrieb. Schutz bieten adversariales Training, zertifizierte Robustheit (Randomized Smoothing), Eingabe-Preprocessing, Ensembles und Laufzeit-Anomalie-Erkennung — eine vollständige Robustheit in hohen Dimensionen ist bislang nicht erreichbar.
Wie schützt man sich gegen Adversariales Beispiel?
Schutzmaßnahmen gegen Adversariales Beispiel kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Adversariales Beispiel?
Übliche alternative Bezeichnungen: Adversariale Eingabe, Adversariale Störung.
● Verwandte Begriffe
- ai-security№ 393
Evasion-Angriff (ML)
Angriff zur Inferenzzeit, bei dem ein Angreifer Eingaben so gestaltet, dass die beabsichtigte Entscheidung eines bereitgestellten ML-Modells — etwa Malware-Klassifikator oder Inhaltsfilter — umgangen wird.
- ai-security№ 081
Backdoor-Angriff (ML)
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
- ai-security№ 032
KI-Red-Team
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- ai-security№ 281
Daten-Poisoning
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.