Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 018

Adversariales Beispiel

Was ist Adversariales Beispiel?

Adversariales BeispielEine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.


Adversariale Beispiele wurden von Szegedy et al. (2013) und Goodfellows FGSM-Papier (2014) bekannt: winzige Pixelstörungen brachten Top-Klassifikatoren dazu, mit hoher Konfidenz falsch zu klassifizieren. Sie werden meist per gradientenbasierter Optimierung (FGSM, PGD, Carlini-Wagner) oder per Black-Box-Queries erzeugt; sie übertragen sich zwischen Modellen, sodass Angriffe ohne internen Zugriff möglich sind. Über Bilder hinaus existieren sie für Text, Audio, Code und Malware-Detektoren und bilden die Grundlage der meisten Evasion-Angriffe im Betrieb. Schutz bieten adversariales Training, zertifizierte Robustheit (Randomized Smoothing), Eingabe-Preprocessing, Ensembles und Laufzeit-Anomalie-Erkennung — eine vollständige Robustheit in hohen Dimensionen ist bislang nicht erreichbar.

Beispiele

  1. 01

    Ein Stoppschild mit gezielt entworfenen Aufklebern, das ein Autopilot-Klassifikator als Tempolimit liest.

  2. 02

    Ein Audioclip, der wie Hintergrundrauschen klingt, vom Sprachassistent aber als bösartiger Befehl transkribiert wird.

Häufige Fragen

Was ist Adversariales Beispiel?

Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Adversariales Beispiel?

Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.

Wie funktioniert Adversariales Beispiel?

Adversariale Beispiele wurden von Szegedy et al. (2013) und Goodfellows FGSM-Papier (2014) bekannt: winzige Pixelstörungen brachten Top-Klassifikatoren dazu, mit hoher Konfidenz falsch zu klassifizieren. Sie werden meist per gradientenbasierter Optimierung (FGSM, PGD, Carlini-Wagner) oder per Black-Box-Queries erzeugt; sie übertragen sich zwischen Modellen, sodass Angriffe ohne internen Zugriff möglich sind. Über Bilder hinaus existieren sie für Text, Audio, Code und Malware-Detektoren und bilden die Grundlage der meisten Evasion-Angriffe im Betrieb. Schutz bieten adversariales Training, zertifizierte Robustheit (Randomized Smoothing), Eingabe-Preprocessing, Ensembles und Laufzeit-Anomalie-Erkennung — eine vollständige Robustheit in hohen Dimensionen ist bislang nicht erreichbar.

Wie schützt man sich gegen Adversariales Beispiel?

Schutzmaßnahmen gegen Adversariales Beispiel kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Adversariales Beispiel?

Übliche alternative Bezeichnungen: Adversariale Eingabe, Adversariale Störung.

Verwandte Begriffe

Siehe auch