Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 704

Modell-Inversion

Was ist Modell-Inversion?

Modell-InversionPrivacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.


Modell-Inversion zielt auf die Vertraulichkeit der Trainingsdaten, nicht auf die Modellparameter. Fredrikson et al. (2015) zeigten, dass eine gradientenbasierte Optimierung gegen einen Gesichtserkennungs-Klassifikator aus Klassenlabels und Konfidenzwerten erkennbare Trainingsbilder rekonstruieren kann. Moderne Varianten extrahieren Trainingstext aus LLMs durch gezielt gewählte Präfixe und gewinnen Namen, E-Mails oder proprietäre Dokumente zurück, die das Modell auswendig gelernt hat. Besonders wirksam ist der Angriff gegen überangepasste oder unzureichend regularisierte Modelle und APIs, die feingranulare Konfidenzsignale offenlegen. Schutz bieten Differential Privacy beim Training, minimierte Ausgaben, Deduplikation der Trainingsdaten, Regularisierung und das Zurückhalten interner Konfidenzvektoren.

Beispiele

  1. 01

    Rekonstruktion eines erkennbaren Gesichts aus den klassenweisen Konfidenzwerten eines Gesichtserkennungs-Modells.

  2. 02

    Mit einem bekannten Präfix an einen LLM herantreten und memorierte personenbezogene Daten aus dem Trainingskorpus zurückholen.

Häufige Fragen

Was ist Modell-Inversion?

Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Modell-Inversion?

Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.

Wie funktioniert Modell-Inversion?

Modell-Inversion zielt auf die Vertraulichkeit der Trainingsdaten, nicht auf die Modellparameter. Fredrikson et al. (2015) zeigten, dass eine gradientenbasierte Optimierung gegen einen Gesichtserkennungs-Klassifikator aus Klassenlabels und Konfidenzwerten erkennbare Trainingsbilder rekonstruieren kann. Moderne Varianten extrahieren Trainingstext aus LLMs durch gezielt gewählte Präfixe und gewinnen Namen, E-Mails oder proprietäre Dokumente zurück, die das Modell auswendig gelernt hat. Besonders wirksam ist der Angriff gegen überangepasste oder unzureichend regularisierte Modelle und APIs, die feingranulare Konfidenzsignale offenlegen. Schutz bieten Differential Privacy beim Training, minimierte Ausgaben, Deduplikation der Trainingsdaten, Regularisierung und das Zurückhalten interner Konfidenzvektoren.

Wie schützt man sich gegen Modell-Inversion?

Schutzmaßnahmen gegen Modell-Inversion kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Modell-Inversion?

Übliche alternative Bezeichnungen: Trainingsdaten-Rekonstruktion, Attribut-Inferenzangriff.

Verwandte Begriffe