Modell-Inversion
Was ist Modell-Inversion?
Modell-InversionPrivacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
Modell-Inversion zielt auf die Vertraulichkeit der Trainingsdaten, nicht auf die Modellparameter. Fredrikson et al. (2015) zeigten, dass eine gradientenbasierte Optimierung gegen einen Gesichtserkennungs-Klassifikator aus Klassenlabels und Konfidenzwerten erkennbare Trainingsbilder rekonstruieren kann. Moderne Varianten extrahieren Trainingstext aus LLMs durch gezielt gewählte Präfixe und gewinnen Namen, E-Mails oder proprietäre Dokumente zurück, die das Modell auswendig gelernt hat. Besonders wirksam ist der Angriff gegen überangepasste oder unzureichend regularisierte Modelle und APIs, die feingranulare Konfidenzsignale offenlegen. Schutz bieten Differential Privacy beim Training, minimierte Ausgaben, Deduplikation der Trainingsdaten, Regularisierung und das Zurückhalten interner Konfidenzvektoren.
● Beispiele
- 01
Rekonstruktion eines erkennbaren Gesichts aus den klassenweisen Konfidenzwerten eines Gesichtserkennungs-Modells.
- 02
Mit einem bekannten Präfix an einen LLM herantreten und memorierte personenbezogene Daten aus dem Trainingskorpus zurückholen.
● Häufige Fragen
Was ist Modell-Inversion?
Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Modell-Inversion?
Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
Wie funktioniert Modell-Inversion?
Modell-Inversion zielt auf die Vertraulichkeit der Trainingsdaten, nicht auf die Modellparameter. Fredrikson et al. (2015) zeigten, dass eine gradientenbasierte Optimierung gegen einen Gesichtserkennungs-Klassifikator aus Klassenlabels und Konfidenzwerten erkennbare Trainingsbilder rekonstruieren kann. Moderne Varianten extrahieren Trainingstext aus LLMs durch gezielt gewählte Präfixe und gewinnen Namen, E-Mails oder proprietäre Dokumente zurück, die das Modell auswendig gelernt hat. Besonders wirksam ist der Angriff gegen überangepasste oder unzureichend regularisierte Modelle und APIs, die feingranulare Konfidenzsignale offenlegen. Schutz bieten Differential Privacy beim Training, minimierte Ausgaben, Deduplikation der Trainingsdaten, Regularisierung und das Zurückhalten interner Konfidenzvektoren.
Wie schützt man sich gegen Modell-Inversion?
Schutzmaßnahmen gegen Modell-Inversion kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Modell-Inversion?
Übliche alternative Bezeichnungen: Trainingsdaten-Rekonstruktion, Attribut-Inferenzangriff.
● Verwandte Begriffe
- ai-security№ 666
Membership-Inference-Angriff
Privacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
- ai-security№ 703
Modell-Extraktion
Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
- ai-security№ 281
Daten-Poisoning
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 027
KI-Governance
Richtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.