Membership-Inference-Angriff
Was ist Membership-Inference-Angriff?
Membership-Inference-AngriffPrivacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
Membership Inference wurde von Shokri et al. (2017) formalisiert. Der Angriff nutzt aus, dass ML-Modelle bei während des Trainings gesehenen Beispielen tendenziell höhere Konfidenz zeigen. Der Angreifer fragt das Zielmodell mit einer Kandidatenprobe ab und vergleicht Konfidenz, Loss oder Per-Class-Scores mit Shadow-Modellen, die auf vergleichbaren Daten trainiert wurden. Reiner API-Zugriff genügt oft. Der Angriff ist Baustein größerer Privacy-Bedrohungen: Die Bestätigung, dass eine medizinische Akte, ein Foto oder ein Dokument zum Training verwendet wurde, kann DSGVO, HIPAA oder den EU AI Act verletzen. Schutz bieten Differential Privacy, Regularisierung (z. B. Dropout), Output-Minimierung und sorgfältige Deduplikation der Trainingsdaten.
● Beispiele
- 01
Feststellen, dass die Akte eines bestimmten Patienten ein Krankenhaus-Diagnosemodell trainiert hat, indem Loss-Werte verglichen werden.
- 02
Identifizieren, ob ein urheberrechtlich geschütztes Buch im Pre-Training-Korpus eines LLM enthalten war, über Membership-Tests.
● Häufige Fragen
Was ist Membership-Inference-Angriff?
Privacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Membership-Inference-Angriff?
Privacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
Wie funktioniert Membership-Inference-Angriff?
Membership Inference wurde von Shokri et al. (2017) formalisiert. Der Angriff nutzt aus, dass ML-Modelle bei während des Trainings gesehenen Beispielen tendenziell höhere Konfidenz zeigen. Der Angreifer fragt das Zielmodell mit einer Kandidatenprobe ab und vergleicht Konfidenz, Loss oder Per-Class-Scores mit Shadow-Modellen, die auf vergleichbaren Daten trainiert wurden. Reiner API-Zugriff genügt oft. Der Angriff ist Baustein größerer Privacy-Bedrohungen: Die Bestätigung, dass eine medizinische Akte, ein Foto oder ein Dokument zum Training verwendet wurde, kann DSGVO, HIPAA oder den EU AI Act verletzen. Schutz bieten Differential Privacy, Regularisierung (z. B. Dropout), Output-Minimierung und sorgfältige Deduplikation der Trainingsdaten.
Wie schützt man sich gegen Membership-Inference-Angriff?
Schutzmaßnahmen gegen Membership-Inference-Angriff kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Membership-Inference-Angriff?
Übliche alternative Bezeichnungen: MIA, Trainingsdaten-Mitgliedschaftsangriff.
● Verwandte Begriffe
- ai-security№ 704
Modell-Inversion
Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
- ai-security№ 703
Modell-Extraktion
Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
- ai-security№ 281
Daten-Poisoning
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
- ai-security№ 027
KI-Governance
Richtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
● Siehe auch
- № 376Embedding-Angriffe