Modell-Extraktion

Geprüft vonFlorian AmetteCybersecurity entrepreneur & security researcher

Was ist Modell-Extraktion?

Modell-ExtraktionAngriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.

Modell-Extraktion (Model Stealing) behandelt das bereitgestellte Modell wie ein Orakel. Der Angreifer sendet eine große Zahl gezielt konstruierter Eingaben, protokolliert die Ausgaben (Logits, Wahrscheinlichkeiten oder reine Labels) und trainiert ein Surrogat-Modell, das das Opfer annähert. Tramèr et al. (2016) zeigten, dass dies gegen kommerzielle MLaaS-APIs praktikabel ist; moderne Varianten extrahieren bei LLMs feinjustierte Stile, System-Prompts oder sogar kleine Dense-Layer. Ziele sind IP-Diebstahl, Umgehung kostenpflichtiger Nutzung, Offline-Erstellung adversarieller Beispiele und Rückgewinnung proprietärer Daten aus den Gewichten. Schutz bieten Query-Ratenlimits, Anomalie-Erkennung auf Zugriffsmustern, Watermarking, Rückgabe nur der Top-k-Labels und kalibriertes Rauschen auf Konfidenzwerten.

● Beispiele

01
Millionenfaches Abfragen eines kommerziellen Klassifikators, um einen kostenlosen Klon mit denselben Ausgaben zu trainieren.
02
Rekonstruktion eines proprietären System-Prompts durch Sampling der Antworten eines LLM-Assistenten.

● Häufige Fragen

Was ist Modell-Extraktion?

Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Modell-Extraktion?

Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.

Wie schützt man sich gegen Modell-Extraktion?

Schutzmaßnahmen gegen Modell-Extraktion kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Modell-Extraktion?

Übliche alternative Bezeichnungen: Model Stealing, Funktionalitäts-Extraktion.

● Verwandte Begriffe

● Siehe auch

Uebertragbarer Adversarialer Angriff