Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 703

Modell-Extraktion

Was ist Modell-Extraktion?

Modell-ExtraktionAngriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.


Modell-Extraktion (Model Stealing) behandelt das bereitgestellte Modell wie ein Orakel. Der Angreifer sendet eine große Zahl gezielt konstruierter Eingaben, protokolliert die Ausgaben (Logits, Wahrscheinlichkeiten oder reine Labels) und trainiert ein Surrogat-Modell, das das Opfer annähert. Tramèr et al. (2016) zeigten, dass dies gegen kommerzielle MLaaS-APIs praktikabel ist; moderne Varianten extrahieren bei LLMs feinjustierte Stile, System-Prompts oder sogar kleine Dense-Layer. Ziele sind IP-Diebstahl, Umgehung kostenpflichtiger Nutzung, Offline-Erstellung adversarieller Beispiele und Rückgewinnung proprietärer Daten aus den Gewichten. Schutz bieten Query-Ratenlimits, Anomalie-Erkennung auf Zugriffsmustern, Watermarking, Rückgabe nur der Top-k-Labels und kalibriertes Rauschen auf Konfidenzwerten.

Beispiele

  1. 01

    Millionenfaches Abfragen eines kommerziellen Klassifikators, um einen kostenlosen Klon mit denselben Ausgaben zu trainieren.

  2. 02

    Rekonstruktion eines proprietären System-Prompts durch Sampling der Antworten eines LLM-Assistenten.

Häufige Fragen

Was ist Modell-Extraktion?

Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Modell-Extraktion?

Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.

Wie funktioniert Modell-Extraktion?

Modell-Extraktion (Model Stealing) behandelt das bereitgestellte Modell wie ein Orakel. Der Angreifer sendet eine große Zahl gezielt konstruierter Eingaben, protokolliert die Ausgaben (Logits, Wahrscheinlichkeiten oder reine Labels) und trainiert ein Surrogat-Modell, das das Opfer annähert. Tramèr et al. (2016) zeigten, dass dies gegen kommerzielle MLaaS-APIs praktikabel ist; moderne Varianten extrahieren bei LLMs feinjustierte Stile, System-Prompts oder sogar kleine Dense-Layer. Ziele sind IP-Diebstahl, Umgehung kostenpflichtiger Nutzung, Offline-Erstellung adversarieller Beispiele und Rückgewinnung proprietärer Daten aus den Gewichten. Schutz bieten Query-Ratenlimits, Anomalie-Erkennung auf Zugriffsmustern, Watermarking, Rückgabe nur der Top-k-Labels und kalibriertes Rauschen auf Konfidenzwerten.

Wie schützt man sich gegen Modell-Extraktion?

Schutzmaßnahmen gegen Modell-Extraktion kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Modell-Extraktion?

Übliche alternative Bezeichnungen: Model Stealing, Funktionalitäts-Extraktion.

Verwandte Begriffe

Siehe auch