Modell-Extraktion
Was ist Modell-Extraktion?
Modell-ExtraktionAngriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
Modell-Extraktion (Model Stealing) behandelt das bereitgestellte Modell wie ein Orakel. Der Angreifer sendet eine große Zahl gezielt konstruierter Eingaben, protokolliert die Ausgaben (Logits, Wahrscheinlichkeiten oder reine Labels) und trainiert ein Surrogat-Modell, das das Opfer annähert. Tramèr et al. (2016) zeigten, dass dies gegen kommerzielle MLaaS-APIs praktikabel ist; moderne Varianten extrahieren bei LLMs feinjustierte Stile, System-Prompts oder sogar kleine Dense-Layer. Ziele sind IP-Diebstahl, Umgehung kostenpflichtiger Nutzung, Offline-Erstellung adversarieller Beispiele und Rückgewinnung proprietärer Daten aus den Gewichten. Schutz bieten Query-Ratenlimits, Anomalie-Erkennung auf Zugriffsmustern, Watermarking, Rückgabe nur der Top-k-Labels und kalibriertes Rauschen auf Konfidenzwerten.
● Beispiele
- 01
Millionenfaches Abfragen eines kommerziellen Klassifikators, um einen kostenlosen Klon mit denselben Ausgaben zu trainieren.
- 02
Rekonstruktion eines proprietären System-Prompts durch Sampling der Antworten eines LLM-Assistenten.
● Häufige Fragen
Was ist Modell-Extraktion?
Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Modell-Extraktion?
Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
Wie funktioniert Modell-Extraktion?
Modell-Extraktion (Model Stealing) behandelt das bereitgestellte Modell wie ein Orakel. Der Angreifer sendet eine große Zahl gezielt konstruierter Eingaben, protokolliert die Ausgaben (Logits, Wahrscheinlichkeiten oder reine Labels) und trainiert ein Surrogat-Modell, das das Opfer annähert. Tramèr et al. (2016) zeigten, dass dies gegen kommerzielle MLaaS-APIs praktikabel ist; moderne Varianten extrahieren bei LLMs feinjustierte Stile, System-Prompts oder sogar kleine Dense-Layer. Ziele sind IP-Diebstahl, Umgehung kostenpflichtiger Nutzung, Offline-Erstellung adversarieller Beispiele und Rückgewinnung proprietärer Daten aus den Gewichten. Schutz bieten Query-Ratenlimits, Anomalie-Erkennung auf Zugriffsmustern, Watermarking, Rückgabe nur der Top-k-Labels und kalibriertes Rauschen auf Konfidenzwerten.
Wie schützt man sich gegen Modell-Extraktion?
Schutzmaßnahmen gegen Modell-Extraktion kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Modell-Extraktion?
Übliche alternative Bezeichnungen: Model Stealing, Funktionalitäts-Extraktion.
● Verwandte Begriffe
- ai-security№ 704
Modell-Inversion
Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
- ai-security№ 666
Membership-Inference-Angriff
Privacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
- ai-security№ 034
AI-Supply-Chain-Risiko
Summe der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 035
KI-Watermarking
Techniken, die ein erkennbares Signal in KI-generierte Inhalte einbetten, sodass deren Provenance, Ursprungsmodell oder Zugehörigkeit zu einem Trainingsdatensatz später verifiziert werden kann.