Extração de modelo
O que é Extração de modelo?
Extração de modeloAtaque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
A extração de modelo (model stealing) trata o modelo implementado como um oráculo. O atacante envia grandes quantidades de entradas cuidadosamente preparadas, regista as saídas (logits, probabilidades ou apenas etiquetas) e treina um modelo substituto que aproxima a vítima. Tramèr et al. (2016) mostraram que isto é prático contra APIs comerciais de MLaaS; variantes modernas visam LLMs, extraindo estilos fine-tuned, prompts de sistema ou pequenas camadas densas. Os objetivos incluem roubo de propriedade intelectual, contornar uso pago, construir exemplos adversariais offline e recuperar dados proprietários gravados nos pesos. As defesas incluem limites de taxa, deteção de anomalias em padrões de acesso, marcas de água em saídas, devolução apenas das etiquetas top-k e ruído calibrado nos scores de confiança.
● Exemplos
- 01
Consultar milhões de vezes um classificador comercial para treinar um clone gratuito que imita as suas saídas.
- 02
Reconstruir um prompt de sistema proprietário amostrando as respostas de um assistente baseado em LLM.
● Perguntas frequentes
O que é Extração de modelo?
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Extração de modelo?
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
Como se defender contra Extração de modelo?
As defesas contra Extração de modelo costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Extração de modelo?
Nomes alternativos comuns: Roubo de modelo, Extração de funcionalidade.