Extração de modelo

Revisado porFlorian AmetteCybersecurity entrepreneur & security researcher

O que é Extração de modelo?

Extração de modeloAtaque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.

A extração de modelo (model stealing) trata o modelo implementado como um oráculo. O atacante envia grandes quantidades de entradas cuidadosamente preparadas, regista as saídas (logits, probabilidades ou apenas etiquetas) e treina um modelo substituto que aproxima a vítima. Tramèr et al. (2016) mostraram que isto é prático contra APIs comerciais de MLaaS; variantes modernas visam LLMs, extraindo estilos fine-tuned, prompts de sistema ou pequenas camadas densas. Os objetivos incluem roubo de propriedade intelectual, contornar uso pago, construir exemplos adversariais offline e recuperar dados proprietários gravados nos pesos. As defesas incluem limites de taxa, deteção de anomalias em padrões de acesso, marcas de água em saídas, devolução apenas das etiquetas top-k e ruído calibrado nos scores de confiança.

● Exemplos

01
Consultar milhões de vezes um classificador comercial para treinar um clone gratuito que imita as suas saídas.
02
Reconstruir um prompt de sistema proprietário amostrando as respostas de um assistente baseado em LLM.

● Perguntas frequentes

O que é Extração de modelo?

Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Extração de modelo?

Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.

Como se defender contra Extração de modelo?

As defesas contra Extração de modelo costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Extração de modelo?

Nomes alternativos comuns: Roubo de modelo, Extração de funcionalidade.

● Termos relacionados

● Ver também

Ataque Adversarial Transferivel