Extração de modelo
O que é Extração de modelo?
Extração de modeloAtaque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
A extração de modelo (model stealing) trata o modelo implementado como um oráculo. O atacante envia grandes quantidades de entradas cuidadosamente preparadas, regista as saídas (logits, probabilidades ou apenas etiquetas) e treina um modelo substituto que aproxima a vítima. Tramèr et al. (2016) mostraram que isto é prático contra APIs comerciais de MLaaS; variantes modernas visam LLMs, extraindo estilos fine-tuned, prompts de sistema ou pequenas camadas densas. Os objetivos incluem roubo de propriedade intelectual, contornar uso pago, construir exemplos adversariais offline e recuperar dados proprietários gravados nos pesos. As defesas incluem limites de taxa, deteção de anomalias em padrões de acesso, marcas de água em saídas, devolução apenas das etiquetas top-k e ruído calibrado nos scores de confiança.
● Exemplos
- 01
Consultar milhões de vezes um classificador comercial para treinar um clone gratuito que imita as suas saídas.
- 02
Reconstruir um prompt de sistema proprietário amostrando as respostas de um assistente baseado em LLM.
● Perguntas frequentes
O que é Extração de modelo?
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Extração de modelo?
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
Como funciona Extração de modelo?
A extração de modelo (model stealing) trata o modelo implementado como um oráculo. O atacante envia grandes quantidades de entradas cuidadosamente preparadas, regista as saídas (logits, probabilidades ou apenas etiquetas) e treina um modelo substituto que aproxima a vítima. Tramèr et al. (2016) mostraram que isto é prático contra APIs comerciais de MLaaS; variantes modernas visam LLMs, extraindo estilos fine-tuned, prompts de sistema ou pequenas camadas densas. Os objetivos incluem roubo de propriedade intelectual, contornar uso pago, construir exemplos adversariais offline e recuperar dados proprietários gravados nos pesos. As defesas incluem limites de taxa, deteção de anomalias em padrões de acesso, marcas de água em saídas, devolução apenas das etiquetas top-k e ruído calibrado nos scores de confiança.
Como se defender contra Extração de modelo?
As defesas contra Extração de modelo costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Extração de modelo?
Nomes alternativos comuns: Roubo de modelo, Extração de funcionalidade.
● Termos relacionados
- ai-security№ 704
Inversão de modelo
Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.
- ai-security№ 666
Ataque de inferência de pertença
Ataque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.
- ai-security№ 034
Risco de cadeia de fornecimento de IA
Conjunto de ameaças decorrentes dos datasets, modelos base, bibliotecas, plug-ins e infraestrutura de terceiros que as organizações combinam para construir e implementar sistemas de IA.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 035
Marca de água de IA
Técnicas que incorporam um sinal detetável em conteúdo gerado por IA para que a sua proveniência, modelo de origem ou pertença ao conjunto de treino possam ser verificados depois.